信息抽取技术进展【3】 -- 关系抽取技术
信息抽取技术进展【3】-- 关系抽取技术
【摘要 】行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。
【引自】万字综述:行业知识图谱构建最新进展
作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]
单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]
1. 简介
关系抽取指的是对给定的实体对之间的关系类型进行分类。相较于OpenIE中的不固定类型的关系抽取,本部分所讲的关系抽取统指固定关系类别集合的关系抽取。 ...
信息抽取技术进展【2】 --命名实体识别技术
信息抽取技术进展【2】-- 命名实体识别
【摘要 】领域知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,领域知识图谱的schema构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了领域知识图谱的落地且降低了图谱的接受度。本文对与上述schema构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动schema构建方面的实践,同时给出了Document AI和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。
【引自】万字综述:领域知识图谱构建最新进展
作者:李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1]
单位:阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2]
1. 简介
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定含义的实体及类型。常用NER数据集中的实体类型主 ...
信息抽取技术进展【2】 --命名实体识别及关系抽取
信息抽取技术进展【1】-- 概述
【摘要 】从非结构化文本中提取对人类有意义的信息,是自由文本在DIKW金字塔中从数据层提升至知识层的关键性步骤,而其主要实现手段就是信息抽取,即将自由文本转换为结构化文本。本文对信息抽取技术做一简单介绍。
【引自】李晶阳、牛广林等的**《万字综述:行业知识图谱构建最新进展》**等文章
1. 引言
从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。
知识图谱的应用现在非常广泛:
在通用领域
Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston问答机器人、苹果的Siri语音助手和Wolfram Alpha都利用图谱来进行问题理解、推理和问答;
在各垂直领域
行业数据也在从大规模数据到图谱化知识快速演变,且基于图谱形式的行业知识,对智能客服、智能决策、智 ...
数据、信息、知识与智慧----知识金字塔
数据、信息、知识与智慧----知识金字塔模型
1 知识金字塔
正确地理解知识,需要从知识金字塔开始说起,通过多层次的概念梳理,有助于理解知识的内涵。知识金字塔是指“数据-信息-知识-智慧”层次结构(DIKW)模型,也被称为“知识层次结构”、“信息层次结构”等,是被广泛认可的信息和知识模型。
DIKW层次结构用于关联数据、信息、知识和智慧的上下文关系,并标识和描述层次结构中较低级别的实体(如数据)向高级别实体(如信息)转换所涉及的过程。 需要注意的是,知识金字塔模型中通常隐含着如下假设:数据可用于创建信息,信息可以用于创造知识,知识可用于创造智慧。 而Ackoff [1]认为:该层次结构模型中,每个较高类型“都包括低于它的类型”。
2 相关概念的讨论
多年来,相当多的注意力主要集中在信息和知识的定义和区别上。
(1)信息的本质
因为信息是我们生存的基础,因此已被许多学科所考虑,包括传播理论、图书馆与信息科学、信息系统、认知科学和组织科学等。这对信息的性质产生了多种观点。
弗洛里迪(Floridi)建议,“在我们一般的技术概念中,信息是目前最重要、应用最广泛、但了解最少的信息 ...
GeoAI 的近期研究总结与思考
【摘 要】本文摘自武汉大学学报,作者在文章中列举了大量GeoAI领域的文献参考,值得收藏。尤其是梳理和总结了当前5个主要研究热点方向,并列出了最近急迫需要解决的3个方面挑战。
【原 文】高松,地理空间人工智能的近期研究总结与思考,武汉大学学报,DOI:10.13203/j.whugis20200597
1 GeoAI 的发展历史简介
(1)GeoAI背景
人工智能(AI)领域的技术进步给地理空间相关领域研究的智能化发展和融合创新带来了新机遇和新挑战。
近期快速发展的主要动力来自于深度学习模型和开发框架的快速发展、产业化的日趋成熟、各行业领域大数据的爆发、计算机硬件计算性能不断升级,进而可以支持在很短的时间内训练和部署人工智能模型、支持数据驱动的智能化决策和产业变革
(2)什么是GeoAI?
地理空间人工智能(GeoAI)是地理空间科学与人工智能相结合的交叉学科研究方向
GeoAI通过研究与开发机器的空间智能,提升对于地理现象和地球科学过程的动态感知、智能推理和知识发现能力
GeoAI寻求解决人类和地球环境系统相互作用中的重大科学和工程问题
比如:人口迁移预测、复杂条 ...
Git简明教程
Git简明教程
1. 个人基本故事线
下图是从个人开发者角度所能观察到的场景:
1.1 如何从远程仓库获取代码
git clone
第一次时用克隆
git fetch
第二次开始
将远程仓库代码拉取到本地仓库
无冲突时checkout到工作区
有冲突时merge到工作区
git pull
第二次开始
掌握pull和fetch的区别
pull = fetch+merge
1.2 提交代码到远程仓库
git add .
从工作区添加到暂存区
git commit
从暂存区更新到本地仓库
git commit -a = git add . + git commit
git push
从本地仓库更新到远程仓库
1.3 手工创建本地仓库并与远程仓库同步
git init
初始化一个本地仓库
git remote add origin <远程仓库地址>
将本地仓库关联到远程仓库
若有已经关联的远程仓库,使用git remote rm origin删除老的远程仓库
拉取远程仓库,与 ...
黑盒变分推断
【摘要】 变分推断已经成为一种广泛使用的方法,用于近似隐变量的复杂后验分布。 然而,传统方法推导出一个变分推断算法需要进行大量的特定模型分析。 这可能会阻碍我们快速开发和探索解决问题的模型。 本文中提出了一种黑盒变分推断算法,该算法可以快速应用于许多模型,几乎不需要额外的推导。我们采用的方法是基于变分目标做随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算得出,进而避免了对梯度解析形式的推导。考虑到随机优化存在方差变大的问题, 我们同时开发了一些减少梯度方差的方法,并始终保持了避免推导的简易性。 我们将本方法与相应的黑盒采样方法进行对比评估,发现本方法相比于采样方法,能更快达到较好的预测似然。 最后,通过快速构建和评估医疗数据中的几个模型,我们证明了黑盒变分推断法可以轻松探索更为广阔的模型空间。
【原文】Ranganath, R., Gerrish, S., and Blei, D. M. (2014). Black box variational inference. In Artificial Intelligence and Statistics, Vol 37 ...
使用预测方差削减加速随机梯度下降
【摘要】
【原文】R. Johnson and T. Zhang. Accelerating stochastic gradient descent using predictive variance reduction. In NIPS, 2013
#refplus, #refplus li{
padding:0;
margin:0;
list-style:none;
};
document.querySelectorAll(".refplus-num").forEach((ref) => {
let refid = ref.firstChild.href.replace(location.origin+location.pathname,'');
let refel = document.querySelector(refid);
let refnum = refel.dataset.num;
...
随机变分推断
【摘 要】 随机变分推断是一种用于近似后验分布的可扩展算法。我们为一般性的概率模型开发了该技术,并且用两个概率主题模型(潜狄利克雷分配和分层狄利克雷过程主题模型)来证明了它的可用性。我们使用随机变分推断分析了几个大型文档集合:来自 Nature 的 30 万篇文章、来自《纽约时报》的 180 万篇文章和来自维基百科的 380 万篇文章。结果表明:随机变分推断可以轻松处理如此大规模的数据集,并且优于只能处理较小数据集的传统变分推断。我们还表明贝叶斯非参数主题模型的表现要优于参数模型。
【原 文】 Hoffman, M., Blei, D. M., Wang, C., & Paisley, J. (2013). Stochastic Variational Inference. arXiv: http://arxiv.org/abs/1206.7051
1 问题提出
现代数据分析需要使用海量数据进行计算。想象下如下案例:
(1) 我们拥有 200 万本书的原始文本档案,经过扫描并在线存储。我们想发现文本中的主题,并按主题来组织书籍,最终为用户提供一个可以来探索收藏的浏览 ...