西山晴雪的知识笔记

发表于2021-04-10|基础理论知识知识图谱

知识图谱数据管理综述：模型、方法和系统【摘要】随着人工智能的兴起，知识图谱被广泛认为是人工智能的基石。近年来，学术界和工业界构建并发布了越来越多的大规模知识图。知识图本质上是一个由实体、实体属性、实体间语义关系以及本体组成的大型网络。这种基于图的知识数据对传统数据管理理论和技术提出了巨大的挑战。本文介绍了知识图谱数据管理的研究现状，包括知识图谱数据模型、查询语言、存储方案、查询处理和推理。本文还将介绍各种知识图数据库管理系统的最新发展趋势。【原文】Wang, X. and W. Chen (2020). Knowledge Graph Data Management: Models, Methods, and Systems. Web Information Systems Engineering （WISE 2020）: 3-12. 【DOI】https://doi.org/10.1007/978-981-15-3281-8_1 1 概况知识图作为符号主义的最新发展，近年来被学术界和产业界广泛认为是人工智能的重要基石。目前，具有数百万个顶点( 10610^6106 ...

深度神经网络的优化技巧

发表于2021-04-10|预测任务神经网络

深度神经网络的优化技巧引起：剑启郁兰 2019-08-05 21:36:30 1、深度神经网络主要要素结构 2、神经网络优化技巧框图 3、数据预处理部分 4、权重初始化部分 5、批量归一化部分 6、优化方法部分 7、激活函数部分 8、正则化和超参设置部分 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dat ...

➃ 线性回归模型：样条回归

发表于2021-04-10|预测任务广义线性模型

【摘要】样条回归【原文】【see also】《高斯过程的可视化探索》；《稀疏高斯过程及其推断》；《深度高斯过程》 p{text-indent:2em;2} 1 样条回归 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.inne ...

地理知识发现中的空间显式人工智能技术

发表于2021-04-09|GeoAI概览

GeoAI：地理知识发现中的空间显式人工智能技术【摘要】近年随着深度学习技术的突飞猛进，相关技术在地理信息科学领域也得到大量研究和应用。但随着大家对问题的深入理解，逐步意识到这些机器学习方法在解决地学问题上有些捉襟见肘，特别是很多机器学习模型几乎不考虑地理位置的作用，把很多地学问题转变成了计算机科学问题，引起了业内很多专家的质疑。本文为加州大学 Krzysztof Janowicz 教授 2017 年在地理信息科学杂志 GeoAI 专刊上发表的一篇评论文章，明确提出在地理空间人工智能领域中，空间显示模型需要得到重视和发展。【原文摘要】无。【原文】Janowicz, K., et al. （2019）. “GeoAI: spatially explicit artificial intelligence techniques for geographic knowledge discovery and beyond.” International Journal of Geographical Information Science 34（4）: 625-636. 【 ...

GeoAI：社交媒体数据用于灾害管理的研究综述

发表于2021-04-09|地理知识图谱知识获取与融合地理文本与社交媒体

p{text-indent:2em} 社交媒体数据用于灾害管理的研究综述【摘要】近期看到不少论文在探讨社交媒体数据如何用于灾害管理，正想自己整理一篇综述，意外被推送过来一篇纽卡斯尔大学学者发表的调查报告。【原文摘要】社交媒体在灾害管理中发挥了重要作用，因为它使公众可以通过报告与灾难事件有关的事件来促进灾害的监测。然而，庞大而多样的社交媒体数据，严重制约了其在灾害管理中的可用性，因此，本文提出了社会媒体数据用于灾害管理面临的挑战。我们也提供了对社交媒体数据如何促进灾害管理，以及社交媒体数据管理方法和灾害管理分析方法的调查。该调查包括社交媒体数据分类、事件检测方法以及空间和时间信息抽取。此外，还提出了社交媒体数据管理研究、灾害管理分析等分类方法，并讨论各种方法的核心优势和缺点。【原文】Phengsuwan, J.; Shah, T.;Thekkummal, N.B.; Wen, Z.; Sun, R.;Pullarkatt, D.; Thirugnanam, H.;Ramesh, M.V .; Morgan, G.; James, P .;Ranjan, R. Use ...

Apache Spark简明教程

发表于2021-04-09|软件安装与使用ApacheSpark

Apache Spark简明教程 1 Spark集群物理结构注：Spark的运行不一定依赖于Spark集群，还支持本地、YARN、MESOS。Spark集群只是Apache Spark提供的一种分布式计算环境。（1）Master （1）监听Worker，看Worker是否正常工作（2）接收worker的注册并管理所有的worker （3）接收和调度client提交的application，并向worker分派任务（2）Worker （1）通过RegisterWorker注册到Master （2）定时发送心跳给Master （3）根据master分派的application配置进程环境，并启动执行Task所需的进程（StandaloneExecutorBackend） 2 系统运行时结构（1）Client角色提交任务者（2）Driver角色 Driver是执行开发程序中main方法的进程功能（1）把application转为task （2）跟踪Executor的运行状况（3）为Executor节点分派任务（4）UI展示应用运行状况 ...

Power Shell的使用与配置

发表于2021-04-08|软件安装与使用PowerShell

Power Shell的使用与配置 Windows下终于有可用的shell了。Power Shell自5.0版本之后，可用性越来越高，对于经常使用windowns的人来说，是一大福音。 1. Power Shell的安装见power shell的github主页，可以下载安装各种稳定版和预览版 https://github.com/PowerShell/PowerShell 2. Windows Terminal的安装 Windows Terminal好用了很多，支持多种配置文件和界面配置，一经发布得到很多人的喜欢，尤其是配合wsl、power shell等效果非常好。可以通过微软商店来安装，也可以到其github主页下载安装 https://github.com/microsoft/terminal/ 3. Power Shell 的常用配置（1）传输安全控制协议问题：新版PowerShell改变了传输安全策略，导致在power shell中访问网络资源总是报SSL无法连接的错误解决办法： [Net.ServicePointManager]::Sec ...

数值优化算法【4】-- Adam 方法

发表于2021-04-08|基础理论知识最优化理论

数值优化算法【4】-- Adam 方法 RMSProp 和 AdaDelta 均采用加权移动平均的方法，对二阶动量做了窗口限制，使得学习效率得到明显提升； AdaDelta 方法进一步对学习率的分子项做了自动累积计算，无需人工指定全局学习率超参数（实际情况表明， AdaDelta 容易陷入局部最优解的陷阱）。 Adam 算法则采用了另外一种思路，其没有将思路放在自动计算学习率上，而是考虑将一阶动量引入学习率的更新，使学习过程更优。 1、算法介绍 Adam 算法使用了一阶动量变量 vt\boldsymbol{v}_tvt 和 RMSProp 算法中的二阶动量变量 Gt\boldsymbol{G}_tGt ，并在时间步0将其初值置为0。给定超参数 0≤β1<10 \leq \beta_1 < 10≤β1<1 （算法作者建议设为 0.90.90.9 ），时间步 ttt 的一阶动量变量 vt\boldsymbol{v}_tvt 为梯度 gt\boldsymbol{g}_tgt 与 vt−1v_{t-1}vt−1 加权移动平均： vt←β ...

④ 线性回归模型：套索回归

发表于2021-04-05|预测任务广义线性模型

其中是一个函数，我们将调用反向链接函数。有许多反向链接函数可供选择；可能最简单的是恒等函数。这是一个返回与其参数相同的值的函数。第3章“线性回归建模”中的所有模型都使用了单位函数，为简单起见，我们只是省略了它。身份功能本身可能不是很有用，但它允许我们以更统一的方式考虑几种不同的模型。套索回归 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }； document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = ...

数值优化算法【3】-- 动量法及其变种

发表于2021-04-04|基础理论知识最优化理论

数值优化算法【3】-- 动量法及其变种一、问题的提出上节提到的批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降法(MBGD)，基础完全一致，区别仅在于批大小（batch size）的不同。虽然由于批大小不同带来了很多不同的特性，但它们均避免不了一个问题，即模型参数的更新方向依赖于当前batch计算出的梯度，这可能会带来一些问题。让我们考虑一个输入为二维向量 x=[x1,x2]⊤\boldsymbol{x} = [x_1, x_2]^\topx=[x1,x2]⊤ 、输出为标量的目标函数f(x)=0.1x12+2x22f(\boldsymbol{x})=0.1x_1^2+2x_2^2f(x)=0.1x12+2x22。下图为基于该目标函数的梯度下降，学习率为 0.40.40.4 时的自变量迭代轨迹。可以看到，同一位置上，目标函数在竖直方向（x2x_2x2轴方向）比在水平方向（x1x_1x1轴方向）的斜率的绝对值更大。因此，给定学习率，梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么，我们需要一个较小的学习率从而避免自变量在竖 ...