当前位置:首页 > 知识库 > 正文

技术及excel建模实践 快手业务代低价微信支付 -抖音双击播放量网站 - 说说赞免费领取网址

客服   技术及excel建模实践 快手业务代低价微信支付 -抖音双击播放量网站 - 说说赞免费领取网址  第1张 拼多多砍价dy抖音ks快手 自助商城点击进入

编者按:在 NeurIPS 2022 联合 Open Graph Benchmark 举办的大规模图学习竞赛(Open Graph Benchmark Large-Scale Challenge技术及excel建模实践,OGB-LSC)上,微软亚洲研究院数据、知识与智能(DKI)组的研究员们聚焦知识图谱的链接预测任务,通过更好的知识图谱补全方案,实现了知识图谱更高的“时效性”、“准确性”和“完备性”。而在今年2月 WSDM 2022 联合亚马逊举办的动态异质图上的链接预测竞赛中,DKI 组的研究员们也取得了优异的成绩,其研究成果强调了对异质图信息和时序信息的建模。

在图深度学习领域的持续深耕,让微软亚洲研究院 DKI 组提出了一系列新方法和新思路,为多项研究成果的突破奠定了基础。那么对于图深度学习技术在知识计算领域的应用,微软亚洲研究院的研究员们有哪些独到的理解?又预见了哪些前沿的研究方向?

图(Graph),作为一种通用的数据组织方式,被广泛应用于建模实体间的联系,例如知识图谱、社交网络、交通路网、引文网络、互联网以及云服务依赖关系网络等。随着深度学习技术的快速发展,由深度学习与图数据处理相结合,催生出了图深度学习这一热门的研究方向,并以图嵌入、图神经网络等技术为代表对图数据进行学习和分析。从数据的角度来看,图深度学习如今已成为图数据分析背后的重要技术。

微软亚洲研究院数据、知识与智能(Data, Knowledge and Intelligence,DKI)组一直致力于发掘数据的价值,因此,DKI 组的研究员们希望从数据分析和知识提取中获取洞见,以更有效的图深度学习技术来赋能企业级的数据分析和知识计算。所谓知识计算就是指利用计算机程序来处理人类知识的过程,而且在这个过程中要将人类的知识转化为计算机可以理解的形式,并用这些信息解决复杂的问题。

知识计算领域的数据对象往往很有特点,其中的典型数据包括知识图谱和根据领域特点自定义的异构网络,这类图中的节点和边有更明确的语义,而且往往有确定的实体名和关系类型名,还常具有详细的文本描述。图的结构和语义信息都是对分析结果有明显影响的要素,基于这两种信息融合的知识表示也非常具有挑战性,所以图学习模型的设计也要更有针对性。

目前对知识的建模手段主要有两类:一类是通过大规模语言模型隐式建模知识,但这类模型的可控度和可解释性较低,有些回答真假难辨,比如 ChatGPT;另一类是通过显式的知识建模,利用结构化的知识表达,将其存储于知识库中,可以显式进行问答、推理等任务,然而如何更好地利用知识库中的知识却是个难题。

微软亚洲研究院 DKI 组的研究员们认为可以利用图深度学习技术及excel建模实践,从以下几个方面增强显式知识建模的能力:

(1)增强知识表示能力。通过相应技术学习得到知识的向量表示,让现有的智能模型可以更好地利用知识库中的知识。

(2)提升知识挖掘能力。图深度学习技术可以用来挖掘知识图谱结构中的隐藏关系,从而更好地理解知识中的含义和关联性。

(3)扩展知识应用范围。图深度学习技术能够应用于多种领域,如自然语言处理、推荐系统、知识图谱构建等,为知识计算的应用提供了更多的可能性。

知识图谱是最为常用的显式建模知识的方式,它是一种用节点表示实体,用连边表示关系的图结构组织方式。针对知识图谱的图深度学习技术是知识计算中非常重要的一环。目前,知识图谱上的图深度学习方法以嵌入技术为主,该类技术将实体和关系映射到低维向量空间,用来表示知识图谱中实体和关系之间的相似度,从而进行知识图谱的推理、推荐和分类等任务。在应用外部知识解决各类智能任务的过程中,图深度学习也发挥着重要作用。

“我们希望利用图深度学习来增强显式建模知识的能力,并结合知识图谱和图深度学习进行更多探索。针对知识图谱,我们通过图深度学习来挖掘更多潜在的隐藏关系,力争得到更全面、完善的知识表达,这也是我们在 NeurIPS 2022 大规模图学习竞赛 OGB-LSC 上的课题,比赛结果表明我们的研究已经取得了阶段性成果。”微软亚洲研究院 DKI 组主管研究员杜仑表示。

系列研究让图深度学习模型更通用、更稳定

图深度学习领域的研究内容非常广泛,微软亚洲研究院 DKI 组将系列研究聚焦在了图深度学习需要持续攻克的几个课题上:设计更通用、更具泛化性的图深度学习模型和更稳定有效的模型训练策略,以及探索更广泛的图模型应用场景。

从模型设计的角度,目前很多模型都擅长处理具有同配属性的数据。同配属性是指图上节点具有相邻相似性,这种性质在传统的图研究对象中存在较多,例如社交网络、交通路网等等,然而图数据的覆盖面非常广,例如企业中团队协作的关系网络就有更明显的优势互补倾向,或者推荐系统中用户对于内容不喜欢的反馈网络显然不具备同配关系。那么如何建模更广泛类型的图,并挖掘更多图中的有效信号,是目前模型设计上的一个挑战。

从模型训练的角度来看,由于图数据中节点和节点的连边导致训练过程中无法简单地流式遍历数据,需要配合图采样等技术才能进行有效的训练,因此如何在保证高效训练的同时又尽可能减少信息损失,是真实大规模图数据场景中的重要问题。除了图特有的问题外,图深度学习模型的训练也会遇到其他深度学习模型所面临的类似的问题,比如如何保证训练的稳定性、效率和最终模型的泛化表现等。

此外,图模型的过压缩(oversquashing)、过平滑(oversmoothing),以及一般深度学习的模型初始化、过拟合等也都是需要一一解决的问题。

经过近几年的持续研究,DKI 组的研究员们在适用范围更广、可解释性更强的图模型设计,以及一些通用的提高模型训练稳定性和泛化性的设计等方面都取得不少突破性成果。

在更具泛化性的模型结构设计方面,研究员们提出了针对图同配性和异配性同时建模的双核图网络模型,和针对邻域特征分布建模的混合矩图网络模型:

图1:GBK-GNN 模型架构图

图2:MM-GNN 模型架构图

在探索稳定的图深度学习模型的过程中,微软亚洲研究院 DKI 组还发现了稳定神经元的响应对模型泛化能力提升的帮助,提出了基于信息瓶颈理论的神经元竞争初始化策略:

微软亚洲研究院 DKI 组还利用图建模方法赋能了更多领域,提出了基于图模型增强的表格理解深度网络。表格数据结构的自动化理解是对文档表格和网页表格进行数据分析的重要步骤。然而,表格数据类型多样,包括便于存储的数据库表格、为了利于展示的电子表格以及结构更为灵活的问卷式表格,这大大增加了表格理解的难度。对此,研究员们利用图结构灵活、泛用性强的特点,引入了图建模的思路,兼顾了建模表格结构以及表格中文本的语义信息,设计了一个面向表格的通用深度网络,可以有效地理解表格结构。此外,网络中还引入了行粒度和列粒度上的双向循环神经网络模块,以更好地理解表格不同区域间的边界关系。在两种不同数据粒度的真实表格理解任务中,该方法都取得了最优表现。

技术及excel建模实践 快手业务代低价微信支付 -抖音双击播放量网站 - 说说赞免费领取网址  第2张

加强合作,推动图深度学习赋能更多场景

微软亚洲研究院 DKI 组在图深度学习研究中所取得的阶段性技术突破,现已开始应用在众多业务场景中。例如,在 Excel 中,通过图建模的方法引入 WordNet 作为建模表格语义信息时的外部知识,对表格结构识别任务有明显提升。而在领英(LinkedIn)的工作推荐功能中,一个很重要的问题是如何把合适的工作推荐给合适的人。领英与 DKI 组合作通过异构图建模包括行业信息、教育背景、技能等在内的领域知识,并结合异构图 GNN 模型同时建模领域知识与用户行为等信息,当前已在线下实验中取得了明显的推荐准确率提升。

除此之外,微软亚洲研究院 DKI 组还与学术界的高校和科研机构合作,一道推进图深度学习领域的进步与应用。通过微软亚洲研究院铸星计划,DKI 组的研究员与中科院计算所的学者共同探索了结合图模型的交通轨迹数据的表示学习,借由层级图模型建模数据点的物理距离,有效提升了轨迹表示学习模型的效果。在与上交所的研究合作中,研究员们对大规模图处理进行了研究,提出了新的图模型加速推断方法,使推理过程更高效。

对于图深度学习未来的研究规划,微软亚洲研究院首席研究员韩石表示,“下一步,微软亚洲研究院 DKI 组将持续推进企业级知识计算领域与相关基础研究的探索,包括文档智能、显式知识表示和大规模语言模型的结合、以及图深度学习模型等。同时,我们也希望可以与更多学术机构和专家学者合作,共同探索图深度学习的前沿发展方向。”

感谢微软亚洲研究院 DKI 组图深度学习研究团队(成员包括:杜仑、陈旭、马晓君、付强、韩石)对本文的贡献。

相关论文链接:

1. Solution for NeurIPS 2022 OGB-LSC

2. HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction

3. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22

4. MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution, WSDM’23

5. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22

6. Neuron Campaign for Initialization Guided by Information Bottleneck Theory,Best Short Paper at CIKM’21

7. TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data, KDD’21

发表评论

最新文章

推荐文章