最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 基于图学习的热点挖掘与兴趣点建模(组图)

    编辑:加州大学吴启尧

    制作平台:DataFunTalk

    简介:自然语言处理存在于现实生活中的各种应用中,如百度、谷歌、雅虎等搜索引擎,以及智能家居助手、微软小冰、小米小爱、百度小度等虚拟偶像角色。微博、知乎和抖音等社交网络也涉及短文本或长文本的自然语言分析和标签聚合。在自然语言处理中,有两个核心问题:以什么形式表示文本;我们应该如何根据某种形式进行建模和计算。我们相信图神经网络是该领域的下一个发展,因为自然语言是一种组合和分层的东西。今天分享的主题是基于图学习的热点挖掘和兴趣点建模。

    今天的演讲将围绕以下三点展开:

    01

    自然语言处理背景介绍

    首先,我想和大家分享一下自然语言处理的背景。

    自然语言处理领域中最早的文本表示是词袋。对于一段文本,我们将其视为单词的集合。在这种情况下,我们不考虑单词之间的关系,比如顺序结构等,对应的计算模型是统计方法。这种方法相当于把每个单词都当作一个独立的case,失去了单词之间的内在联系。

    之后,在自然语言处理领域提出了基于词向量的表示。如果我们使用 one-hot 编码,如果我们有一个包含 20,000 个单词的字典,我们只需要一个 20,000 维的向量来表示它。在使用词向量时,我们可以使用低维向量(200或300维)来表达语义信息,这样我们就可以使用词向量来计算两个词之间的相似度,相似的词会有更大的相似度。常用的模型是循环神经网络(RNN)和长短期记忆(LSTM)。

    还有一些工作是把一个句子的词向量堆叠起来,当作一个矩阵来处理。其中,每个词向量本身就是一个维度,句子中的每个词都是另一个维度。这样,我们就可以将卷积神经网络的方法应用到 CV 领域。当然,在自然语言处理领域,我们借用了CV的思想,但是对于文本,我们使用一维卷积神经网络进行处理,按照词序从左到右进行卷积.

    最流行的方法是使用大规模预训练模型进行自然语言处理任务。我们将使用堆叠变压器模型进行建模。这种方法学习到的词向量的特点是每个词的表示都是上下文相关的。例如,如果一个词由一个固定的词向量表示,同一个词不能在不同的句子中表达变化的语义。典型的例子是苹果公司和水果苹果。正是由于同一个词在不同上下文中的语义差异,我们需要构建一个基于上下文的词向量表示。最早的BERT提出后,衍生了很多知名的预训练模型,这里就不一一列举了。

    纵观自然语言处理的发展,从词袋到大规模预训练语言模型,下一个模型应该是什么,才能进一步给这个领域带来更多进步?我们认为它是基于图结构的表示和基于图神经网络的建模。Transformer 对文本进行建模,GNN 可以在此基础上引入先验图结构。通过 GNN,我们可以利用先验知识对相应的图结构进行建模,从而补偿没有先验信息的文本表示。

    自然语言处理领域其实有很多图结构,比如语法书、语义图、知识图等。从语言本身来看,自然语言是一个非常灵活、可组合和层次化的东西,也就是说,一个句子的完整语义可以由多个不同层次的细粒度语义组成。例如,语义相同的主动句和被动句,如果我们用图来表达它们,我们会发现它们的语义层次实际上是相同的,即使它们的顺序结构存在差异。也就是说,图结构可以表达自然语言的灵活组合和层次结构。

    我们之前的工作涵盖了 NLP 领域的不同任务,包括文本匹配、文本挖掘和文本生成,并将它们应用于一系列不同的应用程序。我们今天分享的应用主要是基于图结构建模,并将其用于文本匹配中,用于热点事件的挖掘和分析、细粒度文本的聚类、用户兴趣点的建模以改善信息流。推荐搜索。

    02

    故事森林:热点事件发现与追踪

    我们首先分享故事森林系统。该系统主要应用于热点事件的挖掘。

    在这个时代,我们每天都可以从不同来源获得大量信息。信息如此复杂,我们很难快速获得自己最关心的信息类型。比较传统的方式是在搜索引擎中输入你感兴趣的东西作为查询,得到一些高分的结果,或者我们会被积极推荐。

    但这种方法有一些缺陷。首先,您会得到一个文章列表,其中文章之间没有有意义的结构。此外,每篇文章描述的信息粒度非常细,文章之间存在重复信息,即对于同一件事,不同媒体报道的内容大多重叠,形成信息冗余。相反,如果两个新闻故事是关于同一主题的,但它们的冗余较少,那么您实际上并不知道它们之间的关系是什么。

    我们提出的故事森林系统希望使用图结构来有效地组织信息,减少它们之间的冗余,并阐明它们之间的发展关系。比如上面的例子,对于 2016 年美国大选,我们可以将相关事件组织成一个故事,每个绿色节点代表一个事件。我们将事件视为在某个时间点发生的事件,涉及一组人或实体。故事会包含一些分支,比如希拉里的健康门、三部电视选举、希拉里的邮件门等。通过树状结构,我们可以概览故事的整体发展,并追溯其中的一些分支。每个节点将所有关于同一事件的报告聚集在一起,并且不同事件之间存在关联。

    上图展示了故事森林系统的整体架构。

    首先,第一个模块是预处理,包括文本聚类、文本过滤、分词和关键词提取。

    下一个核心问题是如何在“事件”粒度上对文章进行聚类。以前,传统的方法大多是文章的主题聚类,但我们的目标是让每个聚类中的所有文章的核心点都围绕同一个事件,这在语义上比主题更重要。细粒度。在这里,我们为 EventX 提出了一种基于图结构的双层聚类算法。首先,我们将根据关键词的贡献度构建关键词图。图中的每个节点都是一个关键词,节点之间的边代表关键词的共现次数超过一定阈值。其次,我们使用社区发现算法将关键字图拆分为多个子图,每个子图对应一个主题。

    接下来,我们将所有文章根据它们与每个关键词社区的相似度分配到不同的类,这相当于完​​成了文章的粗粒度聚类。下一阶段,我们重用这个算法,把文章当作图中的一个节点,判断两篇文章是否属于同一个事件,然后形成一个文档图,进行第二次社区发现算法,最后文章是分为多个文档社区。经过上述算法,每个文档社区都描述了相同的事件。

    在系统结束时,上述结果将被输入到故事模块中,以确定事件是否可以插入到现有的故事树中或生成新的树。

    故事系统部署在早期腾讯QQ浏览器的热门话题榜中。在浏览器中,如果你去热点新闻,它会每小时更新一次热点事件列表。对于这些主题中的每一个,都有来自所有不同媒体的报道。通过这种方式基于q学习算法和bp神经网络的倒立摆控制,用户不需要阅读多篇关于同一主题的文章,而是可以选择一两篇进行浏览。热点时间线不仅报道了事件的最新进展,还包括了事件的前序上下文,形成了一个完整的故事。

    我们刚才提到的算法过程需要判断两篇文章之间的关系,比如两个新闻故事是否在报道同一个事件。这实际上是一个学术界较少涉及的长文本匹配任务。

    之前的文本匹配有两种思路:

    但这两种方法不适合长文本匹配。首先,对于长文本,模型很难准确捕捉到编码后的语义信息;其次,如果对长文本的一两句话进行打乱,对文本整体语义影响不大,但是对于encoder这两种输入有很大的不同,最终的隐藏向量相差很大; 第三,这两类方法的时间复杂度都比较高,比如基于交互的模型计算相似度在O(n^2)的复杂度,当文本长度较大时,耗时很大。

    我们的方法是使用分而治之的思维。

    通过上述方法,我们可以相应地解决长文本编码难、顺序更灵活、时间复杂度高的问题。

    例如,一篇文章有​​六个句子。首先,我们可以提取文章中的所有关键词,并使用这些关键词构建一个概念交互图。具体来说,我们会对关键词进行聚类(重用社区检测的方法),当然分组算法可以自由选择。然后,我们根据相似度将文章中的每个句子分配到不同的关键字组。最后,我们计算每组关键词组与其他关键词组的相似度,并根据计算结果建立加权边。

    对于 A 和 B 两篇文章,构建概念交互图的过程是相同的,只是在分配关键词组的过程中,一些关键词组(即概念交互图中的一个节点)已经包含文章 A 的句子B条的另一句话。

    在进行长文本匹配时,

    我们使用的图神经网络是图卷积网络,它基于消息传递机制。对于每个邻居节点,我们可以计算出它之间相对于当前中心节点的消息(基于消息函数,两个节点的嵌入,边的嵌入)。在得到每个节点当前层的隐藏向量表示和邻居的信息后,我们使用一个更新函数来更新当前节点的表示。最后,我们使用一个读出函数来获得整个图的表示。

    上图是我们在两个长文本数据上进行匹配的实验结果。右边是我们的模型和不同变体的效果,左边是基线。从结果可以看出,使用图表示和建模的方法,匹配效果优于左侧的baseline。

    图中SimNet和CIG-siam唯一的区别就是CIG-Siam会屏蔽文章内容。我们可以看到,仅使用内容分解的操作,模型效果远远超过不进行分解的匹配方法。

    CIG-Siam 和 CIG-Siam-GCN 的区别在于是否使用图卷积神经网络对局部匹配输出的向量进行聚合。前者使用简单的平均聚合,这里可以看出使用图结构和GCN进行聚合可以提高10%以上的准确率。因此,基于图的建模方法在提高模型效果方面起着举足轻重的作用。

    03

    巨人:本体创建和用户兴趣建模

    接下来介绍图结构在本体构建中的应用。

    本体用于对用户的兴趣点进行建模。如果用户在搜索引擎的输入框中输入“特蕾莎·梅的辞职演讲”,搜索引擎返回给他关于特蕾莎·梅或特蕾莎·梅的辞职演讲的消息,很可能是用户不感兴趣,或者看过之前有几篇类似的新闻文章。对此用户兴趣点的合理猜测是推荐与英国脱欧有关或相关的事件。

    要想达到这个效果,首先要确定“脱欧”是用户的兴趣点;其次,我们要知道,英国脱欧与梅姨的辞职演讲之间存在从属关系,即辞职演讲的事件从属于英国脱欧是大话题。

    用户感兴趣的有两种类型:

    我们在 SIGMOD 2020 上发表的工作主要是建立一个本体,利用大量的用户查询和相应的点击文章来提取不同用户的信息点,包括不同的主题词组、事件词组、概念词组、实体和手动定义。高级类别(如科技、时事、手机等)。上图中黑色节点代表类别,是人为定义的类别,灰色节点代表挖矿的概念、事件、话题等,比如高价值手机、辞职演讲、欧盟宣布退出协议等,以及各种实体(如各类手机等)。本体图中最重要的关系是上下关系,

    上图展示了用于创建本体图的 GIANT 系统的整体架构。

    当我们使用应用程序时,搜索、点击文章、或者输入查询点击文章的行为都可以建模为一种图结构(Search Click Graph)。上图左侧的灰色矩形节点代表查询,白色矩形代表文档。我们可以收集查询的TopN点击的文章,形成二分图。在此基础上,我们可以对二分图进行聚类,使每个类包含少量非常相似的查询和相关文档。我们可以在每个查询文档集群中提取一个有意义的节点,代表与该类高度相关的概念短语/事件短语。最后,我们可以利用提取出来的节点在已有的知识图谱或本体图中找到合适的位置并插入,最终形成一个新的本体图。

    基于本体图基于q学习算法和bp神经网络的倒立摆控制,我们可以对用户的兴趣点进行标注。具体来说,我们根据用户的浏览记录识别用户感兴趣的事件/概念。我们还对文本内容进行了标记,例如对于较长的文本,我们会对其进行适当的标记。此外,我们可以概念化用户的查询和基于此过滤文章。我们可以扩展查询,以便系统推荐其他具有类似功能的产品。

    这里的核心问题是如何从查询文档聚类中提取具有不同信息点的短语。例如,在上面的库组中,我们可以提取出“宫崎骏动画电影”的概念。我们分析了短语作为关键信息点的特征:

    基于以上特点,我们设计了一种图结构,充分放大了关键信息点的短语特征,进而更有效地对其建模。

    我们的方法是首先为每个查询或文章标题添加两个虚拟节点 SOS 和 EOS。然后我们开始构建图。图中的节点代表一个唯一的词,它可以出现在多个查询和标题中。如果两个词在一个句子中很接近,那么我们在它们之间添加一个 seq 边;如果两个词在句子中不相近但存在语法依赖,那么我们添加一条边,表示词之间的语法依赖。

    通过这种组合方式,可以将句子的模式转化为图结构,将单词多次出现的特征和NER特征建模为节点特征。连续的关键字块可以用seq边关系来表示,句法依赖可以用句法关系来表示。

    有了这个图结构的输入,我们的任务是从图中提取表示关键信息的短语,这相当于两个子任务:

    另一个问题是如何在现有的本体结构中插入新的查询词。我们在今年的 WWW2021 会议上展示的工作就是围绕这个问题展开的,这里我将仅简要介绍这些概念。

    首先,在现有的知识图谱或本体结构中插入新节点时,之前的方法主要判断要插入的节点与目标节点的关系,没有考虑兄弟节点与祖先节点的关系。我们的想法是,插入要考虑要插入的节点与目标节点的子节点是否存在兄弟关系,与目标节点的祖先是否也存在父子关系。这样做的原因是为了让判断依据更加充分,以便待插入的节点能够在图中找到合适的深度进行插入。

    其次,我们认为很难判断每个概念名词本身的具体语义。我们使用一个句子来描述它的语义,例如使用 WordNet 中的概念定义来增强节点的语义描述。这样做相当于用句子代替名词本身,使语义的表征更加精确。详细的实现可以在我们的会议论文中阅读。

    这是一个例子。例如,在上图左侧的文章中,我们可以将其标记为“低油耗汽车”。这种标签一般不会出现在标题甚至内容中,但我们的系统可以确定这篇文章是关于这个话题的。该功能可应用于QQ浏览器、手Q、微信等新闻信息流的推送。

    这里还有更多的例子,比如上图最左边的“90后新生代小花”,中间的“健康食谱”,右边的“房价走势”。可以看到标题中不存在这些标签,但是它们以非常符合用户兴趣点的方式概括了文章的主要内容,更容易匹配用户的兴趣点,并且然后推荐更准确的文章。

    04

    精彩问答

    Q:话题模型比较流行的时候,大家也研究了故事预测问题。使用图形模型解决这个问题的主要优点是什么?

    A:Story Forecast的目标是预测事件的未来走向,这关系到过去事件的发展。如果我们能够梳理过去事件的上下文,而不是仅仅根据当前正在发生的事情来预测未来的事件,那么我们可以使用更全面和结构化的表示来对历史事件进行建模。因为事件与事件之间的关系不是简单的马尔可夫关系,使用我们的图结构就相当于拥有了历史事件的不同分支,它们都可能影响未来事件的走向。

    Q:提取关键词的有效方法有哪些?

    A:现在有很多成熟的工具可用。例如,清华大学刘志远先生课题组开发了此类关系抽取工具;哈工大还开源了命名实体识别工具来识别中文关键词。我们工作中使用的关键词提取方法实际上主要是提取句子中的实体,然后根据流行度等特征进行过滤。其实对于不同的应用场景,你可以根据自己的需要在你的应用中定义关键字,而不是用同一种算法来解决所有的应用问题。

    Q:分享中介绍的工作中使用的聚类算法以及基于聚类的结果分析是一个端到端的过程吗?还是我们需要将聚类作为预处理阶段?

    A:在我们的工作中,是分开处理的,相当于在storytree的过程中先获取事件节点,然后将节点插入到已有的树中或者与已有的节点合并。

    Q:您认为可以将聚类算法和聚类结果的处理做成端到端的形式吗?

    A:目前我认为没有必要。因为在实际应用中,新闻文章是实时推送的,即每时每刻都有新文章进入系统,所以很难端到端构建故事树。总的来说,这是一个不断增长的增量树覆盖过程,不适合端到端学习。

    问:Communitydetection 的聚类算法与其他密度聚类算法相比有什么优势?

    A:我们最初选择这个算法主要是因为它不需要预先定义的集群数量。社区发现算法的聚类基础取决于不同节点间距离的计算方法。传统聚类算法的超参数是设置聚类个数N,社区发现算法的关键是定义事件之间的接近度的计算方法。这个“超参数”更稳定,不会随着不同事件发生剧烈变化。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 基于图学习的热点挖掘与兴趣点建模(组图)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论