最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 这是:2001-神经语言模型语言建模任务指的

    这是两篇系列文章中的第一篇。在 2018 Indaba 深度学习大会上,我和 Herman Kamper 组织了一个关于自然语言处理的研讨会,整个会议的幻灯片可以在这里下载。本文将讨论用神经网络方法解决 NLP 问题的主要进展,而第二篇文章将关注 NLP 中的开放问题。

    在这篇文章中,我试图将自然语言处理技术近 15 年的发展历史浓缩成 8 个高度相关的里程碑事件,为此我不得不省略了许多更相关和更重要的技术事件。这篇论文更倾向于选择与当前比较流行的神经网络技术相关的方向,这可能会给人一种在此期间没有产生其他有影响力的技术方法的错觉。需要强调的是,本文中介绍的许多神经网络模型都是基于当代非神经网络技术的。在这篇文章的最后部分,我将重点介绍这些有影响力的非神经网络技术成果,它们为未来 NLP 方法的发展奠定了基础。

    本文主要内容如下:

    2001 – 神经语言模型

    语言建模任务是指在给定前一个单词的情况下预测文本中的下一个单词。可能是比较简单的语言处理任务,具体的实际应用场景包括智能键盘、邮件回复建议(Kannan et al., 2016)、自动拼写纠正等)。众所周知,语言建模有着悠久的历史。其中更经典的方法是基于 n-gram 并使用平滑来处理不可见的 n-gram (Kneser & Ney, 1995).

    第一个神经语言模型是 Bengio 等人提出的前馈神经网络。2001 年,如图 1 所示。

    图 1:前馈神经网络语言模型(Bengio 等人,2001;2003)

    该模型将在表 C 中找到的 n 个单词表示为输入向量。这样的向量现在被学者们称为“词嵌入”。这些词嵌入被级联并馈入隐藏层,其输出馈入softmax层。有关模型的更多信息,请参阅本文。

    最近,在语言建模技术中,前馈神经网络已被循环神经网络 (RNNs; Mikolov et al., 2010) 和长短期记忆网络 (LSTMs; Graves, 2013)) 所取代). 尽管近年来已经提出了许多扩展经典 LSTM 的新语言模型(参见此页的概述)神经网络c语言实现下,但经典 LSTM 仍然作为强基线存在(Melis 等人,2018)。甚至Bengio 等人。人类经典前馈神经网络在某些情况下也可以与更复杂的模型竞争,因为这些模型通常只考虑靠近的单词(Daniluk 等人,2017)。因此,如何更好地理解这种语言模型捕获的信息也是一个热门研究领域(Kuncoro et al., 2018; Blevins et al., 2018)。

    语言建模通常是应用 RNN 的第一步,对此已有共识。许多人最初是通过 Andrej 的博客文章了解语言建模的。语言建模是一种无监督学习形式,Yann LeCun 也将预测学习称为获得基本常识的先决条件(参见 NIPS 2016 中的幻灯片)。语言建模最有趣的事情之一是,尽管它很简单,但它是本文后面讨论的许多技术开发的核心:

    反过来,这意味着近年来 NLP 的许多重要进展都可以归因于某种形式的语言建模。为了“真正”理解自然语言,仅仅从文本的原始形式中学习是不够的。我们需要新的方法和模型。

    2008 – 多任务学习

    多任务学习是一种在多任务训练模型之间共享参数的通用方法。在神经网络中,通过为不同的层分配不同的权重,可以很容易地实现多任务学习。多任务学习的概念最初由 Rich Caruana 于 1993 年提出,并应用于道路跟踪和肺炎预测(Caruana,1998)。直观地说,多任务学习鼓励模型学习对许多任务有用的表示。这对于学习一般的、低级的表示、关注模型的注意力或在训练数据有限的环境中特别有用。有关多任务学习的更完整的理解,请参阅这篇文章。

    2008 年,Collobert 和 Weston 首次将多任务学习应用于 NLP 的神经网络。在他们的模型中,查找表(或词嵌入矩阵)在两个接受不同任务训练的模型之间共享,如下图 2 所示。

    图 2:词嵌入矩阵的共享(Collobert & Weston, 2008; Collobert et al., 2011)

    词嵌入的共享使模型能够协作和共享词嵌入矩阵中的一般低级信息,而这些低级信息所占用的参数量往往是模型中最大的部分。Collobert 和 Weston 2008 年的一篇论文对多任务学习之外的其他应用产生了一些影响。它开创了诸如预训练文本嵌入和使用卷积神经网络 (CNN) 处理文本数据等想法。它获得了 ICML 2018 经典论文奖(参见本文中的经典论文奖演示文稿)。

    多任务学习现在广泛用于 NLP 任务。充分利用现有或“人工”任务进行训练,可以更好地提高 NLP 效率。有关不同辅助任务的概述,请参阅本文。虽然参数的共享通常是预定义的,但在优化过程中也可以学习不同的共享模式(Ruder et al., 2017)。随着多任务模型泛化能力的评估,多任务学习变得越来越重要,最近提出了多任务学习的专用标准(Wang et al., 2018; McCann et al., 2018)。

    2013 – 词嵌入

    用稀疏向量表示文本,即所谓的词袋模型,在 NLP 中有着悠久的历史。如上所述,早在 2001 年就已经使用密集向量来表示词或词嵌入。Mikolov 等人提出的创新技术。在 2013 年,通过移除隐藏层来逼近目标,使这些词嵌入的训练更加高效。虽然这些技术变化本质上很简单,但它们与高效的 word2vec 一起使用,可以实现大规模的词嵌入训练。

    Word2vec 有两种风格,如下图 3 所示:连续词袋 (CBOW) 和 skip-gram。但他们的目标不同:一个根据周围的词预测中心词,而另一个则相反。

    图 3:连续的词袋和 skip-gram 架构(Mikolov 等人,2013a;2013b)

    尽管这些嵌入在概念上与使用前馈神经网络学习的嵌入在概念上没有区别,但当在非常大的语料库上进行训练时,它们能够捕捉到词的差异,例如性别、动词时态和国家-首都关系。它们之间的具体关系显示在下图4。

    图 4:word2vec(Mikolov 等人,2013a;2013b)

    获取单词之间的这些关系及其背后的含义引发了对嵌入技术的兴趣——这些线性关系形成的原理已经被大量研究(Arora 等人,2016;Mimno & Thompson,2017;Antoniak & Mimno,2018 ;Wendlandt 等人,2018 年)。然而,并不是这些原则推动词嵌入成为当前 NLP 的主流,而是在初始化时使用预训练嵌入,因为这样做可以提高下游任务的性能。

    虽然 word2vec 捕获的词间关系是直观的、高质量的,甚至是神奇的,但后来的研究表明 word2vec 本身并没有什么特别之处:词嵌入也可以通过矩阵分解来学习(Pennington et al., 201 4); 通过适当的调整,经典矩阵分解方法(如 SVD 和 LSA)产生了类似的结果(Levy 等人,2015).

    从那时起,人们致力于探索词嵌入的各个方面(原始引用的数量惊人)。通过这篇文章,我们可以看到一些趋势和未来的方向。尽管取得了许多进步,但 word2vec 直到现在仍然是流行的选择。Word2vec 的使用不再局限于单词级别:基于局部上下文学习嵌入的简单目标 – 带有负采样的 skip-gram 已被用于学习句子表示(Mikolov & Le, 2014; Kiros et al., 201 5). Word2vec 甚至在网络(Grover & Leskovec, 2016) 和生物序列(Asgari & Mofrad, 2015))等其他应用场景中也发挥了作用。

    一个更值得研究的技术方向是将不同语言的词嵌入到同一个空间中,实现(零镜头)跨语言迁移。越来越有可能以完全无监督的方式(至少对于类似语言)学习数据以实现良好的推理效果(Conneau 等人,2018;Artetxe 等人,2018;Søgaard 等人,2018)@ >. 这种学习风格可以应用于语言资源有限的无监督机器翻译系统 (Lample et al., 2018; Artetxe et al., 2018). See (Ruder et al., 2018) et al., 2018) 进行概述。

    2013 – NLP 神经网络

    2013 年和 2014 年是 NLP 问题开始被引入神经网络模型的年份。最广泛使用的三种主要类型的神经网络是:循环神经网络、卷积神经网络和循环神经网络。

    循环神经网络 (RNN) 循环神经网络是处理 NLP 中普遍存在的动态输入序列的最先进的解决方案。Vanilla RNN (Elman, 1990)) 很快被经典的长短期记忆网络 (Hochreiter & Schmidhuber, 1997)) 取代,这些网络被证明对消失和爆炸梯度问题更具弹性。在 2013 年前,RNNs 仍然被认为难以训练;Ilya Sutskever 的博士论文提供了改变这种情况的关键示例。下图 5 显示了 LSTM 单元的可视化。Bidirectional LSTMs (Graves et al., 2013)通常用于处理左右上下文。

    图 5:LSTM 网络(来源:Chris Olah)

    卷积神经网络 (CNNs) 卷积神经网络最初是一种广泛用于计算机视觉领域的技术,现在开始在语言中使用(Kalchbrenner 等人,2014;Kim 等人,2014)。文本卷积神经网络只在两个维度上工作,其中过滤器(卷积核)只需要沿时间维度移动。下图 6 显示了 NLP 中使用的典型 CNN。

    图 6:文本卷积神经网络(Kim,2014)

    卷积神经网络的一个优点是它们比 RNN 更可并行化,因为它们在每个时间步的状态仅取决于局部上下文(通过卷积操作),而不是像 RNN 那样的所有过去状态。使用扩张卷积,可以扩大 CNN 的感受野,使网络能够捕获更长的上下文(Kalchbrenner 等人,2016)。CNN 和 LSTM 可以组合和堆叠(Wang 等人, 2016)@)>,卷积也可以用来加速 LSTMs (Bradbury et al., 2017).

    RNN 和 CNN 都将语言视为一个序列。然而,从语言学的角度来看,语言本质上是分层的:单词被组合成更高阶的短语和从句,它们本身可以根据一组生产规则递归地组合。将句子视为树而不是序列的受语言启发的想法产生了递归神经网络(Socher 等人,2013),如下图 7 所示。

    图 7:循环神经网络(Socher 等人,2013)

    循环神经网络自下而上构建序列表示,与 RNN 从左到右或从右到左处理句子不同。在树的每个节点上,通过组合子节点的结果来计算一个新的结果。由于树也可以被视为对 RNN 施加不同的处理顺序,因此 LSTM 自然也扩展到树(Tai et al., 2015).

    RNN 和 LSTM 可以扩展为使用层次结构。词嵌入不仅可以在本地学习,还可以在语法上下文中学习(Levy & Goldberg,2014);语言模型可以基于句法堆栈生成单词(Dyer 等人,2016);vol.生产性神经网络可以基于树结构运行(Bastings 等人,2017).

    2014 – 序列到序列模型

    2014 年,Sutskever 等人。提出了序列到序列模型。这是使用神经网络将一个序列映射到另一个序列的通用框架。在这个框架中,编码器神经网络逐个符号地处理句子并将其压缩成向量表示;然后,解码器神经网络根据编码器状态逐个符号地输出预测值,并将先前预测的符号作为每个步骤的输入,如下图 8 所示。

    图 8:序列到序列模型(Sutskever 等人,2014)

    机器翻译是该框架相对成功的应用。2016 年,Google 宣布将开始用神经 MT 模型替换基于词组的单一 MT 模型(Wu 等人,2016)。根据 Jeff Dean 的说法,这意味着替换 500,000 行基于 Phrase 的神经网络模型MT 代码。

    由于其灵活性,该框架现在是自然语言生成任务的首选框架,其中不同的模型扮演编码器和解码器的角色。重要的是,解码器模型不仅可以解码序列,还可以解码任意表示。例如,可以基于图像生成字幕(Vinyals et al., 2015)(如下图9所示),可以基于表格生成文本(Lebret et al., 2016) ),并且可以根据应用程序中的源代码更改描述 (Loyola et al., 2017).

    图 9:基于图像的字幕生成(Vinyals 等人,2015)

    序列到序列的学习甚至可以应用于在 NLP 中输出具有特定结构的结构化预测的任务。为简单起见,输出被线性化,如下图 10 所示,用于选择解析。神经网络已经证明,直接学习可以产生这种将输出线性化的能力。

    图 10:线性选区分析树(Vinyals 等人,2015)

    序列和解码器的编码器通常基于 RNN,但也可以使用其他模型类型。新架构很大程度上源于 MT 的贡献,MT 是序列到序列模型架构的主要开发人员。最新的模型是深度 LSTM(Wu et al., 2016; tional encoders, Kalchbrenner et al., 2016; Gehring et al., Transformer, Vaswani et al., 2017) 以及 LSTM 和 Transformer 的组合(陈等人,2018)。

    2015 – 注意力机制

    注意力机制(Bahdanau et al., 2015) 是神经网络机器翻译(NMT)的核心创新之一,也是使 NMT 模型优于经典的基于短语的 MT 系统的关键思想。序列模型的主要瓶颈是需要将源序列的全部内容压缩成一个固定大小的向量,注意力机制通过让解码器回看源序列的隐藏状态来缓解这个问题,即然后给定一个加权平均值作为解码器的附加输入,如下图 11 所示。

    图 11:注意力(Bahdanau 等人,2015)

    注意机制有许多不同的形式(Luong et al., 2015)。这里有一个简要概述。注意机制广泛适用于任何需要根据输入的特定部分做出决策的任务,并且运行良好。它已应用于一致性解析 (Vinyals et al., 2015), 阅读理解 (Hermann et al., 2015)) 和一次性学习 (Vinyals et al., 2016) @>),等等。域。输入甚至不需要是一个序列,即可以包含其他表示,例如图像标题(Xu et al., 2015),如下图 12 所示。注意机制的另一个特点是它提供了一个罕见的功能,它允许我们通过检查输入的哪些部分与基于注意权重的特定输出相关来了解模型的内部工作原理。

    图 12:图像字幕模型中的视觉注意力,预测模型在生成“飞盘”时关注的内容。(徐等人,2015)

    注意机制也不限于查看输入序列;self-attention 可用于查看句子或文档中的周围单词,以获得更好的上下文相关单词表示。Transformer 架构的核心是多级自注意力(Vaswani 等人,2017),这是 NMT 的当前最先进的模型。

    2015 – 基于内存的网络

    注意力机制可以看作是模糊记忆的一种形式。内存由模型选择从中检索内容的模型的隐藏状态组成。要更详细地了解注意力及其与内存的联系,请参阅这篇文章。研究人员已经提出了一些具有更明确记忆的模型。这些模型有不同的变体,例如神经图灵机 (Graves et al., 2014), 记忆网络 (Weston et al., 2015), and end-to-end memory networks ( Sukhbaatar 等人,2015)@)>,动态记忆网络(Kumar 等人,2015),神经微分计算机(Graves 等人,2016))和循环实体网络( Henaff 等人,2017))。

    内存访问通常基于与当前状态的相似性,类似于注意力,并且经常可以读写。模型在实现和利用内存的方式上有所不同。例如,端到端的内存网络多次处理输入并更新内存以实现多个推理步骤。神经图灵机还具有基于位置的寻址功能,这使它们能够学习简单的计算机程序,例如排序。基于记忆的模型通常用于一些特定的任务,例如语言建模和阅读理解。在这些任务中,长时间保存信息应该很有用。内存的概念非常笼统:一个知识库或表可以充当内存,也可以根据整个输入或其中的特定部分填充内存。

    2018 – 预训练的语言模型

    预训练的词嵌入与上下文无关,仅用于初始化模型中的第一层。最近几个月,一系列监督任务被用于神经网络的预训练(Conneau 等人,2017;McCann 等人,2017;Subramanian 等人,2018)。相反,语言模型只需要未标记的文本;因此,培训可以扩展到数十亿个令牌、新领域和新语言。预训练语言模型于 2015 年首次提出(Dai & Le, 2015);直到最近,它们已被证明在各种任务上都能很好地工作。语言模型嵌入可以用作目标模型中的特征(Peters et al., 2018),或者使用语言模型来微调目标任务数据 (Ramachandran et al., 2017; Howard & Rudd, 2018)。

    图 13:嵌入在最先进语言模型中的改进(Peters 等人,2018)

    预训练的语言模型已被证明可以用更少的数据进行学习。由于语言模型只需要未标记的数据,因此它们对于标记数据稀缺的低资源语言特别有用。有关预训练语言模型潜力的更多信息,请参阅本文。

    其他里程碑

    其他一些技术发展不像上面提到的那样受欢迎,但仍然具有广泛的影响。

    Character-Based Representations 在字符上使用 CNN 或 LSTM 来获得基于字符的单词表示的做法现在相当普遍,特别是对于丰富的语言和形态信息很重要或有很多未知单词的任务。据我所知,序列标签使用基于字符的表示(Lample et al., 2016; Plank et al., 2016),这减轻了以增加计算成本处理固定词汇表的需要,并且支持完全基于字符的 NMT (Ling et al., 2016; Lee et al., 2017).

    对抗性学习对抗性学习方法已经席卷了 ML 领域,并在 NLP 中有多种形式的应用。对抗性示例越来越多地被使用,不仅作为探索模型和了解其失败案例的工具,而且还使自己更加健壮(Jia & Liang,2017)。(虚拟)对抗性训练,即最坏情况扰动(Miyato et al., 2017) 和域对抗损失(Ganin et al., 2016; Kim et al., 2017)),也可以使模型更健壮 生成对抗网络(GAN)是对于自然语言生成还不是很有效(Semeniuta 等人,2018),但在匹配分布时很有用(Conneau 等人,2018))。

    强化学习 强化学习已被证明对时间相关的任务是有效的,例如在训练期间选择数据 (Fang et al., 2017; Wu et al., 2018) 和建模对话 (Liu et al., 201) 8).RL 还可以有效地直接优化不可微分的最终指标(如 ROUGE 或 BLEU),而不是优化聚合中的替代损失(如交叉熵)(Paulus 等人,2018;Celikyilmaz 等人, 201 8) @> 和机器翻译场景效果较差(Ranzato 等人,2016)。与图片转换相比,逆强化学习在数据过于复杂而无法指定的情况下很有用-talk 任务(Wang et al. et al, 2018).

    非神经网络算法的里程碑

    1998 年及之后的几年,FrameNet 项目诞生了(Baker et al., 1998)神经网络c语言实现下,它指导了语义角色标注的任务。这是一种浅层语义解析的形式,至今仍在研究开发中. 在 2000 年代初期,与自然语言学习会议 (CoNLL) 组织的共享任务促进了对核心 NLP 任务的研究,例如分块 (Tjong Kim Sang et al., 2000), Named Entity Recognition) (Tjong Kim Sang et al., 2003) and dependency parsing (Buchholz et al., 2006) et al.). 许多 CoNLL 共享任务数据集至今仍被用作评估标准。

    2001 年,条件随机场(CRF;Lafferty 等人,2001) 成为最有影响力的序列标记方法类别之一,获得 ICML 2011 最佳论文奖。CRF 层是当前最先进的-art 具有标签间相互依赖性的序列标记问题模型的核心部分,例如命名实体识别 (Lample et al., 2016).

    2002 年,双语翻译质量评估援助 (BLEU; Papineni et al., 2002)) 给出了双语翻译质量指标,这使得机器翻译系统得以扩展。它仍然是当今机器翻译评估的标准指标。同年,Structure Perceptron (Collins, 2002)) 的问世,为结构化感知工作奠定了基础。在同年的会议上,情感分析也成为最流行和研究最广泛的 NLP 任务之一(Pang et al, 2002). 三篇论文均获得 2018 NAACL 最佳论文奖。

    Latent Dirichlet assignment (LDA; Blei et al., 2003)) 于 2003 年推出,是机器学习中使用最广泛的技术之一,并且仍然是主题建模的标准方法。2004 年,一些学者提出了新的最大边模型,它比 SVM 更适合用于捕获结构化数据中的相关性(Taskar 等,2004a;2004b)。

    2006 年,OntoNotes(Hovy 等人,2006) 引入了一个大型多语言语料库,具有多个注释和高注释协议。OntoNotes 已用于训练和评估各种任务,例如依赖项解析和引用解析) Witten (2008) 于 2008 年介绍了用 Wikipedia 丰富机器学习方法的方案。Wikipedia 是迄今为止训练 ML 方法最有用的资源之一,用于实体链接和消除歧义、语言建模、知识库、或其他各种任务。

    2009 年,引入了远程监督的概念(Mintz 等人,2009)。远程监督利用启发式或现有知识库中的信息来生成噪声模式,可用于自动从大型语料库中提取示例。远程监督现在被广泛使用,已经是关系抽取、信息抽取、情感分析等方面的常用技术。

    英文原版:自然语言处理的神经历史回顾

    中文:*GTIFy33B4mu9

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 这是:2001-神经语言模型语言建模任务指的

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论