最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • “机器翻译和它的四个类型”(1)(图)

    【寻求】

    作者:钱玉智(四川省科学技术协会高级工程师);陈兴梦(四川科普作家协会会员)

    当今世界,人工智能研究方兴未艾,机器翻译被学术界视为人工智能研究皇冠上最耀眼的明珠。作为我国计算语言学的开拓者之一,全球首个“汉语到多外语机器翻译系统”的开发者冯志伟今年82岁,依然活跃在机器翻译领域。

    两个多月前,他再次登上清华大学的讲台,发表了题为《机器翻译及其四种类型》的演讲。基于规则的机器翻译、基于实例的机器翻译、统计机器翻译、神经机器翻译的特点,困难在哪里,前景如何?冯志伟解释道。他告诫青年学者不要对目前流行的基于语言大数据的实证方法过于迷信,不要忽视目前被忽视的基于语言规则的理性主义方法,而要努力综合运用这两种方法进行机器翻译。研究正在深入进行。

    学者传记

    冯志伟1939年出生于昆明,1957年考入北京大学地球化学专业。1967年语言学专业毕业,后在天津、昆明中学任教。1978年考入中国科学技术大学研究生院,并被派往法国学习数学语言学和机器翻译。回国后在中国科技信息研究所工作,后调入国家语言文字工作委员会(现教育部)语言文字应用研究所任所长、研究员。计算语言学研究室。开发了世界上第一个从中文到多外语的机器翻译系统,和世界上第一个中文术语库。曾获奥西奖和中国计算机学会NLPCC杰出贡献奖。出版有《现代术语概论》、《自然语言的计算机形式分析理论与方法》、《自然语言处理概论》等40多部中外文著作和译着。

    从昆明到北京大学

    1939年4月,冯志伟出生在云南昆明的一个贫困家庭。他的童年是在运行警报器以避免轰炸的火焰中度过的。

    1944年11月24日,空袭警报响起,年仅5岁7个月大的冯志伟带着母亲逃出城外。赶来的人群驱散了母子俩。这是日军第140次轰炸昆明,共投下100多枚炸弹。天黑了,凤知微还没有回家。第二天,他的父母在城里进出搜查了一天,却没有他的踪迹。这位母亲哭得很厉害,她以为她的宝贝儿子被炸成了碎片。直到黄昏,凤知微竟然自己摸了门。原来,他在轰炸声中跳进了稻田里的一个大弹坑。紧接着,附近炸弹爆炸的泥土覆盖了他的身体,他震惊了将近一个晚上,直到天亮才醒来。凤知微挣扎着从弹坑里爬了出来,然后就晕倒在了场地边缘。好心的农夫找到了他,带他回家洗澡喂他吃到晚上,然后送他走回家的大路上。

    1946年7月15日,7岁的冯志伟跟随舅舅到云南大学致公堂为李公璞先生追悼会,一位长者正在慷慨陈词:“人民的力量是赢了,真相永远存在……反动派,看到一个人倒下,也可以看到数百人崛起……我们不怕死,我们有牺牲的精神!我们就像先生……李随时,前脚迈出大门,后脚不准备踩。进门!” 这个人就是闻一朵。当天下午,闻一多在回家的路上被国民党特工伏击身亡。这段话给冯志伟留下了深刻的印象,对闻一多先生的钦佩一直伴随着他。他没有

    冯志伟,《自然语言计算机形式分析的理论与方法》

    1957年,冯志伟以优异成绩考入北京大学地球化学专业。昆明一中校长和老师们非常高兴,称赞他为学校争光。但回到家后,父亲不同意冯志伟去北大读书。他让他先工作养活自己,然后再赚更多的钱养家糊口。那时,我父亲是昆明蔬菜公司的一名会计。他用微薄的薪水养活了七个孩子。这样的安排也是无奈之举。

    母亲听到这话,断定这会毁了聪明儿子的前途,于是和父亲吵了起来。次日一大早,妈妈带着冯志伟到邻居家、亲戚朋友家施舍贷款,终于把从昆明到北京的路费收了。

    从科学到文科

    从云南边陲进入北大,冯志伟知道这个机会来之不易,学习十分刻苦。业余时间,他喜欢走进北大图书馆,探索学术前沿。有一次,他在外文图书馆看到美国语言学家乔姆斯基的论文《语言描述的三种模式》。这是一篇语言学论文,但发表在《自然科学信息论》杂志上。冯志伟很好奇,饶有兴趣地读了全文,发现这是乔氏应用数学中的一条“马尔可夫链”。描述自然语言的生成过程,建立独特的语言数学模型。

    冯志伟下定决心要学习这个全新的语言学理论,于是向学校提出申请,要求转入中文系语言学专业。校方认为,这种从理科跨专业转文科的先例,未获批准。此后近一年,冯志伟一再向学校求情,终于如愿以偿,但条件是从理科二年级转到文科一年级,从零开始。他的父亲期待他早日毕业以赚钱养家,但他从理科转向文科。学了两年,父亲气得骂道:“笨蛋!”

    冯志伟就这样开始了他的跨学科学术研究。转入语言学专业一年后,这个“笨”儿子写了一篇论文《语法胜过语法》,发表在1961年的《中国语言文学》第二期。语言学领域的顶级期刊,在这样的期刊上发表文章的大二学生实属罕见。

    冯志伟在国际会议上与外国专家讨论。

    1960年11月,《文汇报》发表陈望道、吴文奇、邓明义的文章《“文法”与“文法”名称的演变及我们对文法主语命名的建议》和傅东华的文章。 12月,“语法”胜于“语法”。读完这两篇文章后,冯志伟认为,学术界使用“语法”多年,语法优于语法。​​双方意见针锋相对。 for-tat,引来一场学术争论。由于这场学术争论,命名法“grammar”取代了“grammar”。冯志伟的名字传遍了北京和上海,但很多人不知道他只是一个大学二年级学生。

    1964年,冯志伟以研究生的身份考入北京大学,师从岑其祥教授研究现代语言学理论。他至今仍痴迷于数学与语言学的交叉学科研究,毕业论文题目为“数学方法在语言学中的应用”。岑其祥教授认为,这个课题偏向科学,不像传统的语言学研究,没有得到认可。冯志伟将自己的想法报告给了王力教授。王力教授主张,语文系的人也应该学习数学、物理和化学。他认为用数学方法进行语言学研究是合理的,可以大胆尝试。

    于是冯志伟认真写了这篇论文,顺利完成,准备答辩。然而,当1966年5月“文化大革命”开始时,防御无法进行。凤知微等了又等,终于答不上来。1967年8月下旬,获得北京大学研究生文凭,被分配到天津市塘口第三中学任教。

    手工计算汉字的熵

    从问题到程序程序设计与c语言引论 下载_tc环境中用c语言编写的几个小程序合成一个大程序_c语言程序设计第四版

    他在天津教了三年英语。1970年8月,冯志伟调入昆明第五中学任物理教师。他的语言学专业毫无用处。然而,他并没有放弃跨学科研究。他经常去云南省科学技术信息研究所和云南省图书馆阅读外国书刊,密切跟踪国际数学语言学研究进展,利用业余时间撰写长篇论文《数学语言学导论》,发表于1975年第4期《计算机应用与应用数学》。这篇文章犹如空谷中的脚步,使人们意识到,在极其困难的条件下,仍有人继续进行跨学科探索。

    那段时间,冯志伟还研究了汉字的“熵”。熵是一个物理术语,用于测量某些物质系统的状态。英文字母所包含的信息量也可以用“熵”来表示。信息论创始人香农用人工查频的方法统计了26个英文字母在文本中出现的频率。经过复杂的计算,他确定英文字母的熵为4.03位,奠定了信息论的理论基础。.

    香农还提出了“编码定理”,他指出:在编码中,码字的平均长度不能小于字符的熵。英文字母采用单字节编码,码字长度为1字节,相当于8位,大于英文字母的熵,符合香农的“编码定理”。因此,使用单个字节对英文字母进行编码是符合数学原理的。

    1970年代,计算机在国外被广泛使用。冯志伟认为,未来中国人也会使用电脑。那时,汉字必须进行编码,这样汉字也可以在计算机上自由输入、输出和传输。但是,汉字用多少字节来编码呢?根据香农的“编码定理”,要对汉字进行编码,首先要计算汉字的熵,这是冯志伟最关心的问题。他认为,如果汉字的熵大于 8 位,就不能使用单字节编码,必须另辟蹊径,开发新的编码方式。汉字数量庞大,笔画多,因此汉字熵的计算尤其困难。第一的,进行字符频率统计,然后计算汉字的熵。冯志伟动员岳父和10个朋友一起工作。没有电脑,他主要用计算尺和算盘手工计算。冯志伟的岳父在云南省粮食厅工作。他对算盘非常熟悉。最后,根据人工统计得到的一万多个汉字出现的频率,冯志伟经过仔细计算,确定汉字的熵值为9.65位。这样,汉字必须用双字节(2字节=16位)编码。冯志伟的这项工作为1980年代汉字的双字节编码提供了可靠的理论依据。

    冯志伟一直认为9.65位只是一个估计的汉字熵值,需要更复杂的手段来检验。1980年代,北京航空航天大学计算机系教授刘源用计算机统计汉字出现的频率,计算出汉字的熵为9.71 bits ,与冯志伟通过人工计算估计的结果相差不大。

    1978年春,召开了全国科学大会。在“尊重知识、尊重人才”的口号下,北大开始行动起来,希望将远在昆明的冯志伟调到北大,冯志伟在昆明五号的教学表现出色初中,学校不情愿。放他走,动员不成功。

    彼时,中国科学技术大学研究生院在北京正式成立,开始招生。凤知微抓住了这个机会,经过周密的准备,一举通过了考试。昆明五中只好放了他。1978年国庆后,39岁的壮汉再次成为学生,背着书包从昆明到北京上学。

    走进机器翻译的迷宫

    那一年,中国科学技术大学研究生院招收了1015名新生,并决定公费送150名出国留学,冯志伟就是其中之一。

    1978年12月20日,冯志伟乘飞机抵达法国巴黎。到中国驻法国大使馆报到后,他先去了维希的“嘉文兰”语言学院学习法语。1979年3月1日,冯志伟从维希乘火车抵达格勒诺布尔。刚下车,就看到格勒诺布尔科技大学应用数学研究所“自动翻译中心”主任沃奎斯教授亲自来到火车站迎接。Voguwa 是一位数学家、天文学家、计算机科学和计算语言学家,也是计算语言学国际会议 (COLING) 的主席。.

    在窝果娃的悉心指导下,冯志伟闯入机器翻译的迷宫,仔细环顾四周,从创新中学习。他掌握了最新的计算机编程技术,学会了使用当时最先进的IBM4341大型机,开始研发“中法机器翻译系统”。

    在机器翻译的研究中c语言程序设计第四版,冯志伟提出了多分支多标签树模型(Multiple-branchedMultiple-labeledTreeModel,MMT模型)c语言程序设计第四版,利用多分支树改进了直接成分分析法的二叉树。形态分析将线性字符串转换为层次化的多树来表示源语言的句法和语义特征,然后将源语言的多树转换为目标语言的多树,最后将目标语言的多树转换为目标语言。语言字符串作为翻译输出。对于多叉树中每个节点的信息,他还用多标签对传统的单标签进行了改进,精心设计了一个复杂的特征集来描述语言的形态、句法和语义特征,

    为了完成这个艰巨的工程,他为自己制定了“887自律规则”:每天8点上班,晚上8点下班,每周7天下班. 在“中法系统”实验成功后,他进一步研究了“中法、英、日、俄、德”多语种翻译系统。经过从冬到春的3次轮回,到1981年11月4日,该系统终于研制成功。他在电脑上输入中文,电脑立刻自动翻译成五种语言。这是世界上第一个从中文到多外语的机器翻译系统。研究工作结束后,冯志伟立即返回北京,

    从软件工程师到计算语言学家

    从法国回来后,冯志伟被分配到中国科学技术信息研究所计算中心担任软件工程师。1982年赴布拉格参加计算语言学国际会议,介绍了多叉多标签树图模型和“中法、英、日、俄、德”多语种翻译系统。出席本次会议的中国学者。

    1985年,时任国家语言委员会副主任、语言文字研究所所长冯志伟的老朋友陈章太来访。陈章泰告诉冯志伟,语言现代化就是在语言研究中用枪代替枪,不是老炮,而是最先进的火箭炮。一个计算语言学研究实验室。”陈章泰希望冯志伟重新开始自己的旧职业,回到语言学团队,担任语言文字应用研究所计算语言学研究实验室的负责人,这是主要目的他的访问。

    冯志伟知道,应用语言与写作学院是文科单位,经费支持和电脑设备都比中国科技信息学院差很多。老同学也反对转学。但冯志伟被陈章泰的诚意打动了,更重要的是,他对语言学还是很关心的。想来想去,他觉得自己在北大学习语言学多年,回到语言学领域应该可以为国家做点有意义的事,于是点头表示同意。

    不久后,冯志伟调入语言文字应用研究所,任计算语言学研究室主任,在中国科学院软件研究所兼职研究员。同年9月,冯志伟受中科院软件所派遣到德国斯图加特弗劳恩霍夫研究所与德方合作,从事术语库研究,开发了世界第一中文术语数据库GLOT-C。术语是自然语言中科学知识的结晶,术语是冯志伟从事语言跨学科研究的重要领域。根据术语库的研究结果,冯志伟写道“

    1998年5月退休后,冯志伟不停地继续退休。2001年受聘为韩国科学技术研究院计算机科学与电子工程系客座教授,用英语为博士生教授“自然语言处理”高级课程。在课程准备中,冯志伟发现《语音与语言处理——自然语言处理、计算语言学与语音识别导论》英文版覆盖面广,理论分析深入。是一本优秀的自然语言处理教材。书译成中文。他白天讲课,加班翻译到深夜。他连续工作了11个月。当他翻译完14章时,他患上了眼病,难以继续翻译。中科院软件所研究员孙乐将剩下的7章翻译成中文,帮助他渡过难关。2005年完成全书翻译,由电子工业出版社以《自然语言处理评论》为题出版。2018年,他们共同翻译并出版了本书的第二版。由电子工业出版社以《自然语言处理评论》为题出版。2018年,他们共同翻译并出版了本书的第二版。由电子工业出版社以《自然语言处理评论》为题出版。2018年,他们共同翻译并出版了本书的第二版。

    我国制定的汉语拼音方案于1982年成为世界上用罗马字母拼写汉字的国际标准,标准号为ISO-7098。进入信息时代后,在信息和文献工作中,该标准已难以适应信息社会发展的需要。2011年5月,教育部派冯志伟参加国际标准化组织第46届技术委员会会议,修订本国际标准。国际标准的修订需要五个步骤:工作草案阶段、委员会草案阶段、国际标准草案阶段、国际标准最终草案阶段和国际标准阶段。冯志伟, 他已年迈,被国际标准化组织任命为该国际标准的国际工作组组长。先后奔赴悉尼、柏林、巴黎、华盛顿等城市,起草新的英语国际标准。在修订过程中,冯志伟在国际会议会场和会外与各国代表的交流中,熟练使用多种外语,积极有效地与会议主办方进行沟通、协商和解释,与会国家代表和国际标准化组织负责人。他认真对待,机智处理,克服重重困难,

    冯志伟还系统梳理了国内外自然语言处理的研究成果,撰写了专着《自然语言的计算机形式分析的理论与方法》,被列入“十三五”国家重点图书规划项目“当代科学技术基本理论与方法”。Frontier Issues Research Series》,中国科学技术大学出版社2017年出版。本书是一本关于基于规则和基于统计的自然语言处理方法的专着。基于合一运算的形式模型、基于依存关系和效价的形式模型、基于格文法的形式模型、基于词汇的形式模型、自动语义处理的形式模型、自动语用处理的形式模型、隐马尔可夫模型和统计机器翻译的形式模型。本书荣获中国出版界三大奖项之一的中国优秀出版奖。

    自 2014 年以来,神经网络方法成为机器翻译的主流方法,一些神经机器翻译系统的准确率已经接近人类翻译的水平,因此基于规则的理性主义方法被忽略了。冯志伟已经步入老年。他依然密切关注机器翻译的最新进展,每天坚持阅读和梳理国内外文献,撰写了多篇关于人工智能、统计机器翻译、神经机器翻译、词向量生成等方面的论文。在这些论文中,他介绍了国内外神经机器翻译的最新进展。在充分肯定神经机器翻译成就的同时,他明确指出,我们这一代学者有幸赶上了基于语言大数据的黄金时代。,使用神经网络的经验方法,机器翻译低分支上的那些成果触手可及。但是,由于神经机器翻译只关注语言大数据,而忽略了语言知识,很多问题很难从理性主义的角度按照语言规则来解决。这么解释,在未来的机器翻译研究中,我们留给下一代的将是那些最难破解、处于机器翻译顶端的硬骨头。在自然语言处理的研究中,基于语言规则的理性主义方法仍然是不可或缺的。基于语言数据的经验方法必须与基于语言规则的理性主义方法相结合,这将带来自然语言处理发展的金光。大街。

    2018年,中国计算机学会授予冯志伟NLPCC杰出贡献奖,以表彰他在自然语言处理(NLP)和中文计算(CC)方面的成就。来自人文学科的语言学家冯志伟获得了中国计算机学会的嘉奖,这是非常罕见的现象。颁奖典礼上,他深情地说:“现在我已经快80岁了,但我们从事的自然语言处理还是一门新学科,她看起来还很年轻,依然充满青春活力,依然有着无比广阔的发展一个人的生命是有限的,但科学研究的发展是无限的。与科学研究相比,一棵枝叶茂密的参天大树,一个人有限的生命显得如此短暂,多么渺小,多么微不足道!

    (本版图片由作者提供)

    《光明日报》(2021年12月20日第11版)

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » “机器翻译和它的四个类型”(1)(图)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论