分词工具在关键词提取和中文搜索中非常重要。自然语言处理中有一些常见的场景。在python中,有很多开源的分词工具。
1、jieba分词github地址:
“Jaba”分词,可以说是GitHub上最受欢迎的分词工具,支持自定义词典,支持多种分词模式词法分析器的输出是,立志成为Python中最好的中文分词组件。
2.pkuseg分词github地址:
pkuseg的特点是支持多种不同的分词领域,比如新闻、网络、医学、v-tourism等领域的分词训练模型。与其他分词工具相比,它不仅可以自由选择不同的模型,而且可以提供更高的分词准确率。速度。
3. FoolNLTK分词github地址:
FoolNLTK 分词基于 BiLSTM 模型训练,支持用户自定义词典。有人说它是最准确的开源中文分词。我想知道你有没有试过?
4. THULAC github地址:
THULAC是清华大学自然语言处理与社会人文计算实验室开发的具有词性标注功能的中文词法分析工具包。可以分析一个词是名词、动词还是形容词。使用我们集成的全球最大的人工分词和词性标注中文语料库(约5800万词)进行训练,模型标注能力强大。该工具包在标准数据集Chinese Treebank(CTB5)上进行分词的F1值可以达到97.3%,词性标注的F1值可以达到92.9%词法分析器的输出是,和这个在数据集上最好的方法效果一样,速度更快。
和同事聊分词工具,很多人还在用口吃分词,配合自定义词典解决网络常用词。你用的是哪个工具?
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 欧资源网