最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 技术与应用词频分析法中高频词阈值界定方法的实证分析

    高频词阈值定义方法在技术中的适用性实证分析 词频分析 分析方法之一,确定高频词阈值是词频分析的必要前提。高频词阈值的选择不仅决定了词频分析方法的分析结果,而且对整个分析研究有着极其重要的影响。2018年以国内使用词频分析法的文献为研究基础。发现学术界常用的高频词阈值选择方法主要有自定义选择法、高低频词定义公式选择法、价格公式选择法和混合选择法。四大类;其次,以个人知识管理领域的文献为研究对象,计算前三类高频词阈值选择方法的取值并对领域热点进行聚类分析,对比验证聚类结果,并以此结果为基础讨论高频词阈值选择对分析结果的影响及合理性;最后指出,中国学术界在高频词阈值的选取上存在很强的主观性,方法原理不明确,改进方法的适用性不明确,高低频词的定义公式和价格公式的适用性有待研究。关键词:高频词;文献计量学;词频分析@>2017.09.0071 引言提出基于学科背景的全局视角,比较领域内外关键词出现频率,提出领域计算公式度,并整合了领域度和热度 [4] 在科学研究中,往往通过表达文献核心内容的关键词度指数来进行关键词选择;安兴茹提出根据主题词的正态分布或出现频率来确定该领域的研究重点和发展方法。

    由于文档的关键词或主题词是文档的核心内容,其分布符合正态分布,根据正态分布的特点,提出了词的浓缩和提炼[5]。因此,如果一个关键词或主题词在其主导频率分析方法的高频词阈值的计算方法中。如果在领域文献中反复出现,可以认为是一些学者试图提出提高高频词阈值的方法高低点法中b的含义,但[1]的研究课题是该领域的研究热点。词频分析法可以判断这些新方法是否具有广泛的适用性,以及它们能否解决目前高到可以与其他方法结合的问题(如共词分析、多维尺度分析、知识图谱频率词阈值选择,以及这些新方法的使用是否存在问题?谱等)加深对研究课题的理解。词频分析法虽然会产生新的问题,目前学术界仍未达成共识,需要广泛应用,但对其方法论的深入研究较少,缺乏持续讨论; 而传统的高频词阈值选择方法相对不规范,因此系统总结了其内涵、特点、模式、过程等内在规律。高频词阈值的选择方法还有很长的路要走。此外,关于词频分析法和传统文献综述法的方法论基础、研究对象、应用范围等方面的讨论也比较少见。2 常用的高频词阈值选择方法 确定该领域的高频词是下一步使用词频分析等方法的基础。因此,如何合理定义该领域的高频词成为反映当前中国学术界对高频词阈值选择方法的重要体现。研究课题。词频分析法和传统文献综述法的应用范围也比较少。2 常用的高频词阈值选择方法 确定该领域的高频词是下一步使用词频分析等方法的基础。因此,如何合理定义该领域的高频词成为反映当前中国学术界对高频词阈值选择方法的重要体现。研究课题。词频分析法和传统文献综述法的应用范围也比较少。2 常用的高频词阈值选择方法 确定该领域的高频词是下一步使用词频分析等方法的基础。因此,如何合理定义该领域的高频词成为反映当前中国学术界对高频词阈值选择方法的重要体现。研究课题。2 常用的高频词阈值选择方法 确定该领域的高频词是下一步使用词频分析等方法的基础。因此,如何合理定义该领域的高频词成为反映当前中国学术界对高频词阈值选择方法的重要体现。研究课题。2 常用的高频词阈值选择方法 确定该领域的高频词是下一步使用词频分析等方法的基础。因此,如何合理定义该领域的高频词成为反映当前中国学术界对高频词阈值选择方法的重要体现。研究课题。

    例如,杨健林结合中国学术期刊网络出版数据库的现状,分析了基于词频阈值和贡献强度的两种选词策略,并获得了将这两种方法与热点相结合的相关文献。经abstract =“热点”和topic =“词频+[3]后得到的关键词集,共词分析效果较好;共词如陈果”作为检索公式,源类别选为CSSCI,检索时间为42年第(全期)2017 9160 刘一山,王玉林,李明新 词频分析法中高频词阈值定义法适用性的实证分析。2015年至2017年的文献共获得229条记录。根据具体情况和自身经验,选择合适的阈值选择,剔除不符合研究主题的文献,最终得到174篇文献。识别高频词。这种方法的优点是操作简单,节省了大量的时间和精力,使研究人员能够更加关注以往“研究热点”文献的统计结果的后续分析和研究三年。但是,由于该方法的所有操作步骤都是由研究人员自行分析定义的,因此无法保证其可靠性和科学性。尤其是高频词阈值的确定,是后续分析研究的基础。在本文中,通过提取174篇文献中的高频词阈值,在现有的样本数据中,11篇文献的研究人员以此为代表,梳理了学术界常用的高频词阈值选择方法。我的国家。,根据高频词的累积频率达到总频率的40%左右的方法,结果如表1所示。

    选词标准基于选词标准,占频率选择方法文献的13.75%,占全表1高频词阈值选择方法样本文献的6.32%。也可以看出,在频率选择法的实际应用中,研究者的主观意志在一定程度上占据了主要方法数/文章占比/%的主导地位。频率选择法(自定义选择法) 80 45.98 Top N 选择法(自定义选择法) 44 25.29 中心性选择法(自定义选择法) 5 2.872.2.2 前N位的选择方法 方法是按照词频从高到低排序,频率选择法+top N 选择法(混合法) 5 2.87 作者选择top N 词作为高频词;这样的文献有44篇高低点法中b的含义,高低频词定义公式选择法+频率选择法(混合法)的比例21.15 25.29%。该方法与频率选择法类似,也是基于研究者主要价格公式选择法+top N选择法(混合法)42.30个概念意志的高频词选择法。价格公式选择法+频率选择法(混合法) 2 1.15 不同的是,这种方法比较随意。

    从本文样本统计(混合法)的结果来看,高频词的阈值选择标准从前5位到前100位不等。注:15篇文献未提供具体研究方法,故不纳入本研究. 选出的第N个高频词的频率也在2到100次之间变化。由于2.2自定义选择方式将具体频率数据抽象为排名形式,因此不可避免地会丢失一些具体频率信息。这个比较抽象的top N位置可以从表1中看出。目前中国学术界研究领域热点问题的选取方式通常更容易让研究者忽略截取频率的合理性。常用的高频词选择方法有:在自定义选择方法中,选择的高频词总数更关心是否更容易构建相异矩阵。文章129篇,占74.14%。采用自定义选择方式,作者可以根据研究需要为研究带来更多便利。高频词的选择方法和高频词的阈值需要自己定义。这种选择方式主观性很强,阈值的选择比较随意。根据本文采用2.2.3中心性选择方法得到的174篇文档的研究数据发现,样本文档的数据量范围为58~25 990,其中频率选择从2到300次。大的。现在,由于词频分析软件的流行,大量文献在使用词频分析来选择这些随机高频词时,选择直接将原始数据导入词频分析软件,对中频词进行分析。结果的准确性和科学性值得商榷(如CiteSpace、Ucinet等),排名取决于关键词的中心性。

    即使在同一个研究领域,也有5个高频词样本由不同研究人员用不同的数据选出,占2.87%。事实上,取值标准的现象导致研究结果不一致。CiteSpace等词频分析软件的工作原理是根据词频确定对应的节点中心度。因此,这种选择具有中心性的法语单词来确定高频2.2.1频率的方法与之前的方法基本相同。N位选择方法的原理是一样的。从调查结果来看,最常用的自定义方法是频率选择2.3高低频词定义公式选择方法,即 作者自己设定了高频词阈值,这类文献占45.@ >98%。这种高频词选择方法主要是基于研究人员的研究。第二种方法是利用高频词和低频词的定义公式来确定高频词年周期(总周期)432017 9160的阈值。高频词和低频词的定义公式是Donohue在1973年提出的. 根据目前的统计,除了作者的定义和使用高频和低频词来定义公式边界[6]外,它是基于齐普夫第二定律。除了文献中确定高频词的两种方法外,高低频词定义公式也主要使用价格公式来确定定量科学中的一个重要内容,在高频词领域应该用它来定义高频词阈值。字数(共5篇,占2.87%)。但从本文样本的调查结果来看,其实是先用 Price 公式来识别高被引文献,然后只有使用这种高低频词定义公式方法的文献才能识别高被引文献。频率词选择被确定。某一研究领域的核心作者。但从本文样本的调查结果来看,其实是先用 Price 公式来识别高被引文献,然后只有使用这种高低频词定义公式方法的文献才能识别高被引文献。频率词选择被确定。某一研究领域的核心作者。但从本文样本的调查结果来看,其实是先用 Price 公式来识别高被引文献,然后只有使用这种高低频词定义公式方法的文献才能识别高被引文献。频率词选择被确定。某一研究领域的核心作者。

    与使用高低频方法相比,有11篇文章,仅占6.32%。词定义公式比自定义选择方法更简单、更科学。它逐渐被基于齐夫第二定律的高低频词定义公式所接受:学者们接受并应用在不同领域的研究中。其高频词阈值 1 T = − 1+ 1+ 8× I 。其中,I指的是数据中只出现一次的key,根据Price公式确定。计算公式为:M = 0.749N,即11max2个关键字的个数。使用这个高低频词定义公式,数值并不理想。M为高频词阈值,而Nm ax 代表了区间学术论文中最常被引用的问题[10],可能有两个原因。高价值。(1)取决于I。从这个公式可以看出,词频阈值完全由I决定。Price公式可以用来确定该领域的核心文献。因此,在11中,计算出的高频词数一般偏多或偏少。,这可能是使用该公式在一定程度上确定该领域的核心关键词,计算结果不理想的外在原因[5]。)理论基础和适用性。高频词和低频词的定义公式是用 Nm ax 表示为关键词的最高频率,而不是通过 Zipf 引用第二定律,这与 Zipf 第二定律相同。

    因此,高低频词的定义公式在基于文献数据库计算高频主题词时缺乏理论依据和适用条件,无法更清楚地表达中国学术界常用的上述三种(5种)[5]和关键字阈值。这里对高频词的阈值选择方法进行了总结和比较。与自定义选择方法相比,高频词定义公式的计算和排列如表2所示。高频词更为复杂。孙庆澜虽然对它们进行了改进,提供了一个相对简单的算法,但相比于自定义的方法,高频词的选择2.5 混合选择的方法还是比较复杂的。因此,由于以上两个原因,学术界很少使用高频词和低频词定义公式来定义该领域的高频词。混合选择法是指表2中的两种或两种以上方法组合使用的情况。最常用的方法是先用高低词频定义公式2.4价格公式选择法或价格公式计算一个高频词阈值。尽管许多学者在选择领域提出了多种高频词,但仍需要或给研究带来不必要的麻烦。对此,研究人员通常根据实际情况采用方法,如熊慧祥等人利用大数据搜索和挖掘共现平台来选择人工词,即根据公式计算结果,人工扩展或[7]提取特征词,巴志超等。使用 LDA 和 word2vec 模型来提取高缩减范围和自定义阈值。[8][9] 频率词,姚小娇使用词频g指数法定义高频词等。

    但是,基于表2,5种常见的高频词阈值选择方法和比较方法,特征文档源频率选择方法的定义,选择频率大于x倍的词作为高频词很容易操作,但不能保证其可信度和科学文献[11]按照频率从高到低排序,选取前N个词将具体频率数据抽象成一个排序,丢失部分具体频率信息。对词的中心度进行排序,选取前m个词,将具体的中心度值和频率值抽象成一个排名,丢失了一些中心度选择方法。文献[13]是高频词度和频率信息,并且更容易忽视它的合理性。高低频词定义公式的计算阈值可以保证科学合理性,但高低频词的定义并不容易。高低频词定义公式用于计算高频词的阈值。作者自选关键词导致出现频率为1的大量关键词。选择方法和价格公式的计算结果选择方法根据价格公式计算高频词的阈值。高频阈值由最高引用次数决定,科学性和合理性无法保证。文献[10]第44期(总第1号))2017 9160 刘一山,王玉林,李明新 词频分析法中高频词阈值定义法适用性的实证分析 3 高频词阈值选取的实证分析方法也体现了一定的选词依据。自定义选取方法经过实证验证,从个人知识中选取目前国内学术界常用的三类管理领域的高频词。根据表3的统计结果,基于高频词从高到低的选择方法,个人知识管理领域的研究提取了累计占比20%的词作为该领域的高频词. 实证研究在文献中进行,

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 技术与应用词频分析法中高频词阈值界定方法的实证分析

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论