论文查重  | 论文文献库  | 词间关系的不确定图模型与关键词自动抽取方法

词间关系的不确定图模型与关键词自动抽取方法

来源：论文查重时间：2019-08-05 11:03:51

摘要:传统的无监督关键词抽取算法往往无法反应词汇语义信息，而通过饲频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾询问语义关系、词位置关系及词频，结合 word2vec 提出了一种询问的文本局部相似度公式，并通过询问关系建立了不确定图模型，在提出顶点密度概念及候选关键词评价指标 DEN 的基础上，提出了基于不确定图的候选关键词抽取算法，并结合 IDF 提出了关键词评价的优化标准 DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据，能够实现全程无监督.通过大量文本实验仿真发现， DEN-IDF 的准确率比 TF-IDF 提高了 8% 左右，比 TextRank提高了 12% 左右.
关键词可以高度凝练文本的主题，快速获取文本的核心内容，在信息检索、自然语言处理、情报学等领域都起着重要的作用.随着数据信息化及大数据时代的到来，大量文本信息 '涌现，采用早期的手工标注关键词方法将消耗大量人力及时间，如何自动高效并准确地从文本中抽取关键词逐渐得到了人们的关注，成为了自然语言处理领域的一个重要课题，同时广泛应用于人工智能、推荐系统、机器翻译、论文查重等工业领域. 关键词抽取指的是通过计算机程序从文本中自动抽取具有重要性和主题性的词或短语的自动化技术.主流的关键词抽取方法可以分为监督方法及无监督方法，其中监督方法往往会把关键词抽取看作一个二分类问题，通过对已标注的语料库训练分类器来判断文本的某个词是否为关键词，其中分类器包括基于决策树算法 [IJ 、基于朴素贝叶斯方法 [2J 等.监督学习的关键词抽取准确率较高，但其需要对大量语料信息进行人工标注，需要花费大量人力时间，同时，语料的质量也会直接影响模型的准确性;无监督方法中采用的技术包括统计法、基于主题的方法、基于网络图法等，其中'由_IDF[3J 算法是一个经典的基于统计法的关键词抽取算法，其中1F (Term Frequency) 指的是词频， IDF(Inverse Document Frequency) 指的是逆向文件频率，算法基于这样一个假设:当一个单词在一个文本中出现多次，而在其他文本中出现较少，则该单词可以作为关键词，该算法简单快速，但在很多短文本中，高频词并不一定是关键词，且很多词的词频相近致使1F项无法起到作用，同时该方法无法体现词间的语义关系.
针对宵-IDF 的改进包括，文献 [4J 通过提高特征值权重一定程度克服 π-IDF 中 IDF 带来的问题:文献 [5J 引入了情感判断来提高 π-IDF 的准确性;文献 [6J 引入了词语关联度来避免单词 π-IDF 带来的误差;文献 [7J 通过引人规则对候选词进行评分结合 TF-IDF 来抽取关键词.综上，许多关键词抽取的研究都将 TF-IDF 作为基础特征，并结合词性特征，候选词评分等方法提高关键词抽取的准确率，但很少结合词间语义的关系，本文将首先将词转为词向量，并结合不确定图提出一种词间相似度公式来表示词间语义上的关系.
TextR础 [8J 是一个经典的基于网络图的关键词抽取算法，它将每个词看作图中的一个节点，采用随机游走法来计算每个词的分值，通过分值的高低来判断该词的关键程度. Tex tR础作为一中无监督学习方法，无需标注训练数据，速度快适应性强，但其通过共现频率来构建网络图的方法，针对短文本时往往会形成链式的图结构，从而致使准确率降低，同时 Texl曲nk 也无法体现词间语义上的关系.
综上，传统的关键词抽取算法单纯依靠统计或词的关联信息 [9J 及词的文本位置无法体现文本中各次语义间的关系，而如果加入人为制定的规则对候选词进行评分来来提高算法准确率的方法，在实际应用中针对不同的业务需求需要相应改变规则，同时也需要人为维护一定数量的候选词库，使得该方法一定程度转化为了半监督学习.同时，工业上诸如商品介绍、用户评论、新闻等文本信息很多均以篇幅较短的文本为主，传统关键词抽取算法在长文本关键词抽取时可以取得尚可的准确率，但针对短文本时往往效果较差.
本文结合 word2vec 首次提出了一种词间的文本局部相似度公式，并通过词间关系建立了不确定图模型，参考文献 [ 10] 的图聚类相关方法及定理提出了顶点密度概念及候选关键词评价指标 DEN，并提出了基于不确定图的候选关键词抽取算法，最终结合 IDF 提出了一种全新关键词评价优化标准 DEN-IDF. 这种关键词抽取的新方法在每个过程均不依赖于外部人工标注数据，能够实现全程无监督.通过大量文本实验仿真发现， DEN-IDF 的准确率比 TF-IDF 提高了 8% 左右，比 Tex战ank 提高了 12% 左右，其中 DEN-IDF 在面对短文本时准确率比 TF-IDF 提高了 9% 左右，比 TextRank 提高了 13% 左右.
2 相关工作
2.1 词的向量化
词的向量化目的是将语料库中的每个词数值化一个指定长度的向量，最早由皿nton[ lI J 提出，它可以将词映射到一个低维、稠密的实数向量空间中，使得词义相近的词在空间上的距离越近.通过借鉴文献 [12 ]中的 NNLM ， Mikolov 等提出了 Word2vec 模型。
Word2vec 模型通过优化 NNLM 中的神经网络，大大提高了训练效率，其模型包括图 1 的 CBOW 模型及图 2 的 Skip-gram 模型.两个模型的网络结构都包括:输入层、投影层、输出层，其中 CBOW 利用词 w( t) 及文本中该词周围的 n 个词来预测当前词， skip-gram 则利用从 w( t) 来预测它周围的 n 个词以 CBOW 模型为例，假设 context( w) 为 w( t) 周围的 n 个词，训11练过程将 (context(w) ， w(t)) 作为输入，输出为 p( w( t) Icontext( w) ) ，通过极大似然估计最大化输出.当模型训练完成后，对语料库中的每个词可以得到一个相应的向量.通过比较两个词向量的空间距离，可以得到两个词在语义上的差异，如本文实验得到的 word2vec 模型中贫穷..与" 贫苦"的词向量余弦相似度为 0.89 ，"住所"与"住处"的词向量余弦相似度为 0.87 ，表示这两对词在语义上为近义词.
图 3 中给出了一个简单的 4 阶不确定图及它的邻接矩阵.对于一个确定无向图，假设其邻接矩阵为 A' ，那么 (A')" 中的元素 (A') 乙则表示由顶点 i 到顶点 j 长度为 n 的径的数量[叫，也可以理解为由顶点 i 出发经过两个步长到达顶点 j 的策略数.对于图 3 中的不确定图，由经过两个步长由顶点 1 到顶点 3 有两种策略 :1-2→3 和 1→4→3 ，令 Ai.3表示图 3 中的不确定图的 A2 的第一行第三列元素， A~I.3) =AII • AI3 + A I2 • A32 +AI3 • A33 +A14 • A34 =A12 • A32 +A14 • A34 =0.62, 因此 Ai.3可表示为经过两个步长由顶点 1 至顶点 3 的转移概率，继而扩展可得，A:J表示经过 l 个步长由顶点 i 至顶点 j 的转移概率.
3 基于不确定团的关键词抽取
本文的关键词抽取方法的主要步骤为训练词向量、文本预处理、构建不确定图、关键词抽取，流程图如图 4 所示.采用维基百科中文语料库作为词向量训练集，在文本预处理阶段，采用 jieba (h伽 :11github. com/fxsjy/jieba) 作为分词工具，去除停用词后可以将文本转化为一个有序词组，接下来将就构建不确定图及关键词抽取做详细介绍.
3.1 构建不确定固
文献 [7] 中提出，对于短文本，由于文档本身没有首尾段落，本身首尾句的重要程度与其他句子没有明显的区别.在实验中对一些新闻、评论、商品介绍等短文本研究发现，当一段文本转化为-个有序词组时，关键词一般不会出现在首尾位置;同时，关键词可以表达文本的主题意思，那么 -般情况下关键词与文本中的其他词语义相近，如果使用词向量余弦相似度来表示词间的语义相似程度，那么一段短文本的关键词将具有以下两个特征:
1)关键词的位置一般不位于文本的首尾且在文本中可能出现多次. 2) 关键词与文本中其他词的词向量余弦相似度较高
根据这两个特征，可以构建词与词之间的相似度，一个文本经过分词及去除停用词的过程称为预处理过程，一个文本通过预处理过程可以得到一个长度为 n 的有序词组 w= |叭，叫，叭，… ， Wn f ，对于每个词之间做以下定义: 定义1.文本间隔:对于词 Wi 、町，其间隔的词数为 a ，则其文本间隔 tDis( 叭， wj)=l+a. 9~ 1. 己知短文本例文及预处理结果如下所示，由于"元宵节"在文中出现多次，因此"传统节日"与"元宵节"的文本间隔为 1 、25 ，这种情况下，将取最小值作为两个词的文本间隔，即本例中 tDis( "传统节日元宵节") = 1.因此，当某个词在文本中多次出现时，该词与其他词的文本间隔将会较小，如果首尾词在文本只出现很少次，那么其与其他词的文本间隔将会很大.
3.4 带权重的 DEN-IDF
在经过算法 1 处理后得到的候选关键词排序中，仍然有一些常见词排名较前，即 IDF 值较大的词.因此，本文提出 DEN-IDF 作为关键词评价的优化标准.
关于权重 a 的取值，通过对训练集数据的实验得到 a 的近似取值为 0.6 ，具体实验方法及过程在第 4 章介绍.图 5 显示的例 1 中的文本分别使用 TF-町、 TextR础及 DEN-IDF 得到的 ωpδ 关键词.可以看出例 l 中例文的关键词应为"元宵节相比 π-IDF 及 TextRank ， DEN-IDF 可以得到更准确的结果.
4 实验
4.1 实验数据及评价指标
本文使用维基中文百科作为词向量训练数据，使用搜殉实验室新闻语料集作为关键词抽取算法测试数据，其中维基中文百科文档数在 40 万左右，搜狗实验室语料集中，选取 10 个领域，每个领域随机选取 10 篇文档，一共 1∞篇作为测试文档集，并人工为每篇文档设置 5 个关键词.其中本文将字数在 350 字以下的文档作为短文本，测试文档集中短文本一共有 36 篇，非短文本一共有 64 篇.利用此文档集进行关键词抽取实验，评价指标包括准确率 P ( precision )、召回率 R (recall)、F 值 F( F-measure) ，其中具体公式如下:
4.3 关键词抽取实验
为了考察 DEN-IDF 关键词抽取方法的有效性，实验中使用传统的 TF-IDF、 TextRank 及 DEN-IDF 对测试文档集每篇文档进行关键词抽取，分别抽取 top3 、 ω'p5 、 top7 个词作为关键词，计算各自准确率、召回率及 F 值.实验结果如表 1 、表 2 和表 3 所示.
分析上述实验结果可得以下结论: 1)算法抽取关键词的个数对关键词抽取的效果影响较大.由表 1 及表 2 可以发现， TF-I町、TextR础及 DEN-IDF 在选取 ωρ 词作为关键词时其准确率均最大，召回率最小，随着选取关键词数量的增加，准确率逐渐下降，而召回率逐渐增加.
2) 传统的关键词抽取算法整体效果较为一般.由表 1 、表 2 及表 3 可以发现，对于抽取不同个数的关键词，宵'-IDF 的准确率平均值为 36.8% ，召回率平均值为 34.6% ， F 值平均值为 34.6% ;Tex恨ank 的准确率平均值为 3 1. 5% ，召回率平均值为 29.7% ， F 值平均值为 29.7%. 可以看出，对于中短篇幅的文档，基于词频统计的 TF-IDF 效果赂优于基于网络图的 TextRank ，但总体效果一般.
3) DEN-IDF 较传统关键词抽取算法，能显著提升关键词抽取效果.由表 1 、表 2 及表 3 可以发现，对于抽取不同个数的关键词， DEN-IDF 较 π-IDF ，准确率平均提升 8% ，最大提升 11% ，召回率平均提升 7% ，最大提升 9%;F 值平均提升 7% ，最大提升 9% ;DEN-IDF 较 TextRank ，准确率平均提升 12% ，最大提升 17% ，召回率平均提升 12% ，最大提升 17% ,F 值平均提升 11% ，最大提升 14%. 同时， DEN-IDF 的准确率平均值达到了 43.7% ，召回率平均值达到了 41. 9% ， F 值平均值达到了 41. 6%.
4) DEN-IDF 针对短文本抽取关键词时也能得到良好的效果.表 4 为分别对测试文档集中的短文本及非短文本抽取 ω'P5 词作为关键词时的准确率数据，其中宵-IDF 及 T饵· 仪ank 在短文本数据下的准确率分别为 3 1. 2% 及 27.1% ，说明其在面对短文本时的效果较差. DEN-IDF 在面对短文本时准确率比 TF-IDF 提高了 9.3% ，比 Tex保ank 提高了 13 . 4% , 达到了 40.5%. 说明 DEN-IDF 在针对短文时同样能保持良好的效果.
综上，在未加词性、主题等外部标签的情况下，本文提出的基于不确定图的无监督关键词抽取算法较传统算法效果提升明显，面对短文本及非短文本都能取得良好的效果.如果结合例如文 [7] 中的候选词方法将会进一步提高关键词抽取效果.
4.4 算法优势分析
DEN-IDF 通过构建全新的词间关系不确定图模型及两层关键词评价方法来改进传统关键词抽取算法存在的缺点 . 首先结合词向量余弦相似度及词间的文本间隔定义了新的词间关系，这种关系不仅能体现词间语义关系也能体现词间的句中相对位置关系及词频.随后将一个句子转化为词间关系的不确定图模型，并通过顶点间的转移概率提出了顶点密度概念，当某个词具有高密度时代表了该词与其他词的关系紧密，因此将顶点密度作为候选关键词评价标准，最后通过 IDF 得到了关键词的优化标准.合理的词间关系不确定图模型转换方式及两层式的关键词评价标准使得 DEN-IDF 较传统的无监督关键词抽取算法大大的提高了准确率.
5 结论
本文主要研究了基于不确定图的中文关键词抽取算法，首先利用 word2vec 构建词向量模型，结合词向量余弦相似度提出了词间的文本局部相似度，以此为基础构建不确定图，并将归一化后的顶点密度 DEN 作为候选关键词的评指标，量后使用 IDF 来过滤常用词，提出了 DEN-IDF 作为关键词评价的优化标准. 相比传统的关键抽取方法， DEN-IDF 兼顾了词义、词频及词的文本位置等因此，关键词的 P、R ， F 值相较基于网络图的 TextRank 各提升了 13% 左右，相较 π'-IDF 各提升了 7% 左右，在短文本及非短文本测试集下准确率都达到了 40% 以上在实验过程中发现，提高 word2vec 模型的质量可以提高关键词抽取的效果，在未来的工作可以考虑，通过主题划分的方式来提高 word2vec 模型，以改进本文关键词抽取算法及其他领域的推广研究.

相关文章：融合耦合距离区分度和强类别特征的短文本相似度计算方法

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507