论文查重 | 论文文献库 | 词间关系的不确定图模型与关键词自动抽取方法

词间关系的不确定图模型与关键词自动抽取方法

来源:论文查重 时间:2019-08-05 11:03:51

摘 要:传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过饲频等方式来衡量一个词的重要性使其在面对短文 本时准确率较低.为能兼顾询问语义关系、词位置关系及词频,结合 word2vec 提出了一种询问的文本局部相似度公式,并通过询 问关系建立了不确定图模型,在提出顶点密度概念及候选关键词评价指标 DEN 的基础上,提出了基于不确定图的候选关键词抽 取算法,并结合 IDF 提出了关键词评价的优化标准 DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据,能够实现全 程无监督.通过大量文本实验仿真发现, DEN-IDF 的准确率比 TF-IDF 提高了 8% 左右,比 TextRank提高了 12% 左右.
关键词可以高度凝练文本的主题,快速获取文本的核心 内容,在信息检索、自然语言处理、情报学等领域都起着重要 的作用.随着数据信息化及大数据时代的到来,大量文本信息 '涌现,采用早期的手工标注关键词方法将消耗大量人力及时 间,如何自动高效并准确地从文本中抽取关键词逐渐得到了 人们的关注,成为了自然语言处理领域的一个重要课题,同时 广泛应用于人工智能、推荐系统、机器翻译、论文查重等工业领域. 关键词抽取指的是通过计算机程序从文本中自动抽取具 有重要性和主题性的词或短语的自动化技术.主流的关键词 抽取方法可以分为监督方法及无监督方法,其中监督方法往 往会把关键词抽取看作一个二分类问题,通过对已标注的语 料库训练分类器来判断文本的某个词是否为关键词,其中分 类器包括基于决策树算法 [IJ 、基于朴素贝叶斯方法 [2J 等.监 督学习的关键词抽取准确率较高,但其需要对大量语料信息 进行人工标注,需要花费大量人力时间,同时,语料的质量也 会直接影响模型的准确性;无监督方法中采用的技术包括统计法、基于主题的方法、基于网络图法等,其中'由_IDF[3J 算法 是一个经典的基于统计法的关键词抽取算法,其中1F (Term Frequency) 指的是词频, IDF(Inverse Document Frequency) 指 的是逆向文件频率,算法基于这样一个假设:当一个单词在一 个文本中出现多次,而在其他文本中出现较少,则该单词可以 作为关键词,该算法简单快速,但在很多短文本中,高频词并 不一定是关键词,且很多词的词频相近致使1F项无法起到 作用,同时该方法无法体现词间的语义关系.
针对宵-IDF 的改进包括,文献 [4J 通过提高特征值权重 一定程度克服 π-IDF 中 IDF 带来的问题:文献 [5J 引入了情 感判断来提高 π-IDF 的准确性;文献 [6J 引入了词语关联度 来避免单词 π-IDF 带来的误差;文献 [7J 通过引人规则对候 选词进行评分结合 TF-IDF 来抽取关键词.综上,许多关键词 抽取的研究都将 TF-IDF 作为基础特征,并结合词性特征,候 选词评分等方法提高关键词抽取的准确率,但很少结合词间 语义的关系,本文将首先将词转为词向量,并结合不确定图提 出一种词间相似度公式来表示词间语义上的关系.
TextR础 [8J 是一个经典的基于网络图的关键词抽取算法,它将每个词看作图中的一个节点,采用随机游走法来计算每 个词的分值,通过分值的高低来判断该词的关键程度. Tex tR础作为一中无监督学习方法,无需标注训练数据,速度快 适应性强,但其通过共现频率来构建网络图的方法,针对短文 本时往往会形成链式的图结构,从而致使准确率降低,同时 Texl曲nk 也无法体现词间语义上的关系.
综上,传统的关键词抽取算法单纯依靠统计或词的关联 信息 [9J 及词的文本位置无法体现文本中各次语义间的关系, 而如果加入人为制定的规则对候选词进行评分来来提高算法 准确率的方法,在实际应用中针对不同的业务需求需要相应 改变规则,同时也需要人为维护一定数量的候选词库,使得该 方法一定程度转化为了半监督学习.同时,工业上诸如商品 介绍、用户评论、新闻等文本信息很多均以篇幅较短的文本为 主,传统关键词抽取算法在长文本关键词抽取时可以取得尚 可的准确率,但针对短文本时往往效果较差.
本文结合 word2vec 首次提出了一种词间的文本局部相 似度公式,并通过词间关系建立了不确定图模型,参考文献 [ 10] 的图聚类相关方法及定理提出了顶点密度概念及候选 关键词评价指标 DEN,并提出了基于不确定图的候选关键词 抽取算法,最终结合 IDF 提出了一种全新关键词评价优化标 准 DEN-IDF. 这种关键词抽取的新方法在每个过程均不依赖 于外部人工标注数据,能够实现全程无监督.通过大量文本 实验仿真发现, DEN-IDF 的准确率比 TF-IDF 提高了 8% 左 右,比 Tex战ank 提高了 12% 左右,其中 DEN-IDF 在面对短文 本时准确率比 TF-IDF 提高了 9% 左右,比 TextRank 提高了 13% 左右.
2 相关工作
2.1 词的向量化
词的向量化目的是将语料库中的每个词数值化一个指定 长度的向量,最早由皿nton[ lI J 提出,它可以将词映射到一个 低维、稠密的实数向量空间中,使得词义相近的词在空间上的 距离越近.通过借鉴文献 [12 ]中的 NNLM , Mikolov 等提出了 Word2vec 模型。
Word2vec 模型通过优化 NNLM 中的神经网络,大大提 高了训练效率,其模型包括图 1 的 CBOW 模型及图 2 的 Skip-gram 模型.两个模型的网络结构都包括:输入层、投影 层、输出层,其中 CBOW 利用词 w( t) 及文本中该词周围的 n 个词来预测当前词, skip-gram 则利用从 w( t) 来预测它周围 的 n 个词以 CBOW 模型为例,假设 context( w) 为 w( t) 周围的 n 个词,训11练过程将 (context(w) , w(t)) 作为输入,输出为 p( w( t) Icontext( w) ) ,通过极大似然估计最大化输出.当模 型训练完成后,对语料库中的每个词可以得到一个相应的向量.通过比较两个词向量的空间距离,可以得到两个词在语义 上的差异,如本文实验得到的 word2vec 模型中贫穷..与" 贫苦"的词向量余弦相似度为 0.89 ,"住所"与"住处"的词向 量余弦相似度为 0.87 ,表示这两对词在语义上为近义词.
图 3 中给出了一个简单的 4 阶不确定图及它的邻接矩 阵.对于一个确定无向图,假设其邻接矩阵为 A' ,那么 (A')" 中的元素 (A') 乙则表示由顶点 i 到顶点 j 长度为 n 的径的数 量[叫,也可以理解为由顶点 i 出发经过两个步长到达顶点 j 的策略数.对于图 3 中的不确定图,由经过两个步长由顶点 1 到顶点 3 有两种策略 :1-2→3 和 1→4→3 ,令 Ai.3表示图 3 中 的不确定图的 A2 的第一行第三列元素 , A~I.3) =AII • AI3 + A I2 • A32 +AI3 • A33 +A14 • A34 =A12 • A32 +A14 • A34 =0.62, 因此 Ai.3可表示为经过两个步长由顶点 1 至顶点 3 的转移概 率,继而扩展可得 ,A:J表示经过 l 个步长由顶点 i 至顶点 j 的 转移概率.
3 基于不确定团的关键词抽取
本文的关键词抽取方法的主要步骤为训练词向量、文本 预处理、构建不确定图、关键词抽取,流程图如图 4 所示.采 用维基百科中文语料库作为词向量训练集,在文本预处理阶 段,采用 jieba (h伽 :11github. com/fxsjy/jieba) 作为分词工 具,去除停用词后可以将文本转化为一个有序词组,接下来将 就构建不确定图及关键词抽取做详细介绍.
3.1 构建不确定固
文献 [7] 中提出,对于短文本,由于文档本身没有首尾段 落,本身首尾句的重要程度与其他句子没有明显的区别.在 实验中对一些新闻、评论、商品介绍等短文本研究发现,当一 段文本转化为-个有序词组时,关键 词一般不会出现在首尾位置;同时,关 键词可以表达文本的主题意思,那么 -般情况下关键词与文本中的其他词 语义相近,如果使用词向量余弦相似 度来表示词间的语义相似程度,那么 一段短文本的关键词将具有以下两个 特征:
1)关键词的位置一般不位于文 本的首尾且在文本中可能出现多次. 2) 关键词与文本中其他词的词 向量余弦相似度较高
根据这两个特征,可以构建词与词之间的相似度,一个文 本经过分词及去除停用词的过程称为预处理过程,一个文本 通过预处理过程可以得到一个长度为 n 的有序词组 w= |叭,叫,叭,… , Wn f ,对于每个词之间做以下定义: 定义1.文本间隔:对于词 Wi 、町,其间隔的词数为 a , 则其 文本间隔 tDis( 叭 , wj)=l+a. 9~ 1. 己知短文本例文及预处理结果如下所示,由于"元 宵节"在文中出现多次,因此"传统节日"与"元宵节"的文本 间隔为 1 、25 ,这种情况下,将取最小值作为两个词的文本间 隔,即本例中 tDis( "传统节日元宵节") = 1.因此,当某 个词在文本中多次出现时,该词与其他词的文本间隔将会较 小,如果首尾词在文本只出现很少次,那么其与其他词的文本 间隔将会很大.
3.4 带权重的 DEN-IDF
在经过算法 1 处理后得到的候选关键词排序中,仍然有 一些常见词排名较前,即 IDF 值较大的词.因此,本文提出 DEN-IDF 作为关键词评价的优化标准.
关于权重 a 的取值,通过对训练集数据的实验得到 a 的 近似取值为 0.6 ,具体实验方法及过程在第 4 章介绍.图 5 显 示的例 1 中的文本分别使用 TF-町、 TextR础及 DEN-IDF 得到的 ωpδ 关键词.可以看出例 l 中例文的关键词应为"元 宵节相比 π-IDF 及 TextRank , DEN-IDF 可以得到更准确 的结果.
4 实验
4.1 实验数据及评价指标
本文使用维基中文百科作为词向量训练数据,使用搜殉 实验室新闻语料集作为关键词抽取算法测试数据,其中维基 中文百科文档数在 40 万左右,搜狗实验室语料集中,选取 10 个领域,每个领域随机选取 10 篇文档,一共 1∞篇作为测试 文档集,并人工为每篇文档设置 5 个关键词.其中本文将字 数在 350 字以下的文档作为短文本,测试文档集中短文本一 共有 36 篇,非短文本一共有 64 篇.利用此文档集进行关键 词抽取实验,评价指标包括准确率 P ( precision )、召回率 R (recall)、F 值 F( F-measure) ,其中具体公式如下:
4.3 关键词抽取实验
为了考察 DEN-IDF 关键词抽取方法的有效性,实验中使 用传统的 TF-IDF、 TextRank 及 DEN-IDF 对测试文档集每篇 文档进行关键词抽取,分别抽取 top3 、 ω'p5 、 top7 个词作为关 键词,计算各自准确率、召回率及 F 值.实验结果如表 1 、表 2 和表 3 所示.
分析上述实验结果可得以下结论: 1)算法抽取关键词的个数对关键词抽取的效果影响较 大.由表 1 及表 2 可以发现, TF-I町、TextR础及 DEN-IDF 在 选取 ωρ 词作为关键词时其准确率均最大,召回率最小,随着 选取关键词数量的增加,准确率逐渐下降,而召回率逐渐增加.
2) 传统的关键词抽取算法整体效果较为一般.由表 1 、 表 2 及表 3 可以发现,对于抽取不同个数的关键词,宵'-IDF 的准确率平均值为 36.8% ,召回率平均值为 34.6% , F 值平 均值为 34.6% ;Tex恨ank 的准确率平均值为 3 1. 5% ,召回率 平均值为 29.7% , F 值平均值为 29.7%. 可以看出,对于中短 篇幅的文档,基于词频统计的 TF-IDF 效果赂优于基于网络图 的 TextRank ,但总体效果一般.
3) DEN-IDF 较传统关键词抽取算法,能显著提升关键 词抽取效果.由表 1 、表 2 及表 3 可以发现,对于抽取不同个 数的关键词, DEN-IDF 较 π-IDF ,准确率平均提升 8% ,最大 提升 11% ,召回率平均提升 7% ,最大提升 9%;F 值平均提升 7% ,最大提升 9% ;DEN-IDF 较 TextRank ,准确率平均提升 12% ,最大提升 17% ,召回率平均提升 12% ,最大提升 17% ,F 值平均提升 11% ,最大提升 14%. 同时, DEN-IDF 的准确率平 均值达到了 43.7% ,召回率平均值达到了 41. 9% , F 值平均值达到了 41. 6%.
4) DEN-IDF 针对短文本抽取关键词时也能得到良好的 效果.表 4 为分别对测试文档集中的短文本及非短文本抽取 ω'P5 词作为关键词时的准确率数据,其中宵-IDF 及 T饵· 仪ank 在短文本数据下的准确率分别为 3 1. 2% 及 27.1% ,说 明其在面对短文本时的效果较差. DEN-IDF 在面对短文本时 准确率比 TF-IDF 提高了 9.3% ,比 Tex保ank 提高了 13 . 4% , 达到了 40.5%. 说明 DEN-IDF 在针对短文时同样能保持良 好的效果.
综上,在未加词性、主题等外部标签的情况下,本文提出 的基于不确定图的无监督关键词抽取算法较传统算法效果提 升明显,面对短文本及非短文本都能取得良好的效果.如果 结合例如文 [7] 中的候选词方法将会进一步提高关键词抽取 效果.
4.4 算法优势分析
DEN-IDF 通过构建全新的词间关系不确定图模型及两 层关键词评价方法来改进传统关键词抽取算法存在的缺点 . 首先结合词向量余弦相似度及词间的文本间隔定义了新的词 间关系,这种关系不仅能体现词间语义关系也能体现词间的 句中相对位置关系及词频.随后将一个句子转化为词间关系 的不确定图模型,并通过顶点间的转移概率提出了顶点密度 概念,当某个词具有高密度时代表了该词与其他词的关系紧 密,因此将顶点密度作为候选关键词评价标准,最后通过 IDF 得到了关键词的优化标准.合理的词间关系不确定图模型转 换方式及两层式的关键词评价标准使得 DEN-IDF 较传统的 无监督关键词抽取算法大大的提高了准确率.
5 结论
本文主要研究了基于不确定图的中文关键词抽取算法, 首先利用 word2vec 构建词向量模型,结合词向量余弦相似度 提出了词间的文本局部相似度,以此为基础构建不确定图,并 将归一化后的顶点密度 DEN 作为候选关键词的评指标,量后 使用 IDF 来过滤常用词,提出了 DEN-IDF 作为关键词评价的 优化标准. 相比传统的关键抽取方法, DEN-IDF 兼顾了词义、 词频及词的文本位置等因此,关键词的 P、R , F 值相较基于网 络图的 TextRank 各提升了 13% 左右,相较 π'-IDF 各提升了 7% 左右,在短文本及非短文本测试集下准确率都达到了 40% 以上在实验过程中发现,提高 word2vec 模型的质量可 以提高关键词抽取的效果,在未来的工作可以考虑,通过主题划分的方式来提高 word2vec 模型,以改进本文关键词抽取算 法及其他领域的推广研究.

相关文章:融合耦合距离区分度和强类别特征的短文本相似度计算方法