论文查重 | 论文文献库 | 基于语义扩展与注意力网络的问题细粒度分类

基于语义扩展与注意力网络的问题细粒度分类

来源:论文查重 时间:2019-08-06 10:43:31

随着社交网络的发展,Quora、Research Gate、 Yahoo!Answers、知乎、豆瓣等社交问答网站引起了 许多国内外学者的关注。问题分类是问答网站的核 心组成部分,直接影响着用户的检索论文查重速度…。近年 来,随着深度学习的发展,问题的细粒度分类越来越 受到研究学者的青睐¨1。
一般认为问题细粒度分类隶属于短文本分 类”。,主要的任务是对同一个上级类别的子类别进行准确的区分。问题细粒度分类主要有以下难点: 细分类别之间的整体特征较为相似,只有在某个局 部区域存在差异;难以找出局部差异较大的特征区 域;问题文本本身较为短小,特征空间较为稀疏。 近年来,基于深度学习的方法被广泛地应用到文 本分类任务中¨’61。与传统统计学习的方法相比,这类 方法能够更好地提取出问题文本的特征并且准确地得 到其向量表达,在分类准确率上也有着较为明显的提 升H“。。但是上述方法面临着在模型训练过程中默认每 个单词对问题文本语义贡献度相同的问题一。
为解决上述问题,注意力机制引起了诸多研究 学者的关注…。“。这类方法均能够通过注意力机制 获取贡献度较大的文档或者图片,并且利用向量模 型准确表达,但是也面临着文本数据稀疏的问题。 不同于文献[10,13],本文将依存句法分析树 的方法应用到问题文本语义扩展中,同时利用基于 长短期记忆(LsTM)序列编码的注意力机制解决 传统深度学习模型特征选择上的缺陷。基于以上 研究,提出基于语义扩展与注意力网络相结合的问 题细粒度分类算法(sEAN),以解决问题文本数据 稀疏、不同子类别问题文本特征差异不明显的 问题。
本文所提出的sEAN方法整体框架如图1所 示,包括语义单元选择与扩展、词编码器、词注意力 以及问题分类。针对原始的问题文本,本文采用依 存句法分析选择语义单元。由于在词向量空间中, 语义接近的单词之间的距离也越接近,在此基础上, 扩展问题文本的语义单元。利用扩展后的问题文本 进行词编码,然后对编码后的结果进行词注意力。 图1中第3层的方块表示词注意力的结果,在此基 础上,得到每个问题文本的向量表示即第4层连续 的方块链,将其送入softmax分类器¨纠进行分类,得 到分类结果。
本文通过依存句法分析树提取出语义单元,即问 题的核心语义信息,然后对其在向量空间模型中进行 扩展,从而有效地解决问题文本本身较为短小、包含 信息量少的问题。利用LsTM模型进行词编码和词 注意力充分考虑到每个单词对问题文本语义的贡献 度,找出不同文本之问的差异特征,获得问题文本的 向量表示,解决不同类别之间整体特征较为相似、差 异特征难以提取的问题。最后利用softmax分类器将 类别与提取出的问题文本特征向量之间进行映射,训 练出模型的权重参数用于对测试集文本进行分类。
由于问题文本往往长度过短,包含的信息量极 其有限,如果直接对其进行分类效果很差。因此,利 用依存句法分析首先得到语义单元,对语义单元采 用word2Vec模型计算出与其相近的若干单词或短 语对其进行扩充,最终提升细粒度分类的准确率。 语义单元选择是后续工作的基础,选择的准确 与否将直接影响语义扩展的效果,进而影响最终的 细粒度分类结果。所谓的语义单元,是指由几个单 词构成,能够表达一个整体意思的短语。本文采用 依存句法分析进行语义单元的选择。
依存句法分析…。是由法国语言学家L.Tesniere 最先提出。他将句子分析成一棵依存句法树,描述 出各个词语之间的依存关系,即指出了词语之间在 句法上的搭配关系,这种搭配关系是和语义相关 联的。
一般认为名词短语和动词短语最能反映出一个 句子的语义信息,因此,本文通过对依存句法树的遍 历,找出其中所有的名词短语节点和动词短语节点 作为整个句子的语义单元。如图1中的“reaction” “swollen eyes…‘raw itchy”均能很好地反映问题文本 的语义信息。
本文选择使用对Go091eNews数据集¨酬训练得 到的300维word2Vec模型,利用训练好的模型进行 语义单元的扩展,具体方法如下所示。
本文的实验数据集来自Yahoo!Answers的网页 内容。本文爬取了Yahoo!Answers网站上医疗领域 的144 784篇问题文本以及教育领域的107 438篇问 题文本,其中医疗领域的文本分别属于“Allergies” “Altemative Medicine…‘Cancer…‘Dental…‘Diabetes” “Diet&Fitness”“First Aid…‘Hean Diseases”等21个类 别,教育领域的问题文本分别属于“Hi曲er Education” “Home sch001ing”“Homework Help”等14个类别,针 对每个类别,首先将其顺序打乱,然后按照4:1的比 例切分训练集和测试集,具体数据如表l、表2所示。
本文采用word2Vec模型得到问题文本中每个 词的向量表示,分类器选用sVM和softmax。设计 相关对比实验论证本文方法的有效性,具体如下:
实验1使用进行预处理之后的问题文本在 word2Vec中的向量表示作为sVM分类器的输入, 最终训练得到分类模型。
实验2利用依存句法分析树得到语义单元, 通过训练好的向量空间模型对语义单元进行扩 展,将扩展之后的问题文本在word2Vec中的向 量表示作为输入,利用sVM分类器进行问题文本 分类。
实验3使用预处理以及注意力机制处理后的 文本向量作为输入,利用Softmax分类器进行问题 文本分类。
实验4(sEAN) 基于依存句法分析树得到的 语义单元,利用训练好的向量空问模型扩展语义单 元,继而对扩展后的问题文本进行注意力机制的处 理,利用softmax分类器进行问题文本分类。
表3、表4分别显示了在训练集和测试集比例为 4:1的情况下,4种不同的方法在Yahoo!Answers 医疗和教育领域内的实验结果。
从表3、表4的对比实验各项评估值可以看出, 实验l在各项指标上的结果普遍较差,这也比较符 合实验的预期。实验2中加入了语义单元扩展部 分,因此在实验1的结果上有了较大的提升。本文 所提方法SEAN在语义单元扩展之后加入了注意 力机制,在M口crD尸、M口crD尺等评估指标上均取得 了最优值,这充分说明了本文的方法的可行性和有 效性。
在医疗领域数据集下,实验1中First Aid、Othe卜 Diseases、0the卜General Health、0the卜Health 4个类另0 的准确率分别为1.6%、9.5%、1.8%、7.6%,在实验4 中的准确率均有了明显提升,分别达到了69.7%、69.3%、62.5%、75.1%,如图2所示。同样,在教育领 域数据集下,实验1中Higher Education、Homework Help、Other—Education、Primary&Secondary 4个类另0的 准确率分别为28.3%、23%、3.1%、0.3%,在实验4中 的准确率均有了明显提升,分别达到了62.5%、 61.3%、58.8%、60.7%,如图3所示。因此,再次验证 了本文方法是有效可行的。
然而sEAN方法在各项评估指标上的值仍然存 在较大提升空间,整个实验的结果与实验初期的设 想还是存在较大的差距。本文对整个实验过程进行 详细分析后总结出了如下2个原因:1)无论是医疗 领域还是教育领域的实验数据集都有50%左右的单 词在word2Vec中不存在,对这些单词经过分析发 现大多为拼写错误的单词,这对模型的训练会产生 较大影响;2)实验中的大量参数均选择经验值,暂时 还无法动态调整。
在各项评估指标中,Acc“m掣值可以较为充分地衡量出分类结果的优劣。因此,本文采用柱状图 的形式,如图4和图5所示,给出了同一领域的数据 集下不同的子类别的Acc“阳哕值,结合该结果,本文 将在3.5节中选择几个典型的误分类例子进行重点 分析。
语义单元扩展单词数足:在实验2利用训练好 的向量空间模型对语义单元进行扩展时,本文将语 义单元扩展单词数七设置为2~50,实验的宏平均 精确率、宏平均召回率、宏平均M以crD,1值以及全 局准确率随语义单元扩展单词数变化情况如图6、 图7所示。随着语义单元扩展单词数的不断增加, 宏平均精确率、宏平均召回率、宏平均M口crDFl值 以及全局准确率不断提升。对于医疗领域实验数 据集,当语义单元扩展单词数达到35时,各项评估 指标值均取到最大值,继续增大扩展单词数,各项 指标值均下降,因此取语义单元扩展单词数足= 35。对于教育领域实验数据集,当语义单元扩展单词数达到50时,各项指标值均不再发生变化,因此 取语义单元扩展单词数七=50。
问题l所示的问题文本应该属于医疗领域中的 “A1lergies”细分类,然而却被误分为“Skin conditions”细分类。在这句话中通过依存句法分析 得到的语义单元是“Dark spots”,既可以认为它是由 “A11ergies”引起的,也可以认为它是属于“skin conditions”,存在一定的二义性,并且由于句子文本 过于简洁,本文无法从中获得更多的有效信息,因 此,目前的算法还很难处理这种二义性的情况。
问题2所示的问题正确分类是“First Aid”,被误 分为“0ther Health”。主要原因是该文本本身属于 与医疗领域无关的噪声文本,针对这种问题,目前的 算法还无法自动过滤掉与领域无关的样本数据。
问题3所示的问题正确分类是“0ther Diseases”,被误分为“0ther Health”。此句应该被扩 展的语义单元是“samanila”,而实际扩展的是 “samanila”和“kids”,“kids”属于一个常用词,在针 对医疗领域的细粒度分类中所起到的贡献很小,如 果再对其进行语义扩展,反而会起到相反的作用。 通过对此例的分析,发现本文所提出的基于依存句 法分析的语义单元选择方法的局限性,该算法仍然 有一定的改进空间。
SEAN方法主要有以下2个方面的优势:
1)采用依存句法分析树的方法充分抽取出问题 文本中的语义单元,利用训练好的word2Vec模 型¨4 o计算出向量空间中语义单元附近的单词对原 文本进行扩展,丰富了问题文本的特征。
2)将注意力机制引入到问题文本的向量表示 中,避免了每个单词对句子向量表示贡献度平均的 情况,为句子语义贡献度大的单词赋予较大的权重, 贡献度较小的单词赋予较小的权重,充分提取出问 题文本之间的差异的特征。
为了验证本文方法的有效性和可用性,选择 Yah00 1 Answers上医疗和教育领域的真实数据进 行实验。实验结果表明,与现有的问题分类方法比 较,本文提出的SEAN方法取得了较高的分类准 确率。
4 结束语
本文针对问题文本细粒度分类中整体特征较为 相似而局部差异区域难以提取的问题,提出一种基 于语义扩展与注意力网络相结合的方法。通过依存句法分析树提取语义单元,将其作为语义扩展的依 据。利用word2Vec模型扩展语义单元,并进行词 编码和词注意力机制的处理,找出对问题文本贡献 度最大的单词赋予较大的权重,得到问题文本的向 量表示。将问题文本向量输人Softmax分类器对扩 展后的文本进行分类。实验结果表明,本文方法在 各项评估指标上相对于传统的方法均有一定提高。

相关文章:词间关系的不确定图模型与关键词自动抽取方法