基于语义的毕业论文题目相似性分析
来源:论文查重 时间:2019-08-11 15:13:09
摘要:在统计计算机学科专业7年毕业论文题目的基础上,从语义的角度对毕业论文题目的相似性进行了分 析,为论文题目的论文查重及归类提供依据.首先,对毕业论文题目进行分词以得到特征词汇,进而计算特征词的 权重构成论文题目的向量表示;其次,使用PI.SA方法对得到的题目向量进行语义提取;最后,对语义向量进 行相似度比较得出论文题目的相似性.实验结果表明,与传统的VSM方法相比,从语义角度对论文题目进行 相似性比较更加合理、有效. 毕业论文是考察学生综合运用所学专业基础 知识、独立分析、解决实际问题的一个重要手段, 论文题目是学生在大学期间知识与能力的综合体 现,因此论文题目的设定十分重要.对毕业论文题 目的相似性进行检测,一方面有助于属于同一研 究领域的学生相互合作,另一方面对题目的重复 率检测具有提示作用,为题目审核专家提供判别 依据. 对论文题目的分析属于文本处理的范畴,传统的处理方法是以字或词为单位构建特征向量来 表示文本,通过对特征向量的运算实现文本信息 的分类、聚类或者搜索.一般来说,文本包含的字 或者词相对较多,能够使用统计词频、TF—IDF等 经典方法来衡量每一个特征的权重,进而构成文 本的特征向量.近年来,短文本(短消息、微博、 BBS话题等)成为文本处理的研究热点之一,如 文献[1]针对Twitter等信息提出了短文本的不 完全聚类思想用于提高短文本信息的聚类性能;文献[2]对微博短文本进行了研究,提出了检测新 闻话题的方法;文献[3—4]分别对短文本的分类问 题进行了研究.从方法角度上,短文本的研究大致 可以分为两类:一类是基于规则的方法,如采用正 则表达式作为生成规则的依据对短文本进行处 理[5],利用关联规则对概念短语进行特征扩充[6 3 等;另一类是基于语义的方法,如借助文本语义特 征图进行文本分类_j,基于领域知识本体的研究 方法‘83等. 毕业论文题目与其他类型的短文本相比,题 目中包含的短语非常有限,一个论文题目中往往 只有几个不重复的词组成,并且同一个词在不同 文本中出现的次数远远小于长文本文件,这就使 得使用传统方法在构造论文题目的特征向量时得 到的数据具有非常大的稀疏性,导致论文题目之 间的相似性难以准确判断.解决这种数据的稀疏 性问题,一种方法是利用搜索引擎来扩充短文本 的上下文以填充数据凹],另一种方法是通过模型 给短文本建模,充分利用短文本集合中文本的内 在联系来建立文本表示[1….同时,由于不同词对 题目的意义有差异,因此,在构成论文题目的文本 表示时需要考虑这种差异性,尽可能平衡每个词 的重要性权重. 在自然语言处理领域,文档由不同的词构成, 词与词之间往往存在着某种联系,不同词的组合 能够表达特定的主题意义,因此可以将一篇文档 看作多个主题的某种组合.从这个角度上,把文档 的构成形式描述为先确定主题含义,然后在特定 主题下选择合适的词,文档的各个主题即为语义. 从语义出发,可以一定程度上将同义词归为同一 语义表示,多义词在语义上区分.潜在语义分析 (1atent semantic analysis,LSA)是经典的语义提 取方法¨1I,它利用奇异值分解技术将高维的向量 空间模型(VSM)表示中的文档映射到低维的潜 在语义空间中,使表面上不相关的词在语义空间 中显示出深层关系.潜在概率语义分析(probabi— listic latent semantic analysis,PLSA)从概率的 角度解释文档的构成,与LSA相比能够为信息的 提取提供更好的语义表示Ll…. 由于似然函数L的表达式中存在对数内部的 加法运算,所以L没有封闭解,但可以通过期望最 大化(EM)算法得到其似然解.期望最大化算法 可经过两个步骤交替进行计算:第一步是计算期 望(E—Step),利用对隐含变量的现有估计值,计算 其后验概率;第二步是最大化期望(M—Step),即 通过最大化第一步中求得的后验概率来计算 参数. 论文题目只有在提取出词之后才能使用PL— SA进行语义计算,因此需要将论文题目进行分 词,得到其由词构成的向量.分词的结果对于最后 的语义表示有至关重要的影响,因此,本文选用中 国科学院计算技术研究所研发的ICTCLAS系统 作为分词工具.但由于论文题目中的部分用词具 有领域专业性,所以使用分词工具之后需要对得 到的结果进一步调整,去掉对题目含义无意义的虚词,规整部分专业术语,然后将得到的词添加到 词汇集中,最终得到论文题目的向量表示. 本文实验数据来自毕业论文题目,共计540 个,研究领域包括软件设计、网页制作、动画视频、 智能算法、网络安全、嵌入式系统、手机开发等.由 于涉及专业知识,题目中相同的用词相对较多,本 文提取特征词共计794个.将整个数据分为两部 分,随机选择90%的题目用于训练PI。SA模型参 数,剩余的10%用于测试语义相似度.为了衡量 本文语义相似性的性能,采用文本处理中常用的 查全率、查准率及F1值作为度量标准. 对属于同一研究领域的论文题目分别提取语 义,计算查全率、查准率及F1值,取其平均值作 为这一类题目的性能指标.由于每一个毕业论文 题目在严格意义上不会完全相同,因此,将判定标 准定义为检索出同一研究领域的题目.将本文方 法与经典的文本相似度比较方法——VSM模型 相比较来验证本文方法的性能,实验结果如表1 所示. 从表中数据可以看出。无论是查全率还是查 准率,本文的语义相似性度量方法在总体上效果 与VSM模型相比有所提高,但在个别数据上(如 Web开发类)低于VSM模型.分析这一类的数据 构成,发现造成这一结果的原因是训练集中关于 Web开发的论文题目数量相对较少,且主要的特征词重复性高,导致语义的表示不完整,而VSM 方法主要使用词匹配的策略,因此有相对较好的 效果. 表1中的结果是在不同的相似度阈值的情况 下获得的,计算的标准是两种方法获得的检索数相近,这是一种广义上的检索率比较.从具体的相 似度值来看,从语义的角度比较相似性更能体现 出题目的相似性.图3为某一论文题目在检索过 程中两种方法的相似度值变化曲线. 从图中可以直观地看到,如果对两种方法设 定相同的阈值,本文的语义相似度方法在检索数 目上具有明显的优势.同VSM方法一样,本文方 法在阈值很小时得到的检索结果中有很多与测试 题目不相关,但随着阈值的增大,结果的相似性明 显提高.在部分测试题目中,两个同一类很相似的 题目即使只有一两个词相同,也能得到很高的相 似度,而VSM方法无法实现这一点. 本文基于PLSA模型对毕业论文题目进行 了语义相似性比较,与传统的基于相同词的比较 方法相比,从语义角度的相似性度量具有更好的 性能和更高的相似度值.同时,语义的提取使得原 本相似但使用不同词的题目具有更高的相似性, 这不仅对于毕业论文题目的分析与分类有重要的 作用,而且对其他类似的短文本处理也具有很好 的借鉴意义.然而,语义的提取需要数据的支持, 而且数据之间的联系也是语义的一个重要因素, 对于数量相对较少且特征词重复性高的毕业论文题目,难以提取出合适的语义信息.解决这一问 题,一种方法是准备足够多且分布合理的训练数 据,使数据具有统计意义;另一种方法是先通过大 量数据建立语义数据库,在进行毕业论文题目的 语义提取时,从训练数据和语义数据库两方面来 构建题目的语义. 相关文章:避免科技论文重复发表和一稿多投的机制与实践