论文查重 | 论文文献库 | 基于中文分词技术的文本相似度检测研究

基于中文分词技术的文本相似度检测研究

来源:论文查重 时间:2019-08-05 10:30:11

[摘要]针对本科生的毕业选题做相似性论文查重检查困难且有较多遗漏等问题,采用自然语言处理和集合运算的方法来计算选题相似度,在阈 值29%的情况下得到平均相似度为38%的结果。该方法同样适用于不同专业选题查重工作中,具有较好的实际应用价值。
目前,本科生毕业选题存在的重题现象一般是 用人工的方式来做相似性检查,凭记忆和文档的查 找来区分重题。既没有涉及字面上的相似问题,又 缺乏对选题相似性工作的比较部分。蒋勇青等从 分析了现有文献相似检测系统应用的有效性[1];刘 锐等采用 Lucene框架技术对学位论文全文极性检 索[2];张海腾等用两个文本向量的余弦值来计算相 似度,实现了对电子作业的查重工作[3];张振国等使 用 PLSA(Probabilistic Latent Semantic Analysis,概 率潜在语义分析)方法从语义角度来分析毕业论文 题目的相似性[4];黄莉等使用最大公共序列算法来 处理毕业论文题目相似性[5]。本文采用自然语言处 理的中文分词技术[6],最后通过选题互相比较得出 相似度。
1 研究方法
中文分词算法主要有基于词典的算法、基于统 计的算法和结合前两者的算法[7]。先对所有的毕业 选题利用 jieba 分词技术进行分词处理,大致过程 是通过 jieba分词技术,利用自定义的相似度比较函 数,实现相似度检测的结果。Jieba分词是最常用的 方法,该技术包含3种分词模式,对于未登录词采用 了HMM模型,使用了Viterbi算法,可以自定义添加 词和词典,适合毕业设计选题的分词工作[8]。
具体工作流程如下:
(a) 读取数据
导入Excel毕业设计选题文件,读取数据。
(b) 导入用户词典
有些词汇专业程度很高,在分词之前需要将专 业词汇进行整理,作为用户词典。
(c) jieba分词
在使用jieba分词之前先用jieba.load_userdict方 法来导入用户词典。选择使用精确模式进行jieba分词。
(d) 去停用词
停用词是一些没有意义的词,出现的频率比较 高,如果不去除会影响下一步工作的准确度。故分 词后,需要将两类词删除,为了直观地看到去除停 用词的效果,图 2是使用词云的技术来对比去除停 用词前后的效果,可以看到图(b)中的关键词比图 (a)更具专业性、更突出。
2 实验及结果分析
2.1数据集
本课题采用的数据集包括两个部分,第一部分数 据是430条计算机类专业的本科生的申报选题,从本 科毕业论文管理系统中导出,其选题包含软件APP开 发、管理系统开发、硬件设计、网络设计等各种方向。 每一个选题作为 Excel文件的一行,包含课题、申报 人、申报时间、指导老师、审核是否通过等字段。 第二部分数据是从知网上通过篇名搜索方式, 分别用“网站 and研究”和“网站 and应用 and研究” 各搜索并下载 100 篇文献名作为对比实验的数据 集,分别命名为“知网数据1”和“知网数据2”。
2.2实验及分析
对“知网数据 1”和“知网数据 2”用本课题的算 法计算出其平均相似度分别是 34.8%、35.1%(如表 1所示),从而验证本课题的算法是有效的。
根据相似性检测工作的一般规定,相似度阈值 设为 29%。为了比较清楚地显示实验结果,图 3使 用 100 个选题来查重,横坐标为选题编号,纵坐标 是相似度百分比,将超过 29%相似度的选题用散点 图标记。可以看到相似度最高的是点(45,25),它 表示编号 45 和编号 25 的两个选题相似度接近 70%,点(83,17)相似度为60%。
针对部分毕业设计选题与若干其它选题重复 的情况,列出两个实例加以说明,如图 3所示。图 3 (a)表明选题“基于 JAVA WEB 的英语单词学习网 站”和另外 3个选题的相似情况,其中与“基于 Java Web的学习资源共享网站”相似度最高。图 3(b)表 明与选题“基于 Android的水果销售 APP”相似度最 高的是选题“基于Android的鲜花销售APP”。
本数据集中的 430条毕业设计选题,相似度超 过 29%的选题平均有 38%,与知网的 2个实验对比 如图 4所示,本数据集与知网数据获得的相似度是可 比拟的,高处的部分有多种原因造成,例如,每个毕业 选题中关键词比较少,其平均个数只有3.93个等。
3 结语
本课题采用自然语言处理技术来对本科生毕 业设计选题做查重工作,基于 jieba分词技术,在以 知网数据库作为基准数据集来确保该算法的有效 性的情况下,对 430条计算机类专业的本科生的毕 业选题进行查重,在阈值 29%的情况下,获得了平 均相似度为38%的实验结果。该方法同样适用于其 它专业的选题查重工作中,具有一定的实用价值。

相关文章:基于用户关系和文本的微博用户相似性度量