论文查重  | 论文文献库  | 基于中文分词技术的文本相似度检测研究

基于中文分词技术的文本相似度检测研究

来源：论文查重时间：2019-08-05 10:30:11

[摘要]针对本科生的毕业选题做相似性论文查重检查困难且有较多遗漏等问题，采用自然语言处理和集合运算的方法来计算选题相似度，在阈值29%的情况下得到平均相似度为38%的结果。该方法同样适用于不同专业选题查重工作中，具有较好的实际应用价值。
目前，本科生毕业选题存在的重题现象一般是用人工的方式来做相似性检查，凭记忆和文档的查找来区分重题。既没有涉及字面上的相似问题，又缺乏对选题相似性工作的比较部分。蒋勇青等从分析了现有文献相似检测系统应用的有效性[1]；刘锐等采用 Lucene框架技术对学位论文全文极性检索[2]；张海腾等用两个文本向量的余弦值来计算相似度，实现了对电子作业的查重工作[3]；张振国等使用 PLSA（Probabilistic Latent Semantic Analysis，概率潜在语义分析）方法从语义角度来分析毕业论文题目的相似性[4]；黄莉等使用最大公共序列算法来处理毕业论文题目相似性[5]。本文采用自然语言处理的中文分词技术[6]，最后通过选题互相比较得出相似度。
1 研究方法
中文分词算法主要有基于词典的算法、基于统计的算法和结合前两者的算法[7]。先对所有的毕业选题利用 jieba 分词技术进行分词处理，大致过程是通过 jieba分词技术，利用自定义的相似度比较函数，实现相似度检测的结果。Jieba分词是最常用的方法，该技术包含3种分词模式，对于未登录词采用了HMM模型，使用了Viterbi算法，可以自定义添加词和词典，适合毕业设计选题的分词工作[8]。
具体工作流程如下：
(a) 读取数据
导入Excel毕业设计选题文件，读取数据。
(b) 导入用户词典
有些词汇专业程度很高，在分词之前需要将专业词汇进行整理，作为用户词典。
(c) jieba分词
在使用jieba分词之前先用jieba.load_userdict方法来导入用户词典。选择使用精确模式进行jieba分词。
(d) 去停用词
停用词是一些没有意义的词，出现的频率比较高，如果不去除会影响下一步工作的准确度。故分词后，需要将两类词删除，为了直观地看到去除停用词的效果，图 2是使用词云的技术来对比去除停用词前后的效果，可以看到图（b）中的关键词比图（a）更具专业性、更突出。
2 实验及结果分析
2.1数据集
本课题采用的数据集包括两个部分，第一部分数据是430条计算机类专业的本科生的申报选题，从本科毕业论文管理系统中导出，其选题包含软件APP开发、管理系统开发、硬件设计、网络设计等各种方向。每一个选题作为 Excel文件的一行，包含课题、申报人、申报时间、指导老师、审核是否通过等字段。第二部分数据是从知网上通过篇名搜索方式，分别用“网站 and研究”和“网站 and应用 and研究” 各搜索并下载 100 篇文献名作为对比实验的数据集，分别命名为“知网数据1”和“知网数据2”。
2.2实验及分析
对“知网数据 1”和“知网数据 2”用本课题的算法计算出其平均相似度分别是 34.8%、35.1%（如表 1所示），从而验证本课题的算法是有效的。
根据相似性检测工作的一般规定，相似度阈值设为 29%。为了比较清楚地显示实验结果，图 3使用 100 个选题来查重，横坐标为选题编号，纵坐标是相似度百分比，将超过 29%相似度的选题用散点图标记。可以看到相似度最高的是点（45，25），它表示编号 45 和编号 25 的两个选题相似度接近 70%，点（83，17）相似度为60%。
针对部分毕业设计选题与若干其它选题重复的情况，列出两个实例加以说明，如图 3所示。图 3 (a)表明选题“基于 JAVA WEB 的英语单词学习网站”和另外 3个选题的相似情况，其中与“基于 Java Web的学习资源共享网站”相似度最高。图 3(b)表明与选题“基于 Android的水果销售 APP”相似度最高的是选题“基于Android的鲜花销售APP”。
本数据集中的 430条毕业设计选题，相似度超过 29%的选题平均有 38%，与知网的 2个实验对比如图 4所示，本数据集与知网数据获得的相似度是可比拟的，高处的部分有多种原因造成，例如，每个毕业选题中关键词比较少，其平均个数只有3.93个等。
3 结语
本课题采用自然语言处理技术来对本科生毕业设计选题做查重工作，基于 jieba分词技术，在以知网数据库作为基准数据集来确保该算法的有效性的情况下，对 430条计算机类专业的本科生的毕业选题进行查重，在阈值 29%的情况下，获得了平均相似度为38%的实验结果。该方法同样适用于其它专业的选题查重工作中，具有一定的实用价值。

相关文章：基于用户关系和文本的微博用户相似性度量

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507