论文查重  | 论文文献库  | 基于语义结构的科技论文抄袭检测

基于语义结构的科技论文抄袭检测

来源：论文查重时间：2019-08-08 12:06:30

摘要当前科技论文抄袭比较严重，但针对科技论文抄袭的论文查重自动检测的研究还不够。科技论文的抄袭检测是重复的表示形式之一，可按照改动的程度分为全文抄袭、章节抄袭、段落抄袭、句子抄袭、同义词替换抄袭、思想抄袭等几种表现形式。本文针对剽窃全部或全部原文，并加以删改或段落移动的情况，首先采用基于 bootstrapping 算法扩展科技论文的主题词，根据主题词的交集划分重复检测候选组；然后提出基于滑动窗口的加权相似度算法，并通过相似曲线图较为直观的表现计算结果，取得了较好的研究效果。
１引言
学术期刊中抄袭剽窃的现象在世界上也是一个比较突出的问题，学术界对此虽然早有认识，政府有关部门也给予了一定的关注，但抄袭剽窃的案例还是层出不穷，屡禁不止。这说明中国目前还没有一个完善的机制来制止这种不良行为的发生。学术论文的质量是学术期刊的生命。为了提高中国学术期刊的质量，为了中国的学术期刊全面与国际接轨，并跻身于国际一流学术期刊行列，需要更多举措及时跟进，才能有效解决问题。抄袭之风盛行究其原因是发现困难，人的阅读能力毕竟有限，能够阅读所有的相关文章实属不易，更何况需要在阅读的基础上加以记忆。很多时候靠人力不能有效的发现抄袭。科技论文的抄袭检测是重复的表示形式之一，但比文本重复检测更为复杂。科技论文可按照改动的程度分为全文抄袭、章节抄袭、段落抄袭、句子抄袭、同义词替换抄袭、思想抄袭等几种表现形式。本文针对的问题是剽窃部分原文或全部原文，并加以删改或段落移动的情况，鉴于语义信息的有限性和目前自然语言处理的发展情况，不能处理思想抄袭等语义更为复杂的情况。
科技论文的抄袭的特点是部分内容重复，局部性明显，并且有较强的语义信息。本文针对科技论文抄袭的自动检测所做的工作如下：首先采用基于 bootstrapping 算法扩展科技论文的主题词，根据主题词的交集划分重复检测候选组；然后提出基于滑动窗口的加权相似度算法，并通过相似曲线图较为直观的表现计算结果，取得了较好的研究效果。
２文本重复检测概述
自然语言文本复制检测技术始于２０世纪９０年代［１］，其中 SCAM 算法［２］借鉴了信息检索技术中的向量空间模型，使用基于词频统计的方法来度量文本相似性。而 DSC 算法［３］首先将一篇文档分成由 n 个字组成的字符串，一篇文章就可以由 N 个字符串来表示，再按照一定的过滤规则将过滤出的字符串作为该篇文档的代表，参加比较的就是这些被选出来的字符串。 I-Match 算法也是对 DSC 算法的一种改进，将集合中所有的文档分成字符串后，计算每个字符串的出现次数，和出现该字符串的文档的个数，根据每个字符串的 idf 值判断取舍，再将每个保留下来的字符串计算出一个 md５值，比较这些整型的值就可以判断２篇文档是否相似。北大天网重复检测算法［４］其实使用的是分类聚类常用的 tf-idf 的算法，即基于网页文本内容，以６７６３个汉字作为向量的基，将各个汉字在网页正文中出现的个数填入向量中，以该向量为这个网页的一个特征，通过计算网页向量与聚类中心向量的夹角余弦值，来判断两向量的大小关系，进而判断这个网页是否应该归为该类。
文本去重算法问题分析集中在参与比较的文本块长度、文本特征选择的方式以及系统性能三个方面。比较两篇文档是否相似时，检测的基本单位称为文本块。选择文本块的大小是根据待检测文本集合的特征决定的，块长度越小，匹配错误的机会越大。很可能把两篇不相关的文档判定为剽窃。另一方面，块长度越大，丢失重复文档的机会就越大。这样就会把很多复制文档漏过去。关于当前的文本特征选择方式，主体上可分为两类。一类采用基于字符串比较的方法，也称基于语法的方法，这类方法都要求从文档中选取一些字符串，这些字符串被称为 “指纹” 。然后把指纹映射到 Hash 表中，一个指纹对应一个数字。最后统计 Hash 表中相同的指纹数目或者比率，作为文本相似度依据。另一类文本复制检测采用基于词频统计的方法，这类方法也称基于语义的方法。这类方法首先都要统计每篇文档中各个单词的出现次数，然后根据单词频度构成文档特征向量，最后采用点积、余弦或者类似方式度量两篇文档的特征向量，以此作为文档相似度的依据。系统的性能随着特征选择的复杂度上升，选择越小的文本块对特征选择方式的算法复杂度要求越高。
３科技论文检测的思想和流程
科技论文抄袭检测思想
重复检测传统的算法分为两类，基于向量空间模型和基于指纹或特征码的。基于向量空间模型的算法需两两比较，计算复杂度较高。基于指纹或特征码的，对文本重复要求过为严格，用于科技论文的抄袭检测召回不足。
科技论文的重复检测需要保持计算复杂度和检测效果之间的平衡。为降低时间复杂度，本文对科技论文所处的重复候选组进行粗分。科技论文在摘要后提供的关键词，是最能代表该论文的部分和较为容易应用的语义信息。本文用基于 bootstrapping 的算法对关键词进行扩展，然后对扩展后的主题词求交集，如果交集大于一定的阈值则认为论文处于相同的重复候选组。
科技论文重复检测选取特征时需要选择合适的粒度，过大的文本块对召回率有损失，所以本文选择词作为特征单位。又因科技论文的语义结构比较分明，通常是引言在前，分为实验思想，结果分析，结论几个部分，本文基于科技论文的语义构成基本有序的特征，提出基于滑动窗口的按章计算加权相似度的检测算法。
3畅2 科技论文抄袭检测流程
本文将科技论文抄袭检测分为两个主要部分，首先是提取论文主题词，并根据主题词对论文重复候选组进行粗分。再计算处于同一重复候选组的论文相似度，流程如图１所示。
具体步骤描述如下：
（１）提取文章的关键词，将论文按章节进行划分。（２）对论文正文分词。（３）将提出的关键词作为种子词，利用 bootstrapping 的方法扩展候选词集合，作为论文的主题词集合。（４）如果两篇论文主题词交集数大于一定的阈值，则属于同一个重复候选集合。（５）处于同一候选集合的文章里，计算按章节划分的相似度和基于滑动窗口的加权相似度。（６）由判定条件判定文章是否最终相似。
４基于主题词的论文分类
科技论文提供的关键词是文章最好的主题词，但因关键词有限，且内容相同的文章使用不同关键词的可能性也较大，本文基于 bootstrapping 的方法对主题词集合进行扩展。该方法通过主题词划分重复候选检测集合，比一般意义的分类更加精细，可扩展性强，达到了降低时间复杂度的目的。基于 bootstrapping 的方法是一种无监督的学习方法，通过种子词和未标注语料获得更多的关键词。从少量的种子集出发，自动学习更多的文本作为新的种子样本。
具体方法如下：
（１）提取论文的关键词作为种子词集合，将所有语料分词后构成候选集。（２）利用评价函数分别计算每个候选词的分值，选择分值较高的词。（３）将选择的新词和种子词集合并作为新的种子词集，重复步骤（２），按分值排序选择出一定数量的扩展词。
６实验流程
实际中抄袭的论文较难获取，本文采用人工制作语料集合的方式力图模拟实际情况。采集清华同方数据库中不同门类的期刊１０００篇并存储成文本形式，拿出其中的５０篇通过下面两种手段进行改造，一是利用搜索引擎查询该文章的相似文章，并进行融合；一是人工进行词语替换，打乱原有的文章结构等变化，其基本思想不做改变。语料的具体分类如下：
其中完全抄袭即两篇文章完全相同，不再赘述。章节内变动泛指章节的意义相同，但中间有删句或加句，或对原文加以修改，但主要词汇关系未发生变化，人工可以看出有明显的抄袭痕迹。本文以词为单位进行相似度计算来解决文章进行删改的问题。章节内变动还可能有内部的段落变动，本文计算篇章相似度而不是段落相似度就避免了这个问题，章节内的变动基本不会影响判定结果。抄袭的章节顺序也会有变动，本文采取滑动窗口来解决章节顺序变动的问题。部分抄袭的问题采用最大相似度来解决。经他人帮助随意修改的文章，主要是来验证作者未想到的抄袭形式的部分。
评价方式采用经典的准确率和召回率。准确率是指所有自动识别的网页中扣除识别错误的网页后，与人工识别相吻合的网页所占的比率，数学公式表示如下：
对上面所述１０５０篇文章进行科技论文的重复检测，按照主题词交集大于５的阈值划分出２１８个待检测的重复候选组。２１８个重复候选组的大小为１～８篇文章不等，即在这个集合中，判断一篇文章是否有重复，最多需要判断７次。如果实际待检测的集合增大，在不影响重复召回的情况下，可以通过调节主题词的阈值来调节重复候选组的大小。本文所用判定抄袭的条件有２个，一是文章的加权相似度 sim（A ，B），一是单个章节的相似度 x 。表２是在判定条件不同时科技论文抄袭检测的识别情况：
从表中可以看出，科技论文抄袭检测的召回率随着文章整体加权相似度限制的降低而提高，为保证召回，特别是在后期有人工介入的情况下，加权相似度的阈值应尽量降低，取０畅４较为合适。单个章节相似度 x ＞０畅９５的限制主要针对某个部分剽窃较为严重的情况。
对表中第三组实验结果进一步分析得出，没有召回的三组文章原因有两个：分别是因为主题词交集达不到阈值和对文章篇章改动过大。被误判的两组文章的原因是文章较短，文章结构和叙述比较相似，导致部分章节相似度较高。
以上４张图均为重复候选组内两篇文章的各个章节获得相似度曲线，曲线右边是章节对应关系，即 A ，B 论文取得了最大相似度的章节对应关系。
下面分别叙述每张图表示的意义。图３-１是两篇文章完全一致的情况，论文 A 和论文 B 均６个章节，且无论章节相似度或加权相似度都为１。图３-２中的两篇文章的章节相似度均在０畅８左右，论文 AJ。2 和论文 B 均５个章节，每章对应的内容相似度得分都较高，其加权相似度为０畅８２，是最终被判定为抄袭情况的一个代表。图３-３中的两篇文章中章节相差较大，是典型的部分抄袭情况。从图中可以看出论文 A 有３个章节，论文 B 有６个章节，论文 A 的三个章节与论文 B 中间三个章节获得了较高的相似度，A 与 B 的加权相似度为０畅８６，B 与 A 的加权相似度为０畅３６，按算法取其中较大者，最终被判定为抄袭。图３-４中的两篇文章中章节的相似度均为０畅２左右，论文 A 和论文 B 的章节数也不相同，总体上说差异还是很大的。
综上，抄袭文章与非抄袭文章的章节相似度比较直观，一定程度上可以通过该曲线反映文章抄袭的具体部分。一般抄袭和非抄袭的相似度计算出来相差很大，非抄袭的部分相似度非常小。抄袭的判别虽然有很多主观因素，但因抄袭与非抄袭的界限很大，所以存在误判的可能比较低。
总结
本文提出滑动窗口的加权相似度的计算思想，是将自然语言理解中对重复的研究加上科技论文的语义特点应用于抄袭检测领域。也可扩展至其他领域，但需根据领域特点进行修善。基于主题词的科技论文粗分重复候选组可以有效地降低检测的时间复杂度，按章节划分计算加权相似度的方法来检测科技论文的抄袭在上述情况下是可行的。本文所提出的科技论文抄袭检测方法可以扩展到其他抄袭检测领域，并根据实际需要选择适当的主题词自扩展函数和加权相似度计算单位。如果抄袭者采用和原文不同的描述方式，本文所论述的方法变现不佳。为完善科技论文的检测，在细化已有算法的基础上，还需进一步加强对语义信息的利用，发挥领域词汇本体的作用。

相关文章：关于本科毕业论文(设计)抄袭现象的思考与对策

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507