论文查重 | 论文文献库 | 基于语义结构的科技论文抄袭检测

基于语义结构的科技论文抄袭检测

来源:论文查重 时间:2019-08-08 12:06:30

摘要 当前科技论文抄袭比较严重 ,但针对科技论文抄袭的论文查重自动检测的研究还不够 。 科技论文的抄袭检测是 重复的表示形式之一 ,可按照改动的程度分为全文抄袭 、章节抄袭 、段落抄袭 、句子抄袭 、同义词替换抄袭 、思想抄 袭等几种表现形式 。 本文针对剽窃全部或全部原文 ,并加以删改或段落移动的情况 ,首先采用基于 bootstrapping 算 法扩展科技论文的主题词 ,根据主题词的交集划分重复检测候选组 ;然后提出基于滑动窗口的加权相似度算法 ,并 通过相似曲线图较为直观的表现计算结果 ,取得了较好的研究效果 。
1 引 言
学术期刊中抄袭剽窃的现象在世界上也是一个 比较突出的问题 ,学术界对此虽然早有认识 ,政府有 关部门也给予了一定的关注 ,但抄袭剽窃的案例还 是层出不穷 ,屡禁不止 。 这说明中国目前还没有一 个完善的机制来制止这种不良行为的发生 。 学术论 文的质量是学术期刊的生命 。 为了提高中国学术期 刊的质量 ,为了中国的学术期刊全面与国际接轨 ,并 跻身于国际一流学术期刊行列 ,需要更多举措及时 跟进 ,才能有效解决问题 。 抄袭之风盛行究其原因 是发现困难 ,人的阅读能力毕竟有限 ,能够阅读所有 的相关文章实属不易 ,更何况需要在阅读的基础上 加以记忆 。 很多时候靠人力不能有效的发现抄袭 。 科技论文的抄袭检测是重复的表示形式之一 ,但比文本重复检测更为复杂 。 科技论文可按照改动 的程度分为全文抄袭 、章节抄袭 、段落抄袭 、句子抄 袭 、同义词替换抄袭 、思想抄袭等几种表现形式 。 本 文针对的问题是剽窃部分原文或全部原文 ,并加以 删改或段落移动的情况 ,鉴于语义信息的有限性和 目前自然语言处理的发展情况 ,不能处理思想抄袭 等语义更为复杂的情况 。
科技论文的抄袭的特点是部分内容重复 ,局部 性明显 ,并且有较强的语义信息 。 本文针对科技论 文抄袭的自动检测所做的工作如下 :首先采用基于 bootstrapping 算法扩展科技论文的主题词 ,根据主题 词的交集划分重复检测候选组 ;然后提出基于滑动 窗口的加权相似度算法 ,并通过相似曲线图较为直 观的表现计算结果 ,取得了较好的研究效果 。
2 文本重复检测概述
自然语言文本复制检测技术始于 20 世纪 90 年 代[1] ,其中 SCAM 算法[2] 借鉴了信息检索技术中的 向量空间模型 ,使用基于词频统计的方法来度量文 本相似性 。 而 DSC 算法[3]首先将一篇文档分成由 n 个字组成的字符串 ,一篇文章就可以由 N 个字符串 来表示 ,再按照一定的过滤规则将过滤出的字符串 作为该篇文档的代表 ,参加比较的就是这些被选出 来的字符串 。 I-Match 算法也是对 DSC 算法的一种 改进 ,将集合中所有的文档分成字符串后 ,计算每个 字符串的出现次数 ,和出现该字符串的文档的个数 , 根据每个字符串的 idf 值判断取舍 ,再将每个保留下 来的字符串计算出一个 md5 值 ,比较这些整型的值 就可以判断 2 篇文档是否相似 。 北大天网重复检测 算法[4]其实使用的是分类聚类常用的 tf-idf 的算法 , 即基于网页文本内容 ,以 6763 个汉字作为向量的 基 ,将各个汉字在网页正文中出现的个数填入向量 中 ,以该向量为这个网页的一个特征 ,通过计算网页 向量与聚类中心向量的夹角余弦值 ,来判断两向量 的大小关系 ,进而判断这个网页是否应该归为该类 。
文本去重算法问题分析集中在参与比较的文本 块长度 、文本特征选择的方式以及系统性能三个方 面 。 比较两篇文档是否相似时 ,检测的基本单位称 为文本块 。 选择文本块的大小是根据待检测文本集 合的特征决定的 ,块长度越小 ,匹配错误的机会越 大 。 很可能把两篇不相关的文档判定为剽窃 。 另一 方面 ,块长度越大 ,丢失重复文档的机会就越大 。 这 样就会把很多复制文档漏过去 。 关于当前的文本特征选择方式 ,主体上可分为两类 。 一类采用基于字 符串比较的方法 ,也称基于语法的方法 ,这类方法都 要求从文档中选取一些字符串 ,这些字符串被称为 “指纹” 。 然后把指纹映射到 Hash 表中 ,一个指纹对 应一个数字 。 最后统计 Hash 表中相同的指纹数目 或者比率 ,作为文本相似度依据 。 另一类文本复制 检测采用基于词频统计的方法 ,这类方法也称基于 语义的方法 。 这类方法首先都要统计每篇文档中各 个单词的出现次数 ,然后根据单词频度构成文档特 征向量 ,最后采用点积 、余弦或者类似方式度量两篇 文档的特征向量 ,以此作为文档相似度的依据 。 系 统的性能随着特征选择的复杂度上升 ,选择越小的 文本块对特征选择方式的算法复杂度要求越高 。
3 科技论文检测的思想和流程
科技论文抄袭检测思想
重复检测传统的算法分为两类 ,基于向量空间 模型和基于指纹或特征码的 。 基于向量空间模型的 算法需两两比较 ,计算复杂度较高 。 基于指纹或特 征码的 ,对文本重复要求过为严格 ,用于科技论文的 抄袭检测召回不足 。
科技论文的重复检测需要保持计算复杂度和检 测效果之间的平衡 。 为降低时间复杂度 ,本文对科 技论文所处的重复候选组进行粗分 。 科技论文在摘 要后提供的关键词 ,是最能代表该论文的部分和较 为容易应用的语义信息 。 本文用基于 bootstrapping 的算法对关键词进行扩展 ,然后对扩展后的主题词 求交集 ,如果交集大于一定的阈值则认为论文处于 相同的重复候选组 。
科技论文重复检测选取特征时需要选择合适的 粒度 ,过大的文本块对召回率有损失 ,所以本文选择 词作为特征单位 。 又因科技论文的语义结构比较分 明 ,通常是引言在前 ,分为实验思想 ,结果分析 ,结论 几个部分 ,本文基于科技论文的语义构成基本有序 的特征 ,提出基于滑动窗口的按章计算加权相似度 的检测算法 。
3畅2 科技论文抄袭检测流程
本文将科技论文抄袭检测分为两个主要部分 , 首先是提取论文主题词 ,并根据主题词对论文重复 候选组进行粗分 。 再计算处于同一重复候选组的论 文相似度 ,流程如图 1 所示 。
具体步骤描述如下 :
(1) 提取文章的关键词 ,将论文按章节进行 划分 。 (2) 对论文正文分词 。 (3 ) 将 提 出 的 关 键 词 作 为 种 子 词 ,利 用 bootstrapping 的方法扩展候选词集合 ,作为论文的主 题词集合 。 (4) 如果两篇论文主题词交集数大于一定的阈 值 ,则属于同一个重复候选集合 。 (5) 处于同一候选集合的文章里 ,计算按章节 划分的相似度和基于滑动窗口的加权相似度 。 (6) 由判定条件判定文章是否最终相似 。
4 基于主题词的论文分类
科技论文提供的关键词是文章最好的主题词 , 但因关键词有限 ,且内容相同的文章使用不同关键 词的可能性也较大 ,本文基于 bootstrapping 的方法对 主题词集合进行扩展 。 该方法通过主题词划分重复 候选检测集合 ,比一般意义的分类更加精细 ,可扩展 性强 ,达到了降低时间复杂度的目的 。 基于 bootstrapping 的方法是一种无监督的学习 方法 ,通过种子词和未标注语料获得更多的关键词 。 从少量的种子集出发 ,自动学习更多的文本作为新 的种子样本 。
具体方法如下 :
(1) 提取论文的关键词作为种子词集合 ,将所 有语料分词后构成候选集 。 (2) 利用评价函数分别计算每个候选词的分 值 ,选择分值较高的词 。 (3) 将选择的新词和种子词集合并作为新的种 子词集 ,重复步骤 (2) ,按分值排序选择出一定数量 的 扩展词 。
6 实验流程
实际中抄袭的论文较难获取 ,本文采用人工制 作语料集合的方式力图模拟实际情况 。 采集清华同 方数据库中不同门类的期刊 1000 篇并存储成文本 形式 ,拿出其中的 50 篇通过下面两种手段进行改 造 ,一是利用搜索引擎查询该文章的相似文章 ,并进 行融合 ;一是人工进行词语替换 ,打乱原有的文章结 构等变化 ,其基本思想不做改变 。 语料的具体分类 如下 :
其中完全抄袭即两篇文章完全相同 ,不再赘述 。 章节内变动泛指章节的意义相同 ,但中间有删句或 加句 ,或对原文加以修改 ,但主要词汇关系未发生变 化 ,人工可以看出有明显的抄袭痕迹 。 本文以词为 单位进行相似度计算来解决文章进行删改的问题 。 章节内变动还可能有内部的段落变动 ,本文计算篇 章相似度而不是段落相似度就避免了这个问题 ,章 节内的变动基本不会影响判定结果 。 抄袭的章节顺 序也会有变动 ,本文采取滑动窗口来解决章节顺序 变动的问题 。 部分抄袭的问题采用最大相似度来解 决 。 经他人帮助随意修改的文章 ,主要是来验证作 者未想到的抄袭形式的部分 。
评价方式采用经典的准确率和召回率 。 准确率 是指所有自动识别的网页中扣除识别错误的网页 后 ,与人工识别相吻合的网页所占的比率 ,数学公式 表示如下 :
对上面所述 1050 篇文章进行科技论文的重复 检测 ,按照主题词交集大于 5 的阈值划分出 218 个 待检测的重复候选组 。 218 个重复候选组的大小为 1 ~ 8 篇文章不等 ,即在这个集合中 ,判断一篇文章 是否有重复 ,最多需要判断 7 次 。 如果实际待检测 的集合增大 ,在不影响重复召回的情况下 ,可以通过 调节主题词的阈值来调节重复候选组的大小 。 本文所用判定抄袭的条件有 2 个 ,一是文章的 加权相似度 sim(A ,B) ,一是单个章节的相似度 x 。 表 2 是在判定条件不同时科技论文抄袭检测的识别 情况 :
从表中可以看出 ,科技论文抄袭检测的召回率 随着文章整体加权相似度限制的降低而提高 ,为保 证召回 ,特别是在后期有人工介入的情况下 ,加权相 似度的阈值应尽量降低 ,取 0畅4 较为合适 。 单个章 节相似度 x > 0畅95 的限制主要针对某个部分剽窃较 为严重的情况 。
对表中第三组实验结果进一步分析得出 ,没有 召回的三组文章原因有两个 :分别是因为主题词交 集达不到阈值和对文章篇章改动过大 。 被误判的两 组文章的原因是文章较短 ,文章结构和叙述比较相 似 ,导致部分章节相似度较高 。
以上 4 张图均为重复候选组内两篇文章的各个 章节获得相似度曲线 ,曲线右边是章节对应关系 ,即 A ,B 论文取得了最大相似度的章节对应关系 。
下面分别叙述每张图表示的意义 。 图 3-1 是两 篇文章完全一致的情况 ,论文 A 和论文 B 均 6 个章 节 ,且无论章节相似度或加权相似度都为 1 。 图 3-2 中的两篇文章的章节相似度均在 0畅8 左右 ,论文 AJ。2 和论文 B 均 5 个章节 ,每章对应的内容相似度得分 都较高 ,其加权相似度为 0畅82 ,是最终被判定为抄 袭情况的一个代表 。 图 3-3 中的两篇文章中章节相 差较大 ,是典型的部分抄袭情况 。 从图中可以看出 论文 A 有 3 个章节 ,论文 B 有 6 个章节 ,论文 A 的 三个章节与论文 B 中间三个章节获得了较高的相 似度 ,A 与 B 的加权相似度为 0畅86 ,B 与 A 的加权 相似度为 0畅36 ,按算法取其中较大者 ,最终被判定 为抄袭 。 图 3-4 中的两篇文章中章节的相似度均为 0畅2 左右 ,论文 A 和论文 B 的章节数也不相同 ,总体 上说差异还是很大的 。
综上 ,抄袭文章与非抄袭文章的章节相似度比 较直观 ,一定程度上可以通过该曲线反映文章抄袭 的具体部分 。 一般抄袭和非抄袭的相似度计算出来 相差很大 ,非抄袭的部分相似度非常小 。 抄袭的判 别虽然有很多主观因素 ,但因抄袭与非抄袭的界限 很大 ,所以存在误判的可能比较低 。
总结
本文提出滑动窗口的加权相似度的计算思想 , 是将自然语言理解中对重复的研究加上科技论文的 语义特点应用于抄袭检测领域 。 也可扩展至其他领 域 ,但需根据领域特点进行修善 。 基于主题词的科技论文粗分重复候选组可以有 效地降低检测的时间复杂度 ,按章节划分计算加权 相似度的方法来检测科技论文的抄袭在上述情况下 是可行的 。 本文所提出的科技论文抄袭检测方法可 以扩展到其他抄袭检测领域 ,并根据实际需要选择 适当的主题词自扩展函数和加权相似度计算单位 。 如果抄袭者采用和原文不同的描述方式 ,本文所论 述的方法变现不佳 。 为完善科技论文的检测 ,在细 化已有算法的基础上 ,还需进一步加强对语义信息 的利用 ,发挥领域词汇本体的作用 。

相关文章:关于本科毕业论文(设计)抄袭现象的思考与对策