论文查重 | 论文文献库 | 山东省部分高校论文学术不端检测分析及学术不端检测系统使用体会

近年来,学术界屡屡爆出学术造假、论文抄袭 等学术不端事件,本科毕业论文和研究生论文造假 新闻也时常见诸媒体报道。 2015 年,英国大型医疗科学学术文献出版商 BioMed Central 因同行评审涉 嫌造假撤销 43 篇论文,其中 41 篇的作者来自中国 大陆[1]。 2017 年 4 月,世界最大学术出版商之一的 施普林格(Springer)宣布撤回发表在 2012-2016 年 《肿瘤生物学》(Tumor Biology)上的 107 篇论文。 这 107 篇论文全部与中国研究机构有关,涉及 524 位 作者,撤回原因是“同行评议造假” [2]。为了反学 术不端,国内各大数据库都推出了学术不端论文查重检测系统 。 山 东 中 医 药 大 学 引 进 中 国 知 识 资 源 总 库 (CNKI ) 科技期刊学术不端文献论文查重检测系统(AMLC)和万方论文查重检测系统,依照山东 省教育厅有关职称论文学术检测相关要求,对省内 部分高校提交的职称评审论文进行检测。现就检测 结果进行统计分析,从一个侧面了解本省当前学术 论文学术不端情况,为制定相关措施提供参考。
1 资料与方法
1.1 数据来源
从 2011 年开始,山东中医药大学图书馆承担了 山东省教育厅高校职称论文的学术检索工作,检测 论文来自省内医学院校和非医学院校的生物医学类 论文。因 2011 年山东省教育厅对学术检索设置的指 标(密切相关文献数量、相关文献数量和内容重合 率)与 2012 年之后有显著不同,故 2011 年的职称 论文未纳入此次统计范围。
根据山东省教育厅有关职称论文学术检测要 求,对提交论文进行如下检测:⑴中文论文原文依 次通过 CNKI、万方数据知识服务平台和维普期刊 资源整合服务平台检索下载。⑵中文论文检测首选 AMLC, CNKI 收录不全的期刊使用万方论文相似性 检测系统(CNKI 未收录 2007 年之后中华医学会系 列杂志)。⑶外文论文使用 AMLC 检测(外文论文 由作者单位审核后提交电子版原文,在 AMLC 中检 测;检测机构不能下载外文原文)。⑷进行学术不 端检测的截止日期统一为论文的收稿时间,没有注 明收稿时间的论文则使用发刊时间。
1.2 纳入标准
省内医学院校和非医学院校共 15 所高校提交的 生物医学类论文。
1.3 排除标准
⑴刊载论文的刊物未收录于数据库中,无法核 实原文,刊物存疑。⑵所提交的论文不是期刊论文 或会议论文,是以图书形式发行的论文集论文,山 东省教育厅组织专家讨论认为此类论文水平不能等 同于公开发表的期刊论文,不予以检测。⑶数据库 已收录了刊载论文的刊物,但因数据库时差未收录 刊载的当期;或因数据库回溯不全未收录刊载当期 或收载当期的目录不全;或查到的期目录未包含作 者提交的论文,论文存疑。
1.4 统计方法
2012 年,采用“去除本人学位论文会议论文文 献复制比”指标,对作者学位论文、会议论文的重合部分予以排除后,计算总复制比,未设“单篇最 大文字复制比”指标。 2013 年开始,增加“单篇最 大 文 字 复 制 比 ” 指 标 。 复 制 比 以 20% 、 30% 、 50%、 90%为分界点划分不同区间,统计每个区间内 文献篇数及所占百分比。将各年份数据输入 Excel 2007 进行统计分析。
2 结果
2012-2015 年共计有 9565 篇论文纳入统计范 围,其中中文论文 7437 篇,外文论文 2128 篇(均 为英文)。
2.1 复制比
2.1.1 去除本人学位论文会议论文文献复制比 统 计表明,历年“去除本人学位论文会议论文文献复 制比”(简称“总复制比”)合格率(<30%)在 90%以上(见表 1)。每年均有>5.00%的论文总复 制比高于 30%,有≥1.52%的论文总复制比高于 50%,共有 16 篇论文总复制比≥90%。
2.1.2 单篇最大文字复制比 2013-2015 年“单 篇最大文字复制比”(简称“单篇复制比”)合格 率(<20%)均在 94%以上(见表 2)。
2.2 复制比超标情况
2013-2015 年总复制比≥30%的论文分别有 128 篇(占 5.41%)、 134 篇(占 5.40%)、 136 篇 (占 9.16%)。 2013-2015 年单篇复制比≥20%的论 文分别有 101 篇(占 4.27%)、 136 篇(占 5.48%)、 88 篇(占 5.93%)(见表 3)。 2013-2015 年均有一 定量论文总复制比<30%但单篇复制比≥20%,提示 抄袭可能性大。而总复制比≥30%、单篇复制比< 20%,说明与多篇文献相似,只是累积复制比超过 30%,还应具体问题具体分析。
2.3 外文论文情况
提交论文语种分析显示,各年份提交的外文论 文比例在 20%左右, 2013-2015 年呈增高趋势(见 表 4)。
3 讨论
3.1 山东省部分高校科研文献学术不端现状
《科技工作者科学道德规范(试行)》对“学术 不端行为”的定义是:在科学研究和学术活动中的 各种造假、抄袭、剽窃和其他违背科学共同体惯例 的行为[3]。 2016 年 9 月 1 日开始施行的《高等学校 预防与处理学术不端行为办法》,将剽窃、抄袭、 侵占他人学术成果,及篡改他人研究成果列在学术 不端行为的首要位置[4]。新修订的《普通高等学校 学生管理规定》自 2017 年 9 月 1 日起施行,其中规 定,对于学位论文、公开发表的研究成果存在抄 袭、篡改、伪造等学术不端行为,情节严重的,或 者代写论文、买卖论文的,学校可以给予开除学籍 处分[5]。国内外普遍成立了第三方独立审查机构, 研制了学术不端检测系统。学术不端检测也称为论 文相似度检测、论文查重,是通过学术不端文献检 测系统对论文的主体进行识别检测的方法,通过系统的运作与计算,以“复制比”或“相似比”的直 观形式呈现检测结果。
本次统计结果表明, 2012-2015 年山东省部分 高校职称论文总复制比合格率均在 90%以上,该数 值与 CNKI 对 92 万多篇文献的检测结果相当[6]。其 中 2012-2014 年均在 94%以上,而 2015 年略低, 可能与试点院校放宽提交标准有关。
单篇最大文字复制比用于反映是否有单独抄袭 某篇论文的可能性,统计显示, 2013-2015 年每年 均有 20 篇以上的论文与其他某篇论文有 50%以上的 相似性,有的甚至达 90%以上。论文总复制比低于 30%但单篇复制比高于 20%,提示抄袭可能性大, 说明设立单篇复制比指标对防止学术不端有积极的 作用。上述结果说明,山东省高校职称论文小部分 文献单篇复制比过高,应加强原创性引导。
外文论文统计显示, 2012 年外文论文比例高于 2013、 2014 年,原因可能为 2012 年只准许提交 3 篇代表性成果,而 2013 年之后可提交多篇论文,检 测后选择其中 3 篇进行评审。外文论文比例 2013- 2015 年有呈增高趋势,一方面说明各院校发表的外 文论文数量在增加,学术成果对外交流增多;另一 方面可能是因为目前外文论文检测结果复制比较 低,促使作者多发或多提交外文论文。
3.2 学术不端文献检测系统存在的问题
目前学术不端文献检测系统不能完全取代人工 对比,仍存在较多检测盲区,现就笔者使用过程中 发现的问题列举如下。
3.2.1 合理引用与抄袭的区分 引用政府文件、领 导人讲话、权威著作、历史材料、法律法规、诊断 疗效标准、操作规程等,被误判为段落抄袭或句子 抄袭,导致文字复制比偏高。生物医学领域的论 文,很多研究方法和临床诊疗方案是相似的,而且 论文的格式基本都是固定的,语句较为简单和通 用,如:采用 SPSS 统计软件分析数据,计量资料 以 X±S 表示,组间比较采用 t 检验;计数资料组 间比较采用 X 2 检验; P <0.05 为差异有统计学意 义。同一方向的研究往往查询的文献相同、采用的 技术和方法一致,就连在术语的应用和语言的表达 上也容易造成重复。同一作者在前期研究的基础上 继续深入,后期文章中前言文字、研究方法、研究 仪器、所用材料、统计学分析等很多文字说明与前 期文章一致,甚至会引用前期文章中的数据。中医 药类论文经常引用经典语句,检测系统尚不能识别这些语句出自经典著作。因此,医学类文章容易出 现文字重复,导致文字复制比偏高[7]。也有的论文 整体文字复制比偏高,但核心内容基本不重复,利 用这些系统检测医学论文的时候可能会出现检测结 果“假阳性”。检测系统遏制了明目张胆的抄袭、剽 窃,但对文化发展产生了负面影响。依据《著作权 法》作者有引用的权利,系统却不能保障[8]。此类 情况应由同行评议的方式进行补充评议。
3.2.2 检测系统收录文献完整性问题 CNKI、万 方、维普数据库与国内众多期刊均有合作,但三家 数据库所收录的期刊并不完全重合。造成各家收录 论文存在差异性,导致学术不端检测的结果出现差 异。如果抄袭了回溯建库之前的文献,则数据库无 法查实。并且 CNKI、万方数据都分别与部分科技 期刊编辑部签订了独家合作协议,意味着该刊的所 有文献只能在各自的数据库中检索到,造成其他数 据库的统计源文献的缺失。此外,目前检测系统对 图书的收录还有很大空缺,如果论文抄袭的是图书 内容,现有系统无法检测出来。
3.2.3 检测技术问题 各检测系统在工作方式、后 台数据库、算法特点(对论文关键语义片断识别检 测、字段识别、近义同义识别)等方面都存在差 异,这些在技术上的不同,会造成不同的检测系统 对同一篇论文检测时,得出不同的结论结果,而且 有时差异较大[9]。有抄袭者针对检测系统的检测原 理研究出“反反抄袭”方法,把论文写作变成了文 字游戏,通过对语句顺序的调整、同义词替换、语 句表达方式的变动而躲避系统的检测。更有甚者将 外文文献翻译成中文后发表,或将自己的中文稿件 翻译成英文再投稿。学术不端检测系统在技术上只 能检测“文字”而不能检测“思想”,从而只能避免 “文字”抄袭而不能防止“思想”抄袭的缺陷[10]。 此时需要通过同行评议的方式进行补充评议。
3.2.4 文字识别误差 对于同一篇论文,使用 Word 版与 PDF 版本进行检测会得到明显的论文重 复率的不同,这主要由两者文字识别率不同引起。 同时在检测报告中有时也会出现乱码,也是由于提 交的 PDF 版本论文或数据库中论文的文字转换差错 所导致。
3.2.5 转页文字处理错误 两篇论文共用一页或同 一篇论文排版标识为下转某一页时,检测结果可能 出现被检测论文与其自身重复或同一文字误作两篇 的错误,直接导致复制比增高,必须人工予以鉴别。
3.2.6 外文论文检测水平需提高和突破 在检测中 发现目前外文论文检测结果复制比较低,这与检测 系统收录外文文献底层数据不足、范围受限有关, 较低的复制比并不能反映出论文的真实质量水平。
3.2.7 检测报告阅读、解释 因检测系统尚未完 善,检测报告中可能存在其他问题,⑴部分外文会 议论文未标引作者,同作者提交的期刊论文重合部 分无法排除;⑵参考文献与其他论文的参考文献重 合,也计入了总重合率(虽然系统中有“去除参考 文献后复制比”指标,但是有的参考文献未被识 别);⑶外文姓名不能自动识别,如 Xiao Yong SUN VS Xiao-Yong Sun;⑷文字识别错误,笔者曾 检测过一篇论文,检测报告显示“去除本人学位论 文会议论文文献复制比”为 43.4%,“单篇最大文 字复制比”为 18.4%。后与原文对比发现检测字数 为 376 字,与原文转换为文本后的 4001 字差别较 大,故考虑为检测系统文字转换有误。咨询相关技 术人员解释为:收录数据加工问题所致系统无法读 取原文。后经该论文以 PDF 格式原文上传检测,其 结果“去除本人学位论文会议论文文献复制比”为 0.9%,“单篇最大文字复制比”为 0.9%。
4 小结
论文抄袭是学术不端的常见形式,学术不端文 献检测系统确实对检测中文论文的内容重复情况具 有重要的实用价值,也对部分学术不端者起到了震 慑作用。本研究对山东省部分高校 4 年间 9000 多篇 职称评审论文检测结果的统计分析,部分地反映了 当前山东省高校学术论文的学术不端真实状况。学 术不端文献检测系统本身还存在一些问题,这就需 要检测人员以高度的责任心对检测报告仔细解读, 审慎出具检测结论。同时也提醒检测报告的使用机 构必须合理使用报告结果,必要时应进行人工的学 术鉴定,而不能只关注检测报告的数据。

相关文章:音乐专业本科毕业论文中存在的问题及对策