论文查重 | 论文文献库 | 低重复率稿件中的学术不端行为检测与防范

低重复率稿件中的学术不端行为检测与防范

来源:论文查重 时间:2019-07-29 16:01:20

学术不端行为在论文发表中普遍存在, 由于具有 较强的隐蔽性,防范和查处这些学术不端论文具有一 定的难度[1] 。反学术不端行为是编辑人员审稿过程 中的一项重要内容[2] 。在实际工作中, 学术不端文献 检测系统功能强大,通过对稿件进行论文查重,提供相 关参考文献进行对比分析, 帮助编辑对稿件做出正确 判断,极大地提高了编辑工作效率,有效地打击了学术 不端行为; 然而,学术不端文献论文查重检测系统也存在一些漏 洞,检测结果只能作为参考[3] , 我们需要客观、合理地 对待检测结果。通过学术不端文献检测系统论文查重后, 显示与其他已经发表的论文的重复部分少的稿件, 即为低重复率稿件。部分低重复率稿件也有可能存在学 术不端行为,应该引起高度重视。
本文就编辑在查重过程中遇到的一些重复率低却 存在抄袭嫌疑的稿件进行原因分析,并提出相应建议, 以便于编辑人员更好地把关。
1 稿件查重结果
作者投稿后,对属于期刊刊载范围内的稿件,编辑 会先进行文字重复率检测。检测结果分为以下 2 种。 一种是重复率高的稿件。一般认为文字重复率高 于 30% 的稿件存在抄袭嫌疑, 通常会直接退稿; 但是, 有些稿件还是要编辑根据具体情况做出客观、合理的 判断。如稿件系来自研究生论文( 尚未发表过) 中的 部分内容,或是作者毕业后同一课题的系列研究的后 续论文,可以考虑通过查重检测。此外,医学论文中涉 及的诊断标准、疗效标准、方法研究、疾病概念和药物 成分,在表述的过程难免也会有重复,一般可以不认为 是抄袭。
另一种是重复率低的稿件。这类稿件通常会有 2 种情况: 一是稿件的确有创新性, 观点正确, 且语言表 达规范,是具有理论价值或实用意义的好文章; 二是稿 件的文字重复率虽然低,但是却存在学术不端行为。
2 稿件重复率低的原因分析
2. 1 单一的检测系统存在漏洞
有研究者[4] 认为学 术不端检测系统是存在缺陷的, 这主要受制于计算机 开发软件,其开发者的目的主要是甄别出机械的抄袭 和拼凑行为,为各类论文提供简单的检索。一些变相 抄袭的论文较容易被系统误判, 得到较低的重复率。 中国知网( CNKI) 、万方数据是国内最具有影响力的 2 大论文数据库,它们各自都收录了大量的文献。由于 受到独家授权的影响, 数据来源和版权保护方面竞争 激烈,两者的收录覆盖面可能不一样[5] , 也有所侧重, 使得检测结果颇有差异[6] 。大部分论文都被 CNKI 和 万方收录; 但是有的论文只被 CNKI 收录而未被万方 收录,或者相反; 也有可能是某一篇论文都被 CNKI 和 万方收录,但时间有先后: 所以 2 大数据库之间的内容 有重合,又难免各有遗漏。因此,当同一篇稿件在同一 时间、同一地点用 AMLC 和万方论文相似性检测系统 进行检测时,其检测结果可能有所不同,甚至个别的差 异还比较大。例如《血清游离核小体……研究》一文, 用 AMLC 检测后查重率为 6. 1% ,万方检测结果为 66. 7% ; 而另外一篇《FOCUS-PDCA 程序…… 的应用》, AMLC 检测的重复率为 40. 2% ,而万方则为 5. 9% 。 此外,不同文本格式的稿件,其查重结果差异也比 较大,公式、图表和外文重复率问题也未能解决[7] 。
2. 2 新发表论文上传数据库存在时间差
新出版的 论文与其被数据库收录存在时滞。如新收稿件若与新 发表且尚未被数据库收录的论文内容相似, 则在文献 检测时就较难发现问题, 也就有可能检测不出稿件中 的抄袭部分。由于不同刊物间的信息难以实现共享, 也使部分作者钻了空子。如笔者遇到过一篇稿件《二 维斑点……的改变》,2014 年 1 月 2 日初次查重的结 果重复率为 20. 1% ,而在 2014 年 10 月 27 日再次检测 时,其重复率变为 34. 0% 。
2. 3 作者对稿件有意识“修饰”
由于作者的刻意为 之,一些稿件中的内容的确存在学术不端的问题; 但文 献检测系统却很难检测出重合部分, 使得编辑人员在 初审过程中容易被这类稿件所蒙骗。
1) 全文雷同。抄袭者掌握了检测系统的查重原 理,对所抄袭的论文在文字方面进行了一定的处理。 通过对抄袭部分的文字进行“加工”, 如增删文句、拆 分或者合并段落,改变语句或表达方式,把他人的论文 “改装”为自己的“论文”, 从 而 顺 利 逃 过 检 测 系 统 的查重。
笔者收到过一篇稿件《树脂修复…… 的研究》, AMLC 查重结果为 4. 1% , 万方为 0; 但是编辑还是发 现它与论文《后牙病理性磨损树脂修复的临床效果探 讨》雷同。这 2 篇文章在摘要、引言、各级层次标题以 及图标方面几乎一样。如《后牙病理性磨损树脂修复 的临床效果探讨》在引言部分的一句话是“牙齿磨损 是常见的一种非龋性损害 ,已成为影响口腔健康的又 一重要问题。成年人牙齿磨损发生率接近 100. 0% ”, 而《树脂修复……的研究》则将此句改为“作为一种常 见的非龋性损害,牙齿磨损已成为危害口腔健康的一 个重要因素,多见于成年人, 发生率几乎达到 100% ”。 全文其他部分几乎是意思式抄袭。
2) 核心内容相似。剽窃他人的观点, 套用他人的 设计思路来发表论文的情况也屡见不鲜。有些作者出 于同事间的情谊,让他人将自己已被录用的稿件稍作 修改后投稿。这类稿件虽然采用了作者自己的文字表 述,数据上也有所不同, 但全文的宗旨、核心内容和观 点并未改变。笔者在初审一篇稿件时发现, 其题材和 内容与本刊即将发表的另外一篇稿件十分相似, 只是 在例数上有差别。经查实, 这 2 篇稿件的作者属于同 一个单位的同一个科室。
3) 部分结果套用。由于检测系统对一些图表几 乎无法检测[4] ,一些作者将已经发表的论文中的图表 重新包装后投向其他杂志社[8] , 如将图表改成文字叙 述,或者将文字叙述改为图表,这种情况下单用检测系统就很难查出其抄袭部分。作者将同一篇稿件投了多 家杂志或者将几篇内容相似的稿件投给不同的杂志。 更有甚者,还有除第一作者外的其他作者将同一篇稿 件( 尚未发表) 的内容修改后再投稿的情况。如本刊 一名责任编辑将一篇待发排的稿件进行二次查重后, 发现稿件中的第二作者已经在几个月前以第一作者的 名义在其他杂志上发表一篇论文, 该文中有 2 /3 的数 据和图片来自那篇论文。经调查, 该文的第一和第二 作者是夫妻档。
2. 4 网络时代造假手段多样化 2005 年, 美国麻省 理工学院研究人员发现了 SCIgen 这个“神器”软件, 它 能结合字符串产生假文章[9] 。其初衷是为了证明假 论文更容易被会议接受, 却不想扰乱了本就已经混乱 的学术论文市场。不少学术不端的作者钻了空子, 一 些通过计算机合成的假论文不断涌现出来。网络科学 技术的飞速发展以及造假工具的频繁出现, 使得一稿 多投和抄袭剽窃行为变得更加容易和隐蔽。
3 应对策略
3. 1 使用多家数据库进行文字重复率检测
目前国 内单一数据库的期刊收录不全,覆盖率不高,可能较难 百分之百地检测出稿件中的重复部分。一篇稿件的多 种查重结果有利于编辑人员对稿件做出合理的判断。 如今有越来越多的数字出版商开发了新型的数字资源 平台,不仅可以为编辑的学习提供资源空间,而且免费 提供了文献检测。期刊编辑部不妨加盟它们, 这些检 测平台相对于传统数据库( CNKI、万方、维普等) , 可以 实现专题相关文献和学术观点一站式呈现, 有利于加 强对学术不断的防范。此外, 可以根据不同稿件内容 选择合适的数据库进行查重。如中华医学会系列杂志 仅在万方数据库发行,与 CNKI 数据库相比, 万方数据 库中的医学类期刊占有明显的优势[10] , 而在人文科学 方面却稍显不足。例如《温州医科大学学报》, 是一种 综合性医学学术期刊, 接收稿件的内容主要以基础医 学、临床医学以及预防医学为主,少数为教学研究类论 文。大部分医学类的稿件多采用万方数据库来检测, 若遇到人文研究类稿件, 则首选 CNKI 数据库进行检 测。如一篇关于高教类的论文《基于混合……模式实 践》,CNKI 的检测结果为 25. 7% , 而万方的检测结果 为 3. 7% 。
3. 2 从检测报告中发现问题
对部分查重率低的稿 件需要特别注意, 尤其应该谨慎对待其检测报告。我 们可以从这些检测报告中发现端倪。
1) 重视“稿件已经提前检测”。有些检测报告上 会显示“稿件已经提前检测”, 这种情况的出现有以下 可能: 作者“一稿多投”, 其他编辑部已经对此稿件进 行了检测; 作者“改装”他人论文后自行多次检测修改 以便于逃过编辑部的查重。如上文提到的《树脂修复 ……的研究》一文,就因其检测报告中出现了“稿件已 经提前检测”而引起了编辑的怀疑。遇到这类稿件, 我们需浏览相关领域的论文进行查实。
2) 关注参考文献的重复比。稿件查重报告中的 重复比( 红色区域) 大部分出现在参考文献中, 编辑可 搜索这些红色文献的来源, 将其与所检稿件进行仔细 对比,判断所检稿件与所查文献的相似度。笔者初审 稿件《连续性非卧床……的影响分析》时, 发现该文中 的参考文献有 90. 0% 来自《维持性血液透析与腹膜透 析患者血压变异性比较》一文。编辑部将这 2 篇文章 从内容到参考文献都进行认真核对, 最终认为该文没 有创新点而退稿。
3) 观察所引文献的题名。检测报告会将所检稿 件中涉及的文献( 包括已引用或未引用) 一一列出。 若编辑察觉到这些文献中有题名与所检稿件相似的, 可以将其下载后细读。如本刊编辑在查看稿件《复方 丹参注射液对……的影响》时, 无意中看到与其题名 类似的文章《复方丹参注射液对羊水过少胎儿氧化应 激及妊娠结果的影响》。阅读这篇文章后, 发现除了 部分数据不同,所检稿件与该篇文章有相同的层次标 题和图题以及内容相差不大的讨论。
3. 3 建立有效的审稿专家数据库
编辑人员的专业 知识范围十分有限,加之稿件被人为修饰,有部分隐蔽 抄袭内容是检测系统和编辑人员不易察觉的。审稿专 家是遏制学术不端行为的最有效的力量[11] 。由于待 审稿件多、时间和精力耗费大, 或部分稿件不对口, 使 得有些审稿专家缺乏严谨的审稿态度, 对稿件审读草 草了事。而对稿件研究领域熟悉的专家有利于提出合 理、中肯的意见,也可以更好地对稿件进行把关。扩充 专家库来建立有效审稿机制非常必要, 足够的专家资 源既可以减轻部分专家的审稿负担, 更可以确保同行 评议的详细和正确。
笔者认为,可以通过以下方法增加审稿专家人数: 在数据库或高教图书馆中输入主题词, 搜索相关研究 领域的论文,查看里面的通信作者简介; 直接在所检稿 件的参考文献中寻找合适的审稿专家; 在作者投稿时, 建议他们提供“推荐审稿专家”和“回避审稿专家”以 及联系方式。
3. 4 网站教育和警示
汪勤俭等[12] 提出期刊编辑部 应该主动防范学术不端, 加强对作者的宣传教育和监 督。如今大多数期刊编辑部都拥有自己的投稿网站, 可以将本刊的稿约、论文写作规范、出版道德法规等内容放到网站首页的下载中心里, 供作者在投稿前阅读 和学习。为了警示那些有学术不端念头的作者, 编辑 部可以将学术不端的处罚条例( 内容包含警告、撤稿、 列入黑名单、告知作者单位等) 放入公告中。同时, 可 以将一些学术不端行为的案例也放入网站中或者借助 微信平台发给作者,时刻起到警戒的作用。
3. 5 充分利用网络资源
编辑可以在 CNKI、万方和 维普数据库中通过搜索稿件中的关键词, 查看是否有 相似论文出现,再对相似论文的摘要部分进行对比; 也 可以通过高校图书馆数据库中一键搜索或者跨库搜索 同类论文,浏览主要篇目。一般具有抄袭嫌疑的稿件, 尽管在文字方面经过刻意修改[13] , 但是摘要作为文章 的核心部分, 其内容较难改变。如《子宫……临床分 析》这篇稿件,则是通过在数据库中输入“子宫切口妊 娠”等这几个关键词, 搜索到《对 35 例子宫切口妊娠 临床治疗分析》, 这 2 篇文章在内容和设计上十分雷 同。此外,编辑人员也可借助别的检测工具, 如百度、 谷歌、搜狗等搜索引擎进行排查。
3. 6 加快稿件处理进程
大多数期刊编辑部的来稿 量较大,期刊所能发表的版面十分有限,难以满足全部 作者发表论文的需求。一篇稿件从投稿到出版本就需 要一定的周期,编辑部的稿件增多,更是延长了稿件的 出版周期。作者在焦急等待的过程中, 容易将稿件投 向多个杂志以提高录用率。为了减免这种情况的发 生,编辑部可以在自身方面做一些事情。比如编辑可 以在作者投稿后要求他们提供单位盖章、作者( 稿件 中的每一位作者) 亲自签名的相关证明( 投稿介绍信、 版权协议或其他有效协议) 。虽然这样的要求使作者 投稿的流程变得烦琐,但是正是因为程序复杂了,一些 作者也不愿意轻易改投他刊。送专家审稿要及时, 并 在稿件审回后,尽早通知作者进行下一步的工作,尽可 能地缩短稿件的发表时滞。
3. 7 增强编辑的责任意识
由于检测系统的结果与 论文真实相似度会存在一定差异, 且虽然审稿专家是 论文科学价值的主要评审者; 但是一些隐藏的学术不 端行为容易被忽视, 这就需要编辑有足够的耐心去找 出这些问题。在稿件“三审”中, 初审环节是防范学术 不端行为的必要“关口”, 必须增强编辑的责任意识。 稿件经过论文数据库查重后, 建议对有嫌疑的稿件要 进行深入了解,除了采用检测系统进行文字对比,还可 以对低重复率的稿件通过各种检索手段进行进一步的 排查。这些流程大大增加了编辑的工作量, 也是对编 辑的责任心的一种考验。同时, 责任编辑应该对相关 的研究现状和学术动态十分熟悉, 注意专业知识的学 习,树立终身学习的观念, 重视审稿经验的积累, 从而 及时发现学术不端行为, 使有真正学术价值的论文得 到发表。
4 结束语
学术不端文献检测在编辑初审工作中作为一种辅 助工具,有效的杜绝论文抄袭现象,是编辑人员不可缺 少的“好帮手”。但是,编辑人员不可过度的依赖文献 检测的查重结果,认清低查重率的稿件也可能存在抄 袭嫌疑。坚守编辑的职责,注意增加自我的知识积累, 浏览相关学科的学术文章, 结合自身的学识和工作经 验,利用现有的学术资源和网络技术手段,提高鉴别稿 件能力,严格把关,尽可能的挖掘和制止隐藏的学术论 文中的不端行为。

相关文章:学术不端文献的发表追溯及防范对策——基于185篇疑似学术不端文献的实证分析