论文查重 | 论文文献库 | 文档复制检测技术在学监管中的应用研究

文档复制检测技术在学监管中的应用研究

来源:论文查重 时间:2019-07-26 14:16:19

论文以文档复制论文查重检测技术的发展现状为研究背景,结合其在高校及编辑部 门学术监管中的实际应用找出文档复制检测技术在学术监管中存在的问题及原 因,从而对学术监管进行改进。
论文内容主要分为四大部分,第一部分主要介绍文档复制论文查重检测技术的技术 分类、系统结构及相关应用情况,重点介绍了当前所涉及的几种关键的文档复 制检测技术,主要有数字指纹技术、词频统计技术及其他技术。
第二部分主要从高校及编辑部门两个领域剖析文档复制检测技术在学术监 管中的应用情况,其中涉及到两个关键的应用软件——AMLC软件及TMLC软 件。
第三部分主要分析了文档复制检测技术在学术监管实际应用中存在的问 题,并从两个角度探讨了产生这些问题的原因,从而为下面的措施改进提供思 路。
第四部分主要针对目前文档复制检测技术在学术监管应用中存在的问题和 不足,根据第二部分介绍的文档复制检测技术在学术监管中的两个主要应用领 域,提出相应的改进和完善学术监管措施的方法:1)正确看待文档复制检测技 术在学术监管中的地位和作用,既不能过分依赖,又要充分发挥其作用;2)在 当前的文档复制检测技术的发展基础上,从提高检测效率、建立配套的使用制 度等方面改进中文文档复制检测技术;3)从政策制定、法律完善、学术规范、 道德教育等角度,探讨了与文档复制检测技术相配套的学术监管制度及相关的 体系规范。
关键词:文档复制检测技术 学术监管
除了数据库本身需要考虑之外,当前越来越多的网页的处理也成为一个极 为棘手的问题。由于当前的检测软件主要依赖相对应的系统数据库,而数据库 主要收录了期刊论文等,对本身之外的网络资源覆盖范围较小,导致检测时对 数据库以外的信息资源无能为力。而且当前很多的学术论文和科研成果不仅仅 以期刊论文的形式存在,也会以专业网站、博客等个人空间的形式公开,另外 开放存取这种形式的流行,这些都是检测时对比的数据库无法覆盖到的。更深 层次的一个技术难关是网页不仅每天海量产生,而且存在着很多相似甚至相同 的网页,即使我们解决了网页覆盖率的问题,仍然需要我们对相似及相同的网 页进行去重处理,这样才能保证对学术不端行为进行检测时检测结果更准确, 检测效率更高。
文档复制检测技术除了在学术监管中发挥重要作用之外,在知识产权保护 和搜索引擎优化等领域也有一定的应用价值:
(I)网页去重。随着网络信息资源的数量越来越多,且一定程度上杂乱无 章,导致用户寻找自己所需要的信息资源越来越困难,而用户在进行信息检索 时不仅越来越追求速度,更追求质量,总是希望能在最短的时间内找到自己所 需要的内容。由于目前的搜索引擎本身存在的技术缺陷,返回结果中总是充斥 着许多重复的网页,而很多并不是搜索者想要的,这就需要我们在利用搜索引 擎对结果进行筛选时,需要对重复的文档进行区分过滤,以得到自己真正需要 的资源。我们可以在抓取网页前利用文本复制检测技术把重复的文本提前过滤 掉,达到网页去重的作用,从而提高检索效率和资源的利用程度,节省网络资 源,减轻用户负担。
(2)数字图书馆的版权保护。伴随着国际互联网的发展和普及,数字图书 馆的研究与开发迅速兴起。我们都知道,数字化图书馆存储了大量的网络信息 资源,其中很多又是很重要的、新颖的学术资源,由于对网络信息资源的访问 一般不受地域和时间的限制,用户只要能联上网就能进行访问,而且其中的数 字化文档又很容易进行复制粘贴,进而出现了许多抄袭论文的现象并最后发展 成侵权问题。许多学术机构已经把这个问题提上了日程。文档复制检测系统的 数据库在收到使用者所提交的信息之后,一般需要首先对其进行检测,如果没有出现错误就被允许提交到数据库。这样可以保护大量的数字化信息资源,减 少版权问题的产生。
(3)反垃圾邮件。作为一种进行联系的通讯方式,电子邮件在带给人们方 面的同时,也给人们带来了很大的困扰。邮箱中经常出现海量的垃圾邮件,人 们经常要花大量的时间和精力来判别哪些是有用的信息和哪些是垃圾邮件。因 此,可以利用文本复制检测技术来过滤这些垃圾邮件,从而尽量使人们收到的 都是一些有价值的信息,过滤掉网络上的不良信息内容。
文档复制检测技术应用到学术监管中,主要表现为学术抄袭论文检测系统 的广泛应用。当前,学术抄袭剽窃等学术不端行为在大学生、甚至一些著名的 教授专家中屡见不鲜,由于就业压力的加大及研究生期间科研论文发表数量的 要求,越来越多的学生频繁从互联网上抄袭文章,导致大量的涉嫌抄袭剽窃的 垃圾文章出现,而许多知名学校的教授专家也被屡屡举报、被质疑进行学术抄 袭剽窃。随着学术不端问题日益严重,文档复制检测软件被引入各大高校,以 此来应对本科生及研究生的学术抄袭行为。
当前国内比较有代表性的论文抄袭识别系统有中国知网的TMLC系统、 paperpass论文通行证系统、万方相似性检测系统及维普论文检测系统。这些系 统一般都备有自己的论文检测机制、特定的算法和数据库,可以用于检测高校 学生的毕业论文和研究报告,作用强大,一定程度上防止了学生的论文抄袭现 象的蔓延,起到警示作用,同时还可以帮助指导学生进行论文的自检,并可有 效防止同学之间论文或作业互相抄袭,同时“大学生诚信档案记录”可查到每 个大学生的论文抄袭检测的历史记录情况,以便老师对每名学生的论文作出针 对性指导。
根据网上对各高校的调查显示,目前几乎所有的211及985高校都在用学术 不端检测系统对即将毕业学生的论文进行检测,同时使用中国知网的TMLC系 统的要占大多数,少数学校使用的是万方及武汉大学开发的ROST系统。检测 的对象主要是硕士毕业论文和博士毕业论文,自从清华同方知网自主开发的“大 学生论文抄袭检测系统”试用后,少数的高校也把本科生的毕业论文纳入检测 范围,运用大学生学术不端文献检测系统对本科生的论文进行检测,以全面应 用于高校的日常教学,帮助高校检测学生论文、作业中是否存在抄袭剽窃行为。
从当前论文复制检测系统的应用过程来看,文献复制检测系统操作简单, 使用者只需要向系统提交需要检测的文章,与其数据库中的文献进行比对即可。 使用者可以直观地看到比对结果,既方便又快捷。诸多高校正是以此来审查学 生毕业论文。而从此系统应用的成效来看,此系统为当前高校进行学术监管、 预防和治理学术抄袭提供了技术支撑,为审查人员判断学位论文的性质提供相 关依据和线索。许多高校利用该软件查处了一些学术不端行为案件,一定程度 上对学术虚假、学术恶劣之风起到了威慑作用。同时也让毕业生对学位论文重 视起来,慢慢意识到学术抄袭的严重性,从而越来越注意学术规范。学术论文 不端文献检测系统除了可以对学生的毕业论文进行检测外,还可以对已发表的 论文进行检测、对问题库进行查询及引文核对、两两比对等功能。
文档复制检测系统不仅在各大高校被广泛推广使用,在许多学术期刊杂志 社也得到广泛应用。当前由于期刊编辑或出版社的单位化、行政化、非专业化, 许多刊物的主编、责任编辑不可能对各类专业文章有足够的鉴别能力,再加上 网络的快速发展导致信息不对称、人工判定是否剽窃的成本太高,此软件正好 为他们提供的方便。在使用学术不端行为检测系统之前,编辑们只能通过自己 上网查询、搜索相关文章,看是否有重复发表、抄袭状况。工作既繁琐,也不 能完全杜绝抄袭。对于一些专业性不太强的杂志编辑来说,由于知识面的狭窄, 对一些抄袭的论文更是无能为力。现在大多数学术期刊编辑利用此类检测系统 来初审稿件,可以快速进行检测,节省了防止抄袭的工作时间,提高了审稿的 效率和质量,因此,文档复制检测软件也受到了许多期刊编辑的欢迎。
目前,全国大部分期刊杂志社都引入了期刊学术不端文献检测系统,其中 清华同方知网的《科技期刊学术不端文献检测系统(AMLC)}使用范围最为广 泛。该系统与各高校所用学位论文文献不端检测系统原理相同,实现过程也基 本类似。学术不端文献检测系统在期刊杂志社的广泛应用,给编辑部门及杂志 编辑人员带来了很大的变化。它使编辑部主编的审稿工作得到一定程度上的减 轻,编辑部在收到作者来稿后,先用抄袭检测系统进行初查,看看文章的抄袭度轻重,如果过度引用或涉及的抄袭太多,这样的稿件一般不会进入下一轮审 稿,会直接被返回给原作者。如果作者抄袭情节特别严重的话,那么编辑部可 以把此人加入黑名单,作为此作者投稿的信用不良记录,这样一些有问题的论 文作者再投稿时会相对小心。同时,编辑部通过文献检测系统的应用,可以缓 解一稿多投现象,一定程度上降低了稿源数量,论文之间的重叠度也会相应的 降低。
从目前文献复制检测系统在编辑部门应用的整体情况来看,效果还是相当 显著的。很多期刊编辑都对这类软件的使用持赞同的态度,他们用此软件进行 作者来稿的初审,这样大大减轻了审稿的负担,为人工审稿带来了方便,同时 在一定程度上又能狠狠打击学术抄袭者,使一些重复发表或抄袭他人内容的稿 件被统统查出,从技术上对侵犯知识产权或违反学术道德的不端行为加以取证 并进行处罚。

相关文章:学位论文学术不端文献统计分析