论文查重 | 论文文献库 | 论文摘要学术规范自动检测模型研究初探

论文摘要学术规范自动检测模型研究初探

来源:论文查重 时间:2019-09-25 13:30:22

〔摘 要〕 论文摘要的学术规范是衡量学术水平的一个重要方面。目前对论文摘要学术规 范的评价研究一般是定性的专家主观性评价,需耗费大量的时间和人力成本,需深入开展对其定 量化智能化评价研究。文章借助于机器学习技术,通过对样本数据进行训练,初步构建了一个以 论文摘要为研究对象的学术规范自动化检测模型,从而可以实现对学术规范的批量智能化检测, 也证明了机器学习技术可用于学术规范的智能化检测的可行性。这对提高科研人员的学术规范 水平和降低论文学术规范评价成本有重要意义。
〔关键词〕 神经网络;学术规范;论文摘要论文查重;机器学习;卷积
引言
改革开放以来,随着经济社会的高速发展,在科研学 术方面我国也取得了令世人瞩目的巨大成就。但与之而来 的学术失范、不端现象也是越来越猖獗,论文学术不规范 的问题即是其中一个重要表现形式,该问题在高校研究生 群体中表现尤为突出。由于研究生群体初涉科研工作,每 一篇学术论文的发表都需要经过大量的学术规范方面的评 审。目前对论文学术规范方面的评审主要是定性的主观性 评价,这需要耗费大量的时间和人力成本。如何对论文的 学术规范水平做一个高效的科学合理的客观评价,达到提 升评审效率,降低评审成本的预期效果。这已经成为当下 亟待解决的一个课题。
近几年关于学术规范和评价研究,国内外的研究成果 较为丰富。刘大可从研究生学术规范意识培养的角度进行 了研究,界定了学术规范的内涵与作用,并分析了造成学 术失范的主要原因,在此基础上,从发挥师生关系作用的 角度,提出高等院校及导师对研究生学术规范意识培养的 管理机制 [1]。王刚教授对社会科学学术研究规范做了详细分析,他认为一个科学、全面的社会科学学术研究规范应 该包括以下三个方面:哲学上的思辨、科学上的实证、人文 上的关怀。哲学上的思辨为社会科学研究提供研究的源泉 和动力,科学上的实证为其提供研究的论证工具,而人文 上的关怀则为社会科学研究提供价值规范 [2]。叶继元教授 对学术规范进行了科学定义,并提出了基本研究规范、研 究程序规范、研究方法规范、论著写作规范、引文规范、署 名及著作方式规范、学术批评和评价规范等内容体系。早 在 10 多年前就出版了《学术规范通论》一书。一个学术作 品是否规范,可以利用叶教授近些年提出的“全评价”理论 框架来评价。所谓 “全评价”理论框架,他认为,简单地说 就是,“六个要素”(六位一体)和“三大维度”。“六个要 素”是指评价主体、评价客体、评价目的、评价标准及指标、 评价方法和评价制度,其中评价主体是核心,评价目的是 龙头,制约着其他要素。“三大维度”是指任一评价客体都 可以从三个维度去考察:形式评价、内容评价和价值、效用 评价。形式评价主要是根据评价对象的表象来评价,往往 可以定量评价,相对直观、简单。内容评价主要深入评价 对象的内核,往往依靠同行专家来评价,费时费力。效用评价是指对评价对象的实际贡献、社会和经济效益、应用 结果、人们思想变化等的评价,它依赖于一段时间或较长 时间的评价,是“进行时”或“未完成时”,可以用数字,也 可以用文字来表述 [3]。
具体针对论文摘要的学术规范,全国文献工作标准化 技术委员会于 1986 年发布了 GB6447—86 文摘编写规则 [4], 其中规定文摘是以提供文献内容梗概为目的 , 不加评论和 补充解释 , 简明、确切地记述文献重要内容的短文;文摘包 含四大要素,分别为目的、方法、结果、结论。基于这一国家 标准,很多学者对摘要的规范做了相应的研究。比较有代 表性的有:高建群针对中文学术论文摘要的写作规范 [5],其 将摘要分为研究报告型,综述型,论证型,发现、发明型,计 算型五大类,并分别探讨了相应摘要的写作格式,最终概括 了摘要的写作总要求“忠实于原文、简洁明了、章法规范”; 金丹通过分析《工程索引》(EI)对英文摘要的要求 [6],从写 作要求、时态、人称和语态、常用词汇等方面,总结了英文摘 要写作的规范。她认为英文摘要的结构可以概括为 IMARD (Introduction、Material and Methods、Result and Discussion), 包括引言、材料与方法、结果和讨论部分。而利用数据挖掘 技术对摘要学术规范做自动化监测的相关研究目前尚少。 论文摘要也可以通过计算机自动生成,目前主要有两 种方式:一类是以 TextRank 算法为代表的抽取关键词句的 方式 [7] ;另一类则是借助于深度神经网络让计算机自动“造 句”,最终生成摘要。由于后者在技术上还有一些关键性 的难点有待突破,现在应用比较广泛的是第一种方式。但 由于抽取式摘要生成主要是基于词频,并没有过多的语义 信息,造成很多相关联的词汇都会被独立对待,以至于无 法建立文本段落中完整的语义信息,生成的摘要可阅读性 较差。因此借助于计算机自动生成符合学术规范的摘要信 息目前还不成熟。
综上可以看出,目前学界关于学术规范及其评价研究 的理论已经很充实,相关的模型框架也比较完备。但是在 定量化的评价研究方面还有待深入。文章根据“全评价” 理论框架,主要就其中的形式评价维度,尝试利用机器学 习技术,结合卷积神经网络,以摘要的文本内容为研究对 象(涉及到内容评价的一部分),初步构建了一个自动化智 能检测模型,相较于传统论文评审方式,不但可以节省大 量人力物力,结果亦更具准确性和客观性。
1 相关工作
卷积神经网络(Convolution Neural Network,CNN)自 20 世纪 60 年代由 Hubel 和 Wiesel 首次提出以后 [8],由于当时缺乏训练数据和硬件设备性能不足的原因,一直没有引起 足够的重视。2010 年以后,像 ImageNet 这样的大规模标记 数据的出现和 GPU 计算性能的快速提升,使得关于 CNN 的研究重新得到井喷式的发展。
CNN 的应用早期主要在手写字符分类、图像分类领域, 比较有代表性的 CNN 结构模型有 Krizhevsky 2012 年提出 的 AlexNet[9],该模型在 ImageNet 图像分类竞赛中以绝对优 势夺冠。随后不断有新的 CNN 模型提出,比如牛津大学的 VGG(Visual Geometry Group)、Google 的 GoogleNet、微软 的 ResNet 等,这些研究都使得 CNN 的性能在图像识别和 分类的应用中不断得到提升。
近几年,CNN 的应用正逐步向更深层次的人工智能发 展,自然语言处理就是其中一个重要领域。较有代表性的, 2014 年 Yoon Kim 提出了一个经典的用于文本分类的单层 CNN 模型 [10]。
该结构使用长度不同的过滤器对词向量进行卷积,过 滤器的宽度等于词向量的长度,然后使用 Max-polling 池化 层对每一个过滤器提取的向量进行操作,最后模型的预测 都是基于这些拼接起来的过滤器。较经典的多层 CNN 模 型 为 Nal Kalchbrenner 2014 提 出 的 Dynamic Convolutional Neural Network[11]。相较于前者,该模型更加复杂,多加入 了一层用来实现“情感聚类”。
CNN 作为一种特殊的神经网络,在自然语言处理过程 中,它的局部关联特性能够对输入文本进行大量的特征提 取,从而可以对输入对象进行精确的模拟;另外由于在卷积 层中权重参数都是共享的,这就大大降低了模型的计算复 杂度,与 N-Gram 相比,运行速度更快。总体而言,CNN 在自然语言处理中的性能表现是不错的。文章就是同时基于 Yoon Kim 的单层 CNN 结构和传统经典的 CNN 模型结构,试 图将两者结合起来,对论文摘要建立学术规范评价模型。
2 以摘要为对象的学术规范评价模型的 构建
根据国家有关论文摘要的撰写规范,摘要通常应具有 研究目的、研究方法、研究结果和结论的陈述。摘要撰写是 否规范,专家通过阅读文本即能判断。如果要大规模的检测 摘要撰写的规范程度,利用专家来阅读和判断的话,那很费 时费力。如果能通过机器自动检测,则可以大大节省专家 阅读和判断的时间和精力,且在某个方面可提高检测精度。 为了对论文摘要数据进行数据挖掘,首先要建立数据 集。文章以中国知网(CNKI)为数据源,选定图书情报为 检索学科,检索出了有结构化数据的摘要信息 2 500 余条 (均为符合规范的完整摘要文本),经过导出和数据预处理 操作,得到 9 767 条数据(同时包含规范和非规范的人造 摘要文本),利用这些数据建立相应的训练数据集(Train set,7 867 条)、校验数据集(Validate set,1 500 条)、测试 数据集(Test set,400 条)和词汇表(Vocabulary set)。
2.1 源数据预处理
以中国知网为检索源,选取《图书情报工作》和《情报 科学》期刊为文献来源,将检索出来的摘要中有“目的 / 意 义”“方法 / 过程”“结果 / 结论”标识的论文下载下来,经 过剔除一些会议通知等无关内容之后,将论文的摘要单独 提取出来,共计 2 500 余条数据信息。
经过以下数据预处理操作:
将每一条摘要中的“目的 / 意义”“方法 / 过程”“结 果 / 结论”分别提取出来,分别用 A、B、C 标识。 构造训练数据集、校验数据集、测试数据集和词汇表。 其中数据集的结构主要包含三个部分:id、cotent 和 label, 其中 id 为每条数据的唯一标识,content 为文本内容,label 验证结果(1 为符合学术规范,2 为缺少目的意义,3 为 缺少方法过程,4 为缺少结果结论)。label 的判定规则如 下:如果 content 中同时包含 A、B、C,则 label 为 1;如果 content 中没有包含 A,则 label 为 2;如果 content 中没有包含 B,则 label 为 3;如果 content 中没有包含 C,则 label 为 4。(这 里主要以期刊发表为准则,即基于以下事实:如果论文在期 刊中发表,则默认该论文的摘要部分符合学术规范;对于个 别有明显错误的摘要内容,辅之于人工标注) 将每一条摘要中的 A、B、C 分别排列组合,构造相应 的训练数据(共计 7 867 条)。对训练数据进行数据清洗操 作,包括清除无效数据、对空数据进行补全等。通过编写 相应 Python 程序,构造好的数据集如下图所示:
2.2 模型的构建
首先采用传统的 CNN 模型(以下简写为模型 1),完整 结构如下图所示,包含输入层、3 个卷积层、1 个池化层、 1 个全连接层和输出层:其中模型的输入为词向量(Word embedding),输出为每一段文本对应的标签(即 1、2、3、4, 各自代表相应的含义)。由于模型的参数对结果的准确性 影响很大,利用网格搜索经过反复调参,对模型作如下参 数初始化:
模型词向量(Word embedding)维度设定为 64,卷积核 个数为 8,卷积核大小为 64,全连接层中神经元个数为 64, 初始权重矩阵随机选取符合正态分布的数值。池化层中采 用 Max Polling 方式,输出层中激活函数采用修正线性单元(Rectified linear unit,ReLu)激活并采用 SoftMax 进行分类。 准确率校验过程采用交叉熵测度(Cross Entropy),权重优 化过程采用自适应矩估计优化器(Adam Optimizer)。另外, 由于模型的数据量较小,为避免模型训练过程中发生过拟 合,将 Dropout 比例设定为 0.7,迭代次数为 10。
类似的,利用 Kim Y 的单层 CNN 结构(见图 2),对该 模型(以下简写为模型 2)参数做如下初始化操作: 模型词向量(Word embedding)维度设定为 520,卷积 核大小有三类,分别为 3、4、5,每一类卷积核的个数均为 128,初始权重矩阵随机选取符合正态分布的数值;池化层 中采用 Max Polling 方式,输出层中激活函数采用修正线性 单元(Rectified linear unit,ReLu)激活并采用 SoftMax 进行 分类;准确率校验过程采用交叉熵测度(Cross Entropy),权 重优化过程采用自适应矩估计优化器(Adam Optimizer); Dropout 比例为 0.5,迭代次数为 200;L2 规范化参数为 0。
根据模型 1 和模型 2 的输出结果可以判断一段文本是 否完整包含摘要结构的四要素,如果不包含的话,亦可指 出文本具体缺少哪一个要素。
2.3 模型的评估和预测
利用 TensorFlow 和 Sklearn 框架,通过编写 Python 程 序可以将上述两个模型很方便的实现出来。运行程序发现, 模型 1 在测试集上的精确度为 80.13%,模型 2 精确度为 82.57%,基本达到了预期目标(大于 80%)。
结合 TensorFlow 提供的 TensorBoard 分析工具,可以 看到模型图(Graph)结构分别如下所示:
可以看到模型 1、2 的查准率(Precision)和召回率 (Recall)这两个指标均达到 80% 以上,由于两者是互斥的 关系,80% 的结果基本符合预期。
综合利用上面两个预测模型,对模型 1、2 的输出结果 求平均值,以该值作为我们最终模型的最终结果。观察最 终模型的评价指标如下
可以看到最终模型的各项指标都要高于单个模型(模 型 1、2)。其中精确达到 83.20%,查准率和召回率分别为 84% 和 83%。
3 总结和进一步优化
文章基于数据挖掘技术初步构建了一个以论文摘要为 研究对象的学术规范检测模型,准确率总体达到了 83%+, 虽然还没有符合产品级的高精度(95%+)要求,但其证明 通过利用机器学习的相关技术实现论文学术规范的智能化 检测是可行的。概括起来,该模型相较于传统学术规范评审方式有以下几方面优势: 评审效率高,节省大量人力成本。上述模型除了在训 练阶段耗费较长时间(模型1为11分钟,模型2为28分钟), 在应用阶段对 400 条样本的预测仅耗时 5 秒,效率得到大 幅度提升;并且模型只需初始训练一次即可,后续阶段无 需再次训练。
结果更具有客观性和统一性。传统的人工评审方式主 观性较大,可能会出现错误, 甚至不同的专家之间也可能 得出不同的结论。而利用机器学习的技术手段评审,就可 以避免主观性的误判,提高评审的准确率。 有利于论文的学术规范标准化。由于论文是由计算机 评审,省去人工评审繁琐的工作,从而可以把精力主要放 在论文内容的学术规范的评定上。标准作为模型训练阶段 的一个基石,标准统一了,评审结果也就更具有一致性。 为了进一步提高模型的准确率,对上述 CNN 模型的进 一步优化,后续工作可以考虑从以下几方面展开:
数据集数量规模较小。模型训练数据集总量共计 7300 余条,这对于构建一个高精度的神经网络而言,是远远不 够的,一般来说,数据集的量级最好在万以上。CNN 模型 结构过于简单。模型 1 目前仅包含三个卷积层和一个池化 层,可以考虑引入多个卷积层和多个池化层以提高精度, 比如采用 LeNet 模型等。词向量的构建目前采用的 Id 标识 (即每个字唯一对应于词汇表中的相应 Id),这样不能从语 义上对词义相近的字进行区分,优化过程中可以考虑采用 Word2vec 或 Tf-Idf 的方法。模型的初始权重矩阵目前为随 机矩阵,可以考虑采用 Xavier 初始化方法 [12],防止梯度消 减和梯度爆炸,从而提高模型的稳定性。

相关文章:采矿工程专业本科生毕业论文模式探索与实践