论文查重 | 论文文献库 | 期刊论文标题与关键词表达信息的差异性分析

期刊论文标题与关键词表达信息的差异性分析

来源:论文查重 时间:2019-08-18 10:41:27

摘 要: [目的 / 意义] 论文标题中往往包含部分或全部关键词, 标题与关键词之间存在差异便于读者将二 者结合, 更全面地了解论文查重文献内容。 [方法 / 过程] 本文首先提出了论文标题与关键词差异度的概念, 然后对 CSSCI 中近 20 年的图情类期刊论文分别从差异度的年度分布、 不同期刊论文差异度比较、 标题长度和关键词数量对差 异度的影响几个方面进行研究。 [结果 / 结论] 结果表明, 标题与关键词差异度有随着年份变小的趋势; 有 4 种 期刊差异度相对偏大, 说明这几个期刊的标题与关键词能反映更多的内容信息; 标题长度在 15 ~ 30 之间和关键 词数在 4~ 5 个时, 差异度相对较大。
标题是学术文献的一个非常重要的组成部分, 它是对文章主题内容的最精练的表述, 表达了作者 在论文中阐述的主要问题, 能吸引读者对文献的注意力, 并使读者对文献内容有一个大概的了解, 由 此做出对该文献的取舍判断[1] 。 关键词是用于表 达论文的主题内容, 是那些出现在论文题名、 摘要、 正文中的对表达论文主题具有实质意义的、 重 要的、 关键性的词语。 GB / T 7713 - 1987 《科学技 术报告、 学位论文和学术论文的编写格式》 规定: “每篇报告、 论文选取 3 ~ 8 个词作为关键词”、 “如 有可能, 尽量用 《汉语主题词表》 等词表提供的 规范词” [2] 。
一般来说, 标题和关键词是从不同角度揭示论 文内容的信息, 两者在揭示论文内容方面存在共 性, 同时也存在一定的差异。 徐鸿飞等[3] 、 徐书 荣[4] 、 刘显[5]和张紫玄等[6] 从不同角度对不同领 域标题与关键词在揭示文献主题的差异性进行了比 较研究。 Hunt C A 等[7] 也研究发现, 不同时间窗 口和不同期刊的主题和概念有很大差异, 而且同一 期刊同一年的关键词和文章标题之间也存在一定的 差异。 Yuret T[8] 研究发现, 在关键词中使用某个 词的文章与在标题中使用同一词的文章相比, 引文 性能存在很大的差异, 其中包含动物名称、 国家名 称和数学概念的单词性能最差, 学科特定领域且频 率相对较低的术语性能最好。 从以上的研究来看, 标题和关键词在表达文献主题时既有一致性和互补 性, 又有其差异性, 应避免孤立看待标题和关键词 这两者的关系。 只有把它们有机地联系起来, 使它 们揭示主题内容趋于协同, 才能使读者方便、 快捷 地查找相关信息。 吕美香[9] 、 李树青等[10] 都尝试 了从标题中抽取关键词, 他们的研究也揭示了期刊 论文的标题与关键词之间的密切关系和两者揭示论 文信息的差异性。
期刊论文标题作为一个短文本, 它通常是由一 些专业术语按一定语法结构形成的一个信息集合, 在揭示文献内容力求要恰当、 鲜明和新颖[11] 。 期 刊论文的关键词虽然要求是规范的自然语词, 但它 们之间也有一定的逻辑关系。 如胡昌平等[12] 将关 键词分为子知识点、 研究主题、 限定范围、 理论方 法和所属领域共 5 种类型。 本文将在对期刊论文标 题和其关键词差异性分析的基础上, 提出定量测度 其差异性的指标, 并选择图书情报学领域的期刊论 文进行探索性研究, 以期能够定量研究两者的差异 性, 为作者选择关键词和用户使用文献信息检索系 统提供参考。
1 期刊论文标题与关键词的差异性
差异性与联系、 发展存在密不可分的辩证关 系。 一方面, 差异是事物之间产生联系的根本原 因, 这是因为如果世间万物不存在任何区别, 均以 统一的形态存在, 那么所有事物便是 “同一” 的 而不是 “多样的”, 而 “同一” 的事物与自身的联 系毫无意义, 没有事物之间的差异性联系, 创新便 无从谈起。 另一方面, 联系也促成了事物之间的差 异, 这是由于只有在事物之间联系基础之上的对比 才能使事物之间的差异性得以显现[13] 。 期刊论文 的标题和其关键词之间既存在一定的联系, 也有一 定的差异。 其存在联系是因为它们都是从不同角度 来揭示期刊论文的内容特征。 无论是标题还是关键 词, 都包含了表征论文研究主题、 研究方法等内容 的专业术语。 同时, 由于其表达方式的不同, 也存 在较为明显的差异性。
下面是南京大学信息管理学院叶继元教授在 《中国图书馆学报》 发表的两篇论文。 文献[14]的 3 个关键词中, 只有 “图书馆事业” 出现在标题 中, 而文献[15] 的 3 个关键词则全部出现在标题 当中。 文献[14] 中, 没有出现在标题中的 2 个关 键词则能够给读者更加丰富的信息。 它们反映了论 文在探讨图书馆事业发展问题时, 涉及了图书馆学 教育和图书馆学研究两个主题。 文献[15] 中, 关 键词与标题从语词的角度来看, 两者是重复的, 关 键词并没有给出更多的信息, 而标题则揭示了 3 个 关键词之间一定的逻辑关系。 该论文是在 DIKW 概 念链模式的基础上探讨数据与信息之间的逻辑关 系。
标题 1: 论我国图书馆事业发展的八大问题
关键词 1: 图书馆事业; 图书馆学教育; 图书 馆学研究
标题 2: 数据与信息之间逻辑关系的探讨——— 兼及 DIKW 概念链模式
关键词 2: 数据; 信息; DIKW 概念链
笔者认为, 可以利用关键词是否在标题中出现 及出现的频次来定量刻画标题与关键词在表达论文 信息的差异性。 论文标题和关键词可以看作是两个 信息集合。 如果论文的关键词全部出现在标题当中, 则其差异度为 0, 如果关键词都没有在论文标 题中, 那么两者的差异度为 1。 具体计算方法为: 差异度 = 1-出现在论文标题中的关键词数 / 论 文所有的关键词数
从作者的角度看, 差异度越小, 则反映出论文 关键词更多来源于论文的标题, 论文关键词能够给 予读者的信息相对较少。 从信息检索的角度看, 如 果差异度越小, 则用户通过标题检索和关键词检索 两个途径获得目标文献的差别就越小。
2 数据来源
本文以中文社会科学引文索引 (CSSCI) 为数据源, CSSCI 是国内社会科学研究领域最重要的文 献数据库之一, 本文以 CSSCI 图情类期刊文献为研 究对象, 有一定的代表性和权威性。 本文实证部分 数据的时间窗口为 1998-2017 年; 学科范围为图书 馆、 情报与文献学。 数据来源于图书馆与情报学刊 物有 20 种, 共有80 409篇论文。 《现代图书情报技 术》 2017 年更名为 《数据分析与知识发现》, 其 2017 年的 130 篇文献与 《现代图书情报技术》 1998 -2016 年的数据合并处理。 各期刊发文数如图 1 所 示。
从图 1 可以看出, 这些期刊论文数差别较大, 特别是 《国家图书馆学刊》 与 《现代情报》 论文 数量最少, 这与期刊的收录情况相关。 前者从 2008 年起被收录进 CSSCI, 而后者最近两年才被收 录。
表 1 为 1998-2017 年论文关键词数分布情况, 表中数据显示, 论文的关键词数基本分布在 3 ~ 8个, 且以 3 ~ 6 个关键词居多。 从表 1 中可以看出, 1998-2011 年的发文中 (2002 年除外), 3 个关键 词论文数最多, 4 个关键词第二; 从 2012 年开始, 4 个关键词的论文数位居第一, 3 个关键词位居第 二, 且 3 个关键词的论文数呈逐年下降趋势, 与此 同时, 5 个关键词的论文数在 20 年间呈上升趋势。
3 数据分析
3. 1 标题与关键词差异度整体分析
本文计算了80 409篇论文的标题与关键词差异 度, 并将差异度划分为 10 个组段 (表 2)。 从表 2 可以看出: 1) 差异度最多的区间是 [ 0. 3,0. 4), 占总体的 22. 18%。 这表明有17 836篇论文的关键 词有约2 / 3都出现在了论文标题当中。 从累计频率 看, 有 61. 20%以上的论文的差异度在 0. 5 以下。 说明作者在提取关键词时会将标题作为一个重要的 参考因素。 2) 差异度在[0. 9,1. 0] 范围内的论文 数量是4 023篇, 占总体的 5%。 即这些论文的关键 词都没有在论文标题中出现。 这些论文的标题和关 键词的差异性最大。 3) 结合表 3 的统计指标看, 有一半论文的标题与关键词的差异度在 0. 33 ~ 0. 67 之间, 有1 / 4的论文标题与论文差异度小于 0. 33, 另1 / 4大于 0. 67。 这些数据的变异系数 0. 5822 显 示标准差相对于均值的离中趋势不明显。 由此可 见, 这些论文的差异度在[0,1]区间内整体呈现为 中间多, 两头少的对称分布。
3. 2 标题与关键词差异度时序分布
从图 2 可以看出: 1) 1998-2002 年期间, 差异 度在 0. 8 以上的论文数量略多于差异度 0. 2 以下的 论文; 从 2003 年开始, 差异度在 0. 8 以上的论文数 量保持在 159 ~ 287 篇之间, 其绝对数量基本保持 稳定。 2) 2002-2009 年期间, 差异度在 0. 4 以下的论文数量呈现为一个快速增长的趋势。 这表明论文 关键词出现在标题中的比例较大, 是一个快速上升 的状态。 而且差异度在 0. 2 ~ 0. 39 之间的论文数量从 2005 年开始一直都是数量最多的。 2010 年开 始, 差异度在 0. 4 以下的论文数量都呈现为一个下 降的趋势。 这表明论文关键词出现在标题中的比例 发生了一个较为明显上升的变化。 3) 1998- 2005 年期间, 差异度在 0. 6 ~ 0. 79 之间的论文数量最 多, 2006 年开始基本处于一个整体下降的趋势。 这种下降的趋势是由于这些期刊的发文量有一个比 较明显的下降造成的。 4) 差异度在 0. 4 ~ 0. 59 之 间的论文数量除 2002 年有一个突变之外, 其整体基本呈现为一个缓慢上升, 数量渐趋平稳的一种状 态。 整体来看, 以 2009 年为一个时间节点, 2009 年之前, 期刊发文量整体呈现为上升趋势, 2009 年开始整体出现了下降趋势, 不同差异度的论文数 量也呈现出相应的变化。 另外, 差异度在 0. 5 以下 的论文数量要多于 0. 5 以上的论文数量, 这反映出 论文的作者在选择关键词时, 论文标题是一个重要 来源。
从图 2 也可以看出, 除 2002 年之外, 差异度 在 0. 4 以下的论文数量占比总体的比例在 2009 年 之前是一个上升的趋势, 2009 年之后保持在 50% ~ 54%之间。 这反映出论文数量的下降对这部分论 文的差异度影响不大。 很多期刊对每篇论文的关键 词要求在 3 ~ 8 个之间, 这意味着每篇论文的关键 词至少一半以上都出现在标题当中。 差异度较小, 则关键词出现在标题中的比例较高, 这对于利用关 键词来揭示论文相关信息的能力会有所降低。 作者 在选择关键词时, 除少量来源于标题外, 还是应该 从反映论文研究方法、 研究角度等方面选择。 这样 一方面可以强化关键词表达论文信息的功能, 同时 也有利于用户从关键词角度来检索相关文献。 将差异度值在 0. 2 ~ 0. 39 及 0. 2 以下的部分进 行合并, 并绘制该区间论文数占论文总数百分比随 时间变化的散点图, 如图 3 所示。 从时间上来看, 2009 年以前的文献除了 2002 年以外, 差异度在 0. 4 以下的部分基本上在逐年增加, 也就是说, 关键词与标题的差异度越来越小。 2002 年差异度在 0. 4 以下的部分有一个很大的降幅, 具体原因将在 3. 5 节陈述。 2009 年以后的差异度变化趋势较缓, 结果都高于 50%, 结果进一步显示了差异度的变 化趋势。
3. 3 不同期刊标题与关键词差异度
本文对 20 种期刊的论文标题与关键词差异度 进行了统计。 差异度划分为 5 个区间: 0. 2 以下、 0. 2 ~ 0. 39、 0. 4 ~ 0. 59、 0. 6 ~ 0. 79、 0. 8 以上。 结 合原始数据及图 4 可以看出:
1) 20 种期刊整体呈现为中间多, 两头少的状 态, 即 0. 2 以下和 0. 8 以上的论文数量占比较少, 而其它 3 个差异度区间占比较多。
2) 有 16 种期刊的差异度区间分布呈现为 “M 型”。 这些期刊在 0. 8 以上、 0. 4 ~ 0. 59 和 0. 2 以下 的论文数量占比相对较少, 而其它两个区间的论文 数量占比相对较多。 《国家图书馆学刊》、 《情报理 论与实践》 和 《现代情报》 的前 4 个区间呈现为一个上升趋势, 80%的论文差异度较大。
3) 《情报学报》 的数据较为特殊, 其整体是 一个比较明显的 “倒梯型” 结构, 即 0. 2 以下和 0. 8 以上的论文数量占比较少, 而中间 3 个区间的 论文数量占比差距很小, 分别是 28. 2%、 28. 6%和 26. 5%。 整体而言, 其差异度在 0. 4 以上的论文数 量占比达到了约 60%。 这在一定程度上反映出该 期刊上发表论文的关键词出现在标题中的比例较小, 其关键词与标题在表达论文信息的差异性相对 较大。
4) 另外, 结合这些期刊的发文数量来看, 无 论是发文较多的 《 情报杂志》 和 《 图书情报工 作》, 还是发文较少的 《中国图书馆学报》 和 《情 报学报》, 其论文标题与关键词的差异度数据分布 与其它期刊没有特别明显的差别。 这也反映出期刊 论文发文量对差异度的分布没有影响。
3. 4 标题长度对论文标题与关键词差异度的影响
本文全部文献的标题长度从 1 ~ 96 位不等, 数 据长度覆盖面大。 对标题长度进行统计分析, 发现 数据基本情况如表 4。 一般来说, 论文标题长度有 一个合理的分布区间, 标题长度太小或太大, 都可 以当成异常值来处理。 根据表 3 统计分析结果, 异 常值应被定义在区间[ QL - 1. 5IQR,QU + 1. 5IQR] 外[16] , 其中 QL 为下四分位数、 QU 为上四分位数、 IQR 为四分位数间距, 由此计算得出该区间为 [2,34]。
图 5 为去掉篇名过短和过长的数据后标题长度 对差异度的影响曲线图。 图中截取了几个比较典型 的差异度值 (1、 0. 67、 0. 5、 0. 33、 0. 25、 0)。 从 图中可以看出, 当标题长度在一定区间范围时, 差 异度存在一定的差异。 当标题长度小于 10 时, 差 异度为 0. 67 的文献数最多, 差异度在 0. 25 和 0 的最少; 标题长度在 10 ~ 15 之间时, 差异度为 0. 33 论文数最多、 0. 67 其次、 0. 5 位居第三, 差异度为 0. 25 对应的论文数最少。 从图中还可以看出, 标 题长度在 15 ~ 19 之间时, 差异度为 0. 33 论文数最 多、 0. 5 其次、 0. 67 第三, 差异度为 1 对应论文数 最少; 标题长度超过 19 时, 差异度为 0 的对应的 论文数最多, 差异度为 0. 33 和 0. 5 差别不大。
总的来说, 标题长度对关键词与标题差异度的 影响可以分成 3 个区间: 当标题长度小于 10 时, 差异度为 0. 67 的论文数居多; 当标题长度介于 10 ~ 19 之间时, 差异度为 0. 33 的论文数居多; 标题 长度大于 19 时, 差异度为 0 的居多。 由此可见, 标题长度对差异度有显著影响, 标题越长, 差异度 越小, 即关键词与标题越接近; 标题越短, 差异度 越大, 即关键词与标题差别越大。
3. 5 关键词数量对论文标题与关键词差异度的影响
在数据的相关性分析中发现, 关键词数与差异 度间的 Pearson 相关系数为 0. 2849, 说明关键词数 越多, 差异度越大。 由于相关系数值较小, 说明两 者之间的线性相关性总体上不太显著。 在对差异度区间分布情况汇总的基础上进一步 分析发现, 差异度为 0. 33 的论文一般为 3 个关键 词, 且其中 2 个关键词出现在标题中; 差异度为 0. 4 的论文包含 5 个关键词, 其中 3 个出现在标题 中; 差异度为 0. 375 的论文包含 8 个关键词, 其中 5 个出现在标题中; 差异度为 0. 5 的论文 4 个关键 词的居多, 也包含少量的 2 个关键词和 6 个关键词的论文。 通过对全部数据进行交叉分析发现, 在特定差 异度区间内, 关键词数对差异度有一定影响。 差异 度为 0 时, 此时关键词数为 3 的论文数最多 (见 图 6), 从图 6 可以看出, 在差异度为 0 的10 977篇 论文中, 关键词数为 3 的论文数有7 677篇, 关键 词数为 4 的论文数有2 666篇。 这可能有两个原因, 一是大多数论文的关键词数为 3 ~ 5 个, 相比其他 论文, 关键词为 3 个的论文数基数较高; 二是关键 词数越少, 被标题全覆盖的概率越大, 故而 3 个关 键词的差异度为 0 的可能性越大。 当关键词—标题 差异度为 1 时, 同样也是关键词数为 3 个时论文数 最多, 且两者的曲线变化趋势一致。 比较最大和最 小的两个差异值发现, 当关键词数量为 3 时, 差异 度为 0 的论文数明显高于差异度为 1 的论文数, 说 明论文关键词数为 3 个时, 关键词与标题一致的概 率要远高于两者不一致的情况。
前文在 3. 2 节提到, 2002 年标题与关键词的 差异度有明显异常, 在此对 2001 - 2003 年的标题 及关键词的特征进行分析, 结果如图 7 所示。 2002年论文关键词数分布大体呈对称趋势, 2001 年与 2003 年关键词数呈左偏的正态分布。 通过分析发 现, 2002 年的发文中, 关键词数为 5 个的最多,而其它年份的关键词数一般 3 个、 4 个居多, 关键 词数存在明显差异。
通过以上分析可知, 关键词数对标题与关键词 的差异度存在一定的影响, 为了增大两者的差异 性, 关键词的数量在选取时要尽量多于 3 个。
4 结 论
论文关键词的提取往往依据论文的全文内容, 同时论文标题也是论文主要内容的体现, 因此标题 和关键词之间存在必然的联系。 本文以 CSSCI 收录 的 20 种图情类期刊近 20 年的全部论文为研究对 象, 采用文献计量方法对图情类期刊论文的标题与 关键词之间的差异性进行了探索性的研究, 分析了 不同时段不同来源的文献中关键词和标题之间的差 异性及其影响因素。 研究结果表明: 论文标题中往 往包含部分或全部关键词, 标题与关键词之间存在 差异便于读者将二者结合, 以便更全面地了解文献内容。 从时间上来看, 标题与关键词差异度随着年 份变化较明显, 总的来说, 差异值又随着时间变小 的趋势。 从文献来源来看, 《国家图书馆学刊》、 《情报理论与实践》、 《现代情报》 及 《情报学报》 相较于其它期刊, 差异度较大, 说明这几个期刊的 标题与关键词能反映更多的内容信息。 从标题和关 键词来看, 标题与关键词的差异度与标题长度及关 键词数量都存在一定的关系。 一般来说, 标题长度 在 15 ~ 30 之间和关键词数在 4 ~ 5 个之间时, 差异 度相对较大。
本文的研究无论是对作者提取关键词还是用户 使用文献信息检索系统方面, 都有一定的参考价 值。 不足之处在于主要用文献计量分析的方法, 从 论文的关键词与标题自身结构、 文献来源及发文时间等角度进行分析, 没有考虑文 献所属研究类别, 这是今后有待深入研究的一个问 题。

相关文章:高校论文管理系统的研究