面向作者消歧和合作预测领域的作者相似度算法述评
来源:论文查重 时间:2019-08-02 11:16:19
[摘 要] 从文本相似度论文查重和结构相似度算法入手 ,对面向作者消歧和科研合作预测领域的作 者相似度算法进行了研究 。 分析和比较了各种常用算法的优劣 ,以及目前的应用情况 ,并对作 者相似度算法进行系统梳理与展望 . 随着互联网的发展和大数据时代的到来 ,面对海量的文献信息 ,用户从广泛获取转为个人需求选 择 ,向用户提供精准 、个性化的智能知识服务成为图书情报领域的发展方向 . 精准知识服务是面向用户个体 ,提供基于个体特征和个体兴趣的完全个性化信息服务 .实施精准信 息的精准发现和投递 ,一方面可依据用户自定义或自描述的特征及信息 ;另一方面可通过挖掘用户潜在 需求主动提供所需信息 .因此 ,能够定位用户的需求与兴趣的用户画像 、兴趣图谱等相关技术成为了发 展精准知识服务的重要方法 .可以通过用户画像和兴趣图谱获取用户不同角度上的相似性 ,找到与目标 用户兴趣 、喜好 、需求相似的用户群体 ,将群体中用户喜欢的信息精准推荐给目标用户 .这些应用场景的 关键技术之一就是作者相似度计算 .尽管作者相似度研究目前已经取得了丰硕成果 ,但仍有很大的改进 和提升空间 . 中国科学院文献情报中心(NSLC)面向中国科学院“十三五”规划和“四个率先”的需求 ,努力建设 智能知识服务体系来支撑中国科学院快速创新需求 .作为智能知识服务体系中的关键内容 ,NSLC 从多 个角度开展了与精准服务相关的技术和方法研究 .本文通过对作者相似性研究的调研分析 ,力图为后期 的作者相似性计算模型设计实现打下一个比较好的基础 . 1 作者相似度算法的研究现状与进展 我们于 2018 年初 ,在 CNKI 数据库 、SpringerLINK 电子期刊和 Webof Science 等核心数据库中 ,以 “作者相似度(Author Similarity )”“学者相似度(Scholar Similarity )”等作为检索词进行搜索并获取了 相关文献 ,在梳理作者相似度算法研究中发现 ,大部分文献都可以归并到两个应用领域 :作者消歧和科 研合作预测领域 .因此本文选择从这两个领域入手 ,梳理总结常用的作者相似度计算方法 . 作者相似度是很多领域的基础研究问题 ,如作者消歧 、合作预测 、相关学者推荐[1] 、学科知识结构探 测[2]等领域 ,由于应用场景不同 ,其内涵有所区别 ,并没有统一的定义 .目前对作者间的相似比较研究 , 不仅要关注属性信息的字符相似度 ,而且要比较作者间信息在深层语义上的相似度 ,即两者的接近程度 .例如 ,同名但研究不同领域的作者间的相似度就小于研究领域相同但名字不同的作者 . 1 .1 作者消歧领域的作者相似度计算 在文献知识库中 ,作者姓名往往存在歧义性 ,主要体现形式有两种 :一是不同名字指代同一个人 ,产 生这种情况的原因有姓名拼写的变形 (如唐琰琪的外文拼写方式有 Tang Yanqi 、Yanqi Tang 、Tang Y Q 、Y Q Tang 等) 、拼写或者印刷错误 、作者有笔名及曾用名等(如周树人有包括鲁迅在内的多个笔名) ; 二是同一个名字指代不同的人 ,即重名问题 ,可能几千人使用同一个大众化的名字 .作者消歧就是确定 一个作者名指代的真实世界中的具体人物 ,旨在找到属于特定作者的所有出版成果 . 现有的作者消歧方法大多通过机器学习的分类和聚类算法实现 .基于分类的作者消歧方法是有监 督学习方法 ,在对每个目标消歧前 ,需要包括对已标注的作者数据进行训练和学习 ,建立分类模型 ,再利 用模型计算作者相似度 ,判断新出现的作者与已标注的作者是否是同一作者 .常用的有监督消歧分类模 型包括朴素贝叶斯模型和支持向量机模型 .文献[3]采用贝叶斯概率模型和支持向量机两种监督学习方 法 ,选取合作者名称 、标题 、出版物名称作为特征 ,度量作者姓名的相似度以及论文的相似度解决作者消 歧的问题 .文献 [4 ]采用标题 、机构名称 、出版物名称 、主题词作为特征 ,利用贝叶斯概率模型判断 MEDLINE 中不同文献记录之间的相似度对作者进行消歧 .对于有监督的消歧方法 ,分类结果的准确度 相对更高一些 ,但该方法只适用于小型数据库 .面对大量的文献数据 ,很难人工标注足够多的训练数据 , 可伸缩性差 ,因此未能广泛应用 . 基于聚类的作者消歧方法是无监督学习方法 ,通过提取作者属性特征 ,采用相似度衡量方法和聚类 算法 ,将所有相似的 、可能指向同一作者实体的作者聚为一类 ,得到的聚类簇就是消歧结果 .无监督的聚 类方法包括基于文本的方法和基于网络图的方法 .文献[5]使用合作者 、标题和出版物这 3 个特征 ,提出 K‐way 谱聚类的无监督学习方法 ,在引用中消除作者歧义 ,通过实验验证了这些特征能实现作者消歧 . 文献[6]设计的 GHOST 算法通过建立合作者关系图 ,计算作者节点之间的路径长度和条数来判断作者 相似度 ,最后采用仿射传播(affinity propagation )进行聚类 .文献[7]提出了一种称为 GCLUSIM 的方 法 ,该方法构建作者合著网络 ,使用图形结构聚类和文本相似性度量来解决模糊作者消歧问题 .无监督 的消歧方法不需要训练数据 ,适用于大型数据库 ,其伸缩性较好 ,应用范围更广 . 在作者消歧领域中 ,无论采取分类还是聚类方法 ,都需要计算作者相似度 ,将相似的作者归为一类 . 1 .2 科研合作预测领域的作者相似度计算 随着研究问题的多样化和复杂化 ,多学科交叉融合解决问题的情况越来越普遍 ,而作者研究方向的 细致化也使得不同领域间的作者合作日益增多 .为了向作者在合作者的选择上提供建议和参考 ,合作关 系预测的研究变得越来越重要 .科研合作预测旨在预测尚未合作过的作者将来具有合作的可能性 ,主要 根据作者间的社会关系 ,相关研究领域 、主题 、兴趣等计算作者间的相似度 ,用相似度衡量未来作者潜在 的合作机会[8] . 科研合作预测一般在科研合作网络中进行 .科研合作网络是由科技文献的元数据关联构建而成的 , 根据网络中存在的实体和连边类型 ,可分为同构网络(如合著网络[9 ] )和异构网络(如作者‐论文网络[10] 、 作者‐关键词网络[8 ] 、作者‐论文‐术语和会议网络[11 ] ) ,通过学者间的连边表现其在文章 、研究项目中的 合作关系 .以应用范围较广的合著网络为例 ,节点是作者 ,边是合著关系 ,合著网络中的合作关系预测就 是计算尚未产生连边的作者节点对之间产生连边的可能性 . 科研合作预测在本质上是链路预测问题 ,主要采用基于相似性的方法和基于学习的方法 .基于相似 性的方法是根据作者节点属性信息和网络结构信息 ,通过文本相似性算法和结构相似性算法比较每一 对无连边的作者节点间的相似度 ,越相似的 2 个节点越有可能产生连边 ,即两位作者未来更有可能合 作[12] ;基于学习的方法是将合作预测看作二分类问题 ,即 2 个节点有连边(正类)或没有连边(负类) .该 方法也是根据已知网络中的作者节点属性和节点拓扑结构 ,通过无监督或有监督的机器学习算法(如分 类器 、概率模型等)来预测新作者节点对的连边属于正类或负类的概率[13] .特别是采用分类器进行链路 预测时 ,需要从网络中提取合适的特征 ,由节点 、拓扑的相似性度量提供的特征属性在分类学习算法中 得到广泛应用 . 文献[9]率先利用多种节点相似性指标解决社交网络中链接预测问题 ,并在合作者网络中取得良好结果 .文献[14]提出局部概率图模型 ,利用节点共现概率属性 、拓扑属性和语义特征在学术网络中预测 合作者关系 .文献[15]将链路预测问题看作二分类问题 ,在合著网络中使用有监督模型学习 ,将结构相 似性指标作为特征 ,学习训练集中的链接信息 ,从而预测测试集中可能产生的链接 . 基于相似性方法所采用的传统结构相似性指标 ,多应用于同构信息网络中 ,但这些基于邻居集合和 节点之间路径的相似性指标并不能直接应用到异构信息网络中进行计算 .基于学习的方法则可以在多 种网络中应用 ,但在特征选择和模型训练过程中也会引起高额的计算成本 . 2 面向作者消歧和合作预测的作者相似度算法的分析与比较 作者相似度计算方法在作者消歧和合作预测领域都得到了不错的研究应用 .作者消歧领域多从文 献中提取特征 ,将作者的所属机构 、专业 、研究领域等文本信息直接用于计算作者之间的相似性 .近年来 也通过构建社会网络 ,利用图结构信息计算作者相似性 .合作预测通常在科研合作网络上开展研究 ,少 量文献选取作者节点的属性信息 ,通过文本信息比较作者相似度 ;大多数文献选取作者节点的拓扑信 息 ,利用包含合著 、同属一个机构 、同一出版物上发表论文等语义信息的连边比较作者间的相似性 .不难 看出 ,两个领域在算法上有交叉重用 ,也各有侧重 .但总的来说 ,这两个领域所采用的方法基本上可以归 为两大类 :一类是通过属性信息利用文本相似度算法比较作者的相似度 ;另一类是在社会网络中利用结 构相似度算法比较作者的相似度 . 2 .1 基于文本相似性的作者相似度计算方法 作者相似度计算通常依赖于作者的相关属性信息来判断作者的相似性 .如合著者 、电子邮箱 、从属 机构等强特征 ,可以有效地计算出作者的相似程度 ,而标题 、关键词 、摘要 、研究方向 、出版物等弱特征的 计算效果较弱 .这些属性信息一般采用文本相似性计算 ,主要分为基于字符串的方法和基于语料库的 方法 . 2 .1 .1 基于字符串的文本相似度计算 基于字符串方法从字符串匹配度出发 ,以字符串共现和重复程度为相似度的衡量标准[16] .第一类 方法单纯从字符或词语的组成考虑相似度算法 ,如 Jaccard 相似系数 、余弦相似度 、Tanimoto 系数 、汉明 距离 ;第二类方法衡量编辑操作 ,即一个字符串最少需要多少次编辑才能变成另一个字符串 ,如 Levenshtein 距离 、Smith‐Waterman 距离 、affine gap 距离 、Jaro‐Winkler 相似度函数 .常用的基于字符 串的文本相似性函数总结见表 1 . 基于字符串的文本相似性算法 ,在计算作者姓名 、机构 、会议 、期刊 、关键词等信息的相似度上有着 广泛的应用 .文献[17]采用 Jaccard 相似系数和 Levenshtein 距离计算所属机构 、出版地的字符相似性 ; 使用 Jaccard 相似系数和余弦值计算标题 、摘要的相似性 .文献[11]采用 Jaccard 相似系数 、Soergel 相似 系数 、Lorentzian 相似系数 、汉明距离计算论文/会议/关键词的相似性 .文献[18]使用 Tanimoto 系数计 算标题 、摘要 、合著者的姓氏和首字母缩写 、参考文献 、规范化作者关键词 、规范化索引关键词 、规范化研 究地址 、期刊名称的相似度 . 基于字符串的方法实现起来简单 、易于操作 ,但只比较了文本的拼写相似性 ,并未考虑文本的词义 和语义 .以同义词为例 ,尽管词语写法不同 ,但意义相同 ,基于字符串的方法并不能识别出这类词语间存 在着的相似性 . 2 .1 .2 基于语料库的文本相似度计算 基于语料库的方法利用从语料库中获取的信息计算文本相似度[16] ,进一步考虑了词语的语义 .基 于语料库的方法主要分为基于词袋模型和基于神经网络 2 种方法 .词袋模型 (Bag of Words Model , BOW)建立在分布模型(Distributional models )的基础上 ,即“相似的词会出现在同一文本区域” .基本思 想是将文档表示成词的集合 ,每个词用词频表示 ,构成文档向量 ,缺点是没有考虑文本序列 .通过神经网 络模型生成词向量则是建立在分布式模型(Distributed models)的基础上 ,即“相似的词会出现在相似的 语境里 ,但可能不会同时出现” .其基本思想是考虑词语的上下文 ,将每个高维空间的词映射到低维空间 形成一个固定长度的短向量 . 基于语料库的文本相似度算法的引入 ,使得在比较作者属性信息时可以挖掘文本深层语义方面的 信息 ,与字符串相似度算法相比 ,结果的准确性有所提高 ,在实践中已有一定的应用 .文献[19]提出了一 种跨文档的人名对齐方法 ,利用 VSM 模型计算摘要间的相似度 ,将人名共指的文档聚类在一起 .文献 [5]采用 TF‐IDF 和标准词项频率(NTF)对文献引用中的合作者 、题目和出版物进行特征表示 ,利用特 征向量的余弦相似度表示文献相似性 . 为了进一步提高作者相关词语义的利用程度 ,文献[20]提出基于名为 LDAcosin 的衡量内容相似 性指标 ,论文之间的相似性越高 ,作者越相似 .使用论文的标题和摘要信息通过 LDA 模型生成每篇论文 的表示向量 .通过计算论文向量相似度得到作者相似度 .文献[21]提出了使用 PLSA 以及 LDA 方法 ,利 用文献内容生成作者主题向量 ,并采用欧几里得距离计算主题向量间的相似度 . 通过神经网络模型生成词向量计算文本相似度的广泛研究也使得不少产生词向量的模型和工具也 被提出 ,Word2Vec 工具[22]就是其中的典型代表 .文献[23]通过抽取文献的标题 、关键词 、摘要信息作为 学者属性文本集合 ,综合 Word2Vec 词向量与词的 TF‐IDF 值计算出学者向量 ,学者向量间相似度计算 采用 Jensen‐Shannon 距离进行衡量 . 2 .2 基于结构相似性的作者相似度计算 应用属性信息的确可以很好地比较作者间相似度 ,但是在很多情况下 ,无法轻易地获取这些信息 , 而且有些时候并不能保证获取信息的准确性 .与属性信息相比 ,获取作者及其他相关实体间关系 ,构建 作者社会网络(如合著网络 、作者‐论文网络 、作者‐关键词网络等)更加容易 ,也更加可靠 .同时利用图中 节点间的拓扑信息 ,来判定两个作者相似性的方法 ,对于结构相似的网络具有普适性 .因此 ,在合作预测 领域中应用更广的是基于网络结构信息的结构相似性比较 ,近年来在作者消歧领域中基于社会网络的 结构相似性研究也越来越多 . 2 .2 .1 同构网络中节点拓扑相似度计算 早期在网络中衡量作者相似度的研究 ,大多选取在合著网络 、引文网络等同构网络上计算节点的结 构相似性 .结构相似性指比较信息网络中节点间连接属性的相似性 ,同构网络中的相似性指标可分为基 于网络局部结构的相似性(基于邻居的度量) 、准局部结构的相似性(基于路径的度量) 、网络全局结构的 相似性(基于随机游走的度量)[24 ] ,见表 3 . 最基础的相似性指标是共同邻居 ,2 个节点的共同邻居越多就越可能相似 ,即在合著网络中有更多 共同合作者的 2 个作者更相似 .这种方法在集聚系数较高的网络中表现非常好 ,有时甚至超过一些更复 杂的算法[12] .基于路径思想的相似性算法考虑到使用共同邻居指标进行计算时 ,所获得的值很可能局 限在 0 ,1 ,2 ,相似性分数的分布过于集中 ,从而造成预测结果没有区分度 .因此 ,将 2 个节点的共同邻居 扩展到“n阶共同邻居” ,即考虑到 2 个节点间的 n阶路径的数量为准局部路径指标[9] .基于随机游走的 思想是利用一个节点到其邻居的转移概率来描述当前节点随机游走的目的地 ,可以根据整个网络图的 信息来计算节点相似度 ,即使 2 个节点之间没有公共邻居节点也能计算[24] .拓扑相似性指标只考虑了 网络的结构信息 ,因此计算结果的准确性取决于指标的定义是否符合网络结构特征 .如在集聚系数高的 网络中 ,基于邻居和路径的度量方法能更准确地表示节点相似性 ;而在集聚系数低的网络中 ,更适合采 用基于随机游走的度量方法 . Liben‐Nowell 和 Kleinberg 率先在社交网络的链接预测问题中应用基于结构的节点相似性指标 , 在合著网络中进行了实验 .此后 ,通过构建同构网络 ,应用节点相似性指标衡量作者相似度的研究也越 来越多 .文献[9]在合著网络中系统地比较了几种节点拓扑相似性指数 ,包括图最短距离 、共同邻居 、优 先连接(PA ) 、Adamic/Adar 、Jaccard 、SimRank 、到达时间(HT ) 、rooted PageRank 和 Katz .其中 ,基于邻 居度量的共同邻居指标和 Adamic/Adar 指标计算作者相似度表现良好 ;基于路径度量的 Katz 指标的 表现良好 .文献[25]选取 7 门学科构建合作网络 ,采用 AUC 评测指标 ,对多种相似性指标效果进行了 比较 ,发现 AA 指标和 Katz 指标都是很有效的指标 ,并在图书馆情报文献学合作网络中应用 AA 指标 和 Katz 指标计算作者相似度 .文献[26‐27]分别提出了在作者‐关键词二分网络中运用 SimRank 和 P‐ Rank 指标的作者相似度计算方法 ,考虑了网络整体结构 ,得到了作者间以及词汇间的潜在关联关系 ,该 算法的指导思想是关键词相似度越高 ,与其相连的作者相似度也越高 . 2 .2 .2 异构网络中元路径拓扑相似度计算 现实世界中作者的社会网络往往是异构的 ,即网络中包含的节点或连边是不同种类的 .合著网络等 同构网络是将异构网络中的一种实体提取出来构建的网络 ,虽然计算简单但丢失了丰富的语义信息 .近 年来 ,学者们转而在异构网络中研究作者相似度 .文献[28]提出的一种基于元路径的解决办法 ,能将基 于同构网络的节点相似度指标扩展到异构网络 ,是目前应用较广的方法之一 . 元路径是一条包含关系序列的路径 ,这些关系定义在不同类型的实体之间 .根据不同元路径包含语 义的不同 ,比较实体节点间的相似度 .通过区分不同种类的邻居节点 、依据不同的元路径 ,把一阶邻居扩 展为 n阶邻居 ,将 2 个节点间共同邻居属性转变为 2 个节点之间依据不同元路径的路径数目[29 ] ,这样 就可以将同构网络中的节点相似度指标扩展到异构网络中 . 基于元路径的节点相似度计算 ,首先根据需求指定 2 个节点间的元路径 ,然后在具体的路径上使用 不同的相似度指标 ,代表性算法见表 4 .此算法通过计算异构网络中相关节点不同连边的丰富语义来比 较相似性 .与节点拓扑相似度指标一样 ,不同的元路径相似度指标适合不同结构特征的网络 .具有高出 入度节点的网络适合用以路径数和随机游走为基础的相似性指标 ,集中网络(即多数链接属于少数节 点)适合用基于成对的随机游走的相似性度量[30 ] .比起同构信息网络 ,异构信息网络中不同拓扑结构有 着更丰富的语义信息 ,基于元路径相似性指标的作者相似度计算的实践研究也越来越多 .文献[28]在异 构书目网络中通过研究合作预测问题 ,验证提出的元路径概念 ,采用 PC 、NPC 、RW 、SRW 指标计算元 路径相似度 ,度量异构信息网络中节点的同级相似性 .文献[31]提出了一种基于元路径的新型相似性算 法 HeteSim 指标用来比较异构网络中任意 2 个节点间的相似性 ,在 ACM 和 DBLP 数据集上进行了验 证 .文献[32]在 HeteSim 指标的基础上提出了新型相似性指标 AvgSim ,与 HeteSim 指标相比降低算法 的复杂性 ,并在 ACM 和 DBLP 数据集上进行了实验 .文献[33]在 APS 和 DBLP 数据集上 ,采用路径数 指标衡量具有时间动态的元路径相似度 、标准化路径数衡量元路径的传递相似性以及对称随机游走衡 量具有作者属性的元路径相似度 ,从而比较作者节点间的相似性 . 2 .2 .3 基于新型网络表示学习的网络结构相似度计算 除了采用结构相似性指标计算网络拓扑相似度以外 ,随着表示学习的兴起 ,网络表示学习方法也逐 渐应用于节点相似度计算 .网络表示学习方法是把网络中的节点语义信息映射成低维 、稠密 、实值向量 , 通过计算向量间的距离比较节点的相似性 .随着 Word2Vec 工具的成功 ,基于神经网络的网络表示学习 方法应用更加广泛 .Word2Vec 工具本质上是一种神经语言模型 ,包含了 CBOW 和 Skip‐gram 模型 ,通 过考虑当前词的上下文 ,学习包含语义信息的词向量[34] .针对网络结构特点 ,借鉴 Word2Vec 工具的网 络表示学习方法把节点看成自然语言中的单词 ,把在网络中随机游走生成的节点序列当作自然语言中 句子 .依据获取节点序列的不同方式 ,形成了以 DeepWalk[35] 、LINE[36]和 Node2vec[37]等为代表的基于 节点位置信息的网络表示学习方法 .网络表示学习方法可以在有效地保证网络中节点的特征与相似性 的基础上对网络进行有效的结构特征提取分析 ,可以解决目前网络研究中高度非线性 、保留网络结构 、 网络高度稀疏的三大难点 ,从而达到更好的数据抽象效果 ,更加真实的还原模型 .由于网络表示学习得 到的向量是多维连续的 ,因此梳理的相似度计算方法更偏重于连续向量(见表 5) . 网络表示学习为在复杂网络中分析节点结构相似度提供了新的方法 ,科研人员开始尝试将其运用 到作者社会网络 ,通过获得作者节点的向量表示 ,计算作者间的相似度 .文献[34]首先构建作者合著网 络 ,利用 LINE 模型学习作者节点在合著网络中的上下文语境信息 ,得到作者的向量表示 ,采取余弦相 似度计算作者向量间的相似度 .文献[29]构建包含期刊‐论文‐作者实体的学术异构网络 ,利用 Node2vec 模型获得作者的向量表示 ,根据余弦相似度计算他们之间的向量相似度 . 3 结语 作者相似度计算方法的研究发展紧跟新兴技术发展步伐 ,在基于文本相似性的作者相似度算法方 面 ,经历了从拼写比较到语义比较的发展 ;在基于结构相似性的作者相似度算法方面 ,经历了从同构网 络到异构网络的发展 .随着研究的不断深入 ,作者相似度算法逐渐走向精细化 、精准化 .从上述总结分析 发现 : (1) 作者相似度研究将进一步应用表示学习方法 .在作者消歧领域广泛应用的文本相似性计算中 , 比起基于字符串和词袋模型的方法 ,词向量包含更丰富的语义信息 ,能更准确地比较文本相似度 ,因此 将会被继续探索使用 .随着词向量的成功和应用 ,科研合作预测领域也把网络表示学习应用其中 ,将节 点表示成向量计算节点结构相似性的方法已有了一定的实践 ,后续研究尝试使用考虑更全面的结构语 义信息的方法 ,把元路径 、子图 、图等其他网络结构表示成向量应用于作者相似度计算 . (2) 学术知识图谱为作者相似度研究提供多方面的支持 .学术知识图谱是一种语义网 ,包含了丰富 的作者及相关实体属性信息与结构信息 ,能够支持从属性信息和网络结构两方面比较作者间相似性 ,无 论是在作者消歧还是在科研合作预测领域都有广阔的应用前景 .因此利用知识图谱比较作者相似度值 得深入研究 . (3) 大数据给图书情报领域带来了挑战 ,也带来了机遇 .精准知识服务是图书情报领域面向未来的 转折切入点 .作者相似性计算作为精准服务的基础关键技术方法 ,在很大程度上影响了精准服务的发 展 .一个有效的作者相似度计算模型常常不能依赖对于相似性算法的简单评判 ,还需要根据应用数据集 的具体特性 .作为多个领域的基础研究问题 ,作者相似度研究已取得诸多进展 ,而且不断引入的新兴技 术持续改进着现有研究方法 ,这也将进一步推动精准服务的发展 . 相关文章:文本相似度计算研究进展综述