论文查重 | 论文文献库 | 基于用户关联度的半监督情感分析模型

基于用户关联度的半监督情感分析模型

来源:论文查重 时间:2019-08-02 11:22:19

摘 要: 随着信息技术与社交媒体的不断发展,用户情感分析在舆情监控、信息预测、产品评价上发挥着越来越重要的作用. 然而,监督学习手工标签获取困难,无监督学习缺少标签的引导,因此本文基于社会学理论建立了半监督的情感分析模型,该 模型主要分为标签添加和情感分析两部分. 标签添加部分首先基于情感一致性和情感传染性两种被认可的社会学理论建立 UR-S 模型,然后通过用户关联度和文本相似度进行改进,建立 TRS-SAT 模型,增加标签数量. 情感分析部分将 TRS-SAT 模型 与卷积神经网络结合,通过卷积神经网络挖掘特征集合与情感分析标签之间的深层次联系,构建半监督学习模型改善情感分 析性能. 实验表明,本文提出的基于用户关联度和深度学习的半监督情感分析模型,与半监督的支持向量机模型相比,准确 率、召回率、F 值分别提升 11. 40% 、5. 90% 、8. 65% ;与卷积神经网络模型相比,分别提升 4. 12% 、4. 17% 、4. 14% ,均有较好的 表现. 由此证明,该模型能够为舆情分析与用户决策提供良好的理论基础,具有创新性和实用性.
在信息时代的大潮下,微博、twitter 等社交媒体 蓬勃发展,情感分析已经成为自然语言处理论文查重的重要 方面,在电商平台的评论信息分析、社交媒体平台用 户的评论导向等方面有重要的现实价值.
情感分析的传统方法是基于词典和机器学习的 方法[1 - 2]. TURNEY 等[3] 使用无监督学习模型通过 分类的词典将文本分类,CHINSHA 等[4]使用基于规 则、依存关系和评价词典的无监督模型,虽然不需训 练数据,但领域依赖性强. BHUSHAN 等[5] 建立基于 文本间相似性的机器学习模型. ABDI 等[6] 对使用 最广的几种特征选择技术和机器学习分类器在情感 分析中的表现进行了性能研究. 然而,传统的词典与机器学习的方法无法解决社交短文本自身词汇稀疏 性、语法随意性与热词性导致的问题,深度学习逐渐 成为主流. HUSSAIN 等[7]基于深度信念网络通过深 度学习算法进行文本情感分析. KONATE 等[8] 证明 了单层卷积神经网络(convolutional neural network, CNN)的深度学习模型相比于机器学习表现更好. 金 志刚等[9]基于卷积神经网络结合表情符号建立情 感分析模型. WU 等[10] 提出了结合规则和深度学习 的混合无监督方法. 另一方面,监督学习手工标签获 取困难需要专家制定规则,进行人工标注,无监督学 习又缺少标签引导,效果往往不能令人满意,因此半 监督学习是一种有效的解决方式. KIM[11] 提出了改 进的半监督维数约简框模型,保留特征提取优点解 决情感分析缺点. WANG 等[12]提出将 K-means 算法 融合进 CNN,实现半监督学习的文本情感分析.
同时,网民们在社交平台上通过短文本发表观 点分享生活,相似的爱好与观念将网友们聚集成个 性化的社交网络. 有研究表明,社交理论对社交网络 短文本情感分析有着一定的指导作用,可提高预测 效果. 抽取社交网络特征进行文本情感分析[13] 已取 得了较好效果. HU 等[14]基于线性回归、社会关系提 出了 MSA 图正则化模型. WANG 等[15] 定义用户到 用户主题包含度并构建其稀疏网络. XIAO 等[16] 量 化共同邻居的依赖关系,分析结构空间中的用户相 关性. XIA 等[17] 充分利用词语关系,使用基于主题 图的模型实现多领域应用. 卢桃坚等[18] 利用微博- 微博关系构建基于图的半监督分类器,连接标记和 未标记数据. SHI 等[19] 给出了基于 CNN 的多特征 情感分析模型,肖云鹏等[20]分析社交网络中用户属 性和关系数据,发现了用户关系建立的关键因素. 徐 志明等[21]定义了用户关系强度,并给出了基于各种 用户属性信息的计算方法. WEI 等[22]研究了用户在 社交网络情感传播中的作用. 白朔天等[23] 通过多任 务回归网络挖掘方法,分析社交媒体用户人格和网 络行为的关联模式.
目前在社交媒体短文本情感分析方面,使用半 监督算法的研究者鲜少利用社交网络进行研究;而 少数通过社交关系进行情感分析的研究又大都未采 用半监督算法且对用户关系的衡量不够细致. 因此, 本文一方面充分利用社交网络,通过用户关联度建 立文本关系模型,使有标签和无标签的文本建立联 系形成聚类,通过有标签的文本标注一部分无标签 文本,从而增加标签数量,另一方面通过 word2vec 训练大规模互联网语料库,学习词组的高维向量表 示,作为中文词汇高效的数学表示模型,有利于加速 后续深度学习模型训练的收敛,结合卷积神经网络 建立半监督的深度学习模型,为舆情监控、信息预测 提供基础.
1 基于用户关联度的半监督情感分析模型
1. 1 模型框架
本文建立基于用户关联度的半监督情感分析模 型(sentiment analysis using social relationship strength and convolutional neural network, SA-SRS-CNN),主 要分为标签添加和情感分析两部分. 标签添加部分 首先通过用户间的关注关系,基于社交理论构建 0- 1 分布的用户关联度模型 ( user relationship using social relations, UR-S),然后通过用户背景属性和文 本相似度改进 UR-S 模型,构建文本-文本关系模型 (text relationship strength using social relations, user attribute and text similarities, TRS-SAT),实现有标注 和无标注数据的关联,通过有标签的文本标注一部 分无标签文本,从而增加标签数量. 情感分析部分, 通过 word2vec 训练大规模互联网语料库,学习词组 的分布式高维向量表示,作为中文词汇高效的数学 表示模型,有利于加速后续深度学习模型训练的收 敛. 结合 CNN 构建基于用户关联度和深度学习的半 监督情感分析模型,实现短文本情感分析. 其流程图 见图 1.
该模型的特点在于,结合用户关系、用户背景属 性、文本相似度与卷积神经网络,将监督学习改为半 监督学习. 其实现流程如下:
1) 预处理原始微博文本并计算文本相似度矩阵; 2) 根据用户背景属性和用户关注关系计算用 户关联度,并根据用户关联度和文本相似度建立 TRS-SAT 模型,计算文本-文本关系; 3) 基于文本-文本关系,实现有标注和无标注 数据的关联,通过有标签的文本标注一部分无标签 文本,从而增加标签数量,将所有的有标签文本作为 卷积神经网络的输入语料集; 4) 使用 word2vec 工具训练大规模互联网语料 库,学习词组的高维向量表示; 5) 通过 word2vec 计算微博文本的词向量表 示,若微博文本中的词组在 4)中存在,直接使用其 结果,否则,通过 word2vec 随机初始化; 6) 通过卷积与池化运算,捕获并筛选局部特 征,训练微博文本情感分类器,实现情感分析. 提出模型的两个主要构成,即 TRS-SAT 模型和 CNN 模型.
对于主模型,首先使用训练过大规模语料的 word2vec 计算词向量表示;然后计算文本相似度,结 合用户关联度构建 TRS-SAT 模型;再依据 TRS-SAT 模型增加标签作为 CNN 的输入,最后通过卷积与池 化,捕获并筛选局部特征,训练情感分类器. 在 CNN 部分,使用 Adadelta 算法实现学习率的自动更新,反 向传播算法训练模型,随机梯度下降算法求解模型. 其参数选取是在小批量数据集上交叉验证后确定 的,实验参数具体设置见表 4. 对于 SS-SVM 模型与 SVM 模型中所用到的支 持向量机模型,设置类型为 C-SVC,核函数选择 RBF 核函数,参数 c 和 g 通过交叉验证(cross-validation) 和网格搜索(grid-search)得到最优,其中 c = 1,g = 0. 005.
由表 5 可知,随着 CNN 模型、社交关系、社交强 度对模型的不断改进,模型的分类准确率逐步提高. 将本文提出的 SA-SRS-CNN 模型与 SS-SVM 模型对 比,情感分析的准确率、召回率、F 值分别相对提升 11. 40% 、5. 90% 、8. 65% ;与 CNN 模型相比,分别相 对提升 4. 12% 、4. 17% 、4. 14% ;结合 WS-CNN 模型 可知,其中改进的用户关联度分别贡献 3. 02% 、 2. 94% 、2. 97% . 在基于社交理论的 UR-S 模型的基 础上,引入用户属性和文本相似度将 0 - 1 分布的用 户关系转化为量化的文本关系;构建的 TRS-SAT 模 型,通过用户关联度和文本相似度同时保证标签添加 的效率和准确度,为 SA-SRS-CNN 模型的半监督提供 基础,实现标签增加提升情感分析的准确率与效率. 对比 SS-SVM 模型与 SVM 模型,情感分析准确 率、召回率、F 值分别提升相对值 7. 16% 、4. 16% 、 5. 72% . 进一步证明 TRS-SAT 模型通过社交关系、 文本相似度和用户属性增加标签,能够提升情感分 类器性能,优化情感分析效果,具有普遍适用性. 综上可得出结论,本文提出的 SA-SRS-CNN 模 型通过用户关联度、文本相似度实现半监督对微博 情感分析改善效果显著;利用词向量计算文本的语 义特征,利用卷积神经网络挖掘特征集合与情感标 签间的深层次关联,能够提升情感分类器性能. 由此 可见,该对比实验充分验证本文提出的 SA-SRS CNN 模型有良好的性能.
3 结 论
为解决监督学习大量的标签获得困难和社交媒 体短文本具有的词汇稀疏性、语法随意性、热词性导 致的问题,本文基于用户社交关系、用户背景属性、 文本相似度构建 TRS-SAT 模型,并结合 CNN 模型, 构建 SA-SRS-CNN 模型. 本文充分利用社交网络,建 立用户关联度模型和基于用户关联度模型的文本关 系模型增加标签数量,结合 CNN 实现半监督的深度 学习. 通过对比实验将本文提出的 SA-SRS-CNN 模 型与 SS-SVM 模型进行对比,情感分析准确率、召回 率、F 值分别提升 0. 077 3、0. 042 6、0. 060 5,相对提 升 11. 40% 、5. 90% 、8. 65% .
该模型有助于提升情感分析准确率可归结为以下 3 点:1) 基于社会学理论,充分挖掘社交网络的 隐含关系,通过社交关系添加标签数量,使得大量的 无标签文本得以利用;2) 在社交关系基础上,通过 文本相似度进行补充校正,进一步提高标签添加的 准确率;3)基于深度学习,通过 CNN 算法,实现对文 本语义和标签联系的深层次挖掘,解决短文本自身 特点导致的问题. 因此,与 SS-SVM 模型和 CNN 模 型相比,本文提出的基于用户关联度的半监督情感 分析模型不仅提高情感分析准确率,改善社交媒体 短文本的情感分析性能,也证明了深度学习和社交 网络相结合的方法在未来自然语言处理领域的可行 性与重要价值. 同时,本文提出的 SA-SRS-CNN 模型 也存在一些不足:1)建立用户关联度模型需要大量 的用户关系数据,在一些用户关系不易获取或者用 户间关系较少的情况下,用户关联度矩阵 A 过于稀 疏,能够添加标签数目较少,并且增加了计算复杂 度;2)越来越多的用户在发表评论时使用颜文字等 由符号构成的表情传递情感,本文提出的 SA-SRS CNN 模型并未对这类表情进行处理,忽视了部分情 感信息。

相关文章:面向作者消歧和合作预测领域的作者相似度算法述评