推理和社交媒体毕业论文题目范文推理和社交媒体方面毕业论文格式模板范文2万字有关写作资料-论文写作网

推理和社交媒体论文范文

《社交媒体知识图谱构建和知识推理的关键技术》

该文是关于推理和社交媒体相关毕业论文格式模板范文与社交媒体类毕业论文格式模板范文.

摘要：随着社交媒体的发展,网络平台的言论逐渐趋于个体化,因此准确识别一个人对某话题的言论是否有夸大或偏激的成分便显得尤为重要.传统的社交媒体情感分析依靠词袋模型来表现言论积极或消极的态度,这样的方法往往会因每个人的用词习惯的不同而变得有失偏颇.对某人话语是否偏激的推理主要依靠对每个个体长期以来的用词习惯来进行判断.因此,本文提出了基于知识图谱和PageRank联合的偏颇性预测模型,为每个词定义了偏颇性分数,对判断言论是否存在一定的水分提供了重要依据.实验结果表明,文本的偏颇性得分在一定程度上确实可以判断用户的语言表达偏颇情况.

关键词：知识图谱PageRank偏颇性分析情感推理

1.引言：

相对于电视广播、纸质报刊这类传统媒体来说,互联网无论从影响力还是舆论动员力方面都比传统媒体更加有力,然而社交媒体上的言论往往因为其庞大的信息量以及用户言论的片面性使得信息的水分过高,因此需要良好的识别系统来加以判定和筛选.而知识图谱在自然语言处理方面的角色更像是一个数据库,提供着记忆信息、提供信息的功能.构建完善的知识图谱有利于发现词与词之间人们有时意识不到的数值关系,从而在自然语言处理中发挥重要作用.本次实验就是围绕知识图谱的构建方法开始的.

2.相关研究

从技术层面来看,知识图谱构建技术在本质上要解决的问题是数据之间潜在关系的预测和知识之间关系推理.学术组织很早就关注了知识图谱相关技术的研究.1989年,第一届国际知识表示和推理国际会议（The First International Conference on Principles of Knowledge Representation and Reasoning）的召开,推动了知识表示和推理理论和技术的研究.2012年,谷歌公司发布了基于语义搜索的项目Knowledge Graph,使得万维网由基于数据链接的网络逐步进化为链接知识的网络.

知识图谱推理是根据已知的实体之间关系推测实体之间的潜在关系,从而给知识图谱增加新的事实.PageRank是一种基于图模型的结点重要性排序方法,通常在搜索引擎中对网页链接的重要性权衡中发挥着很大的作用.本文将使用PageRank算法的变形对生成的知识图谱进行知识推理,并尝试用推理后构建出的图谱来预测文本的情感特征,检验推理图谱的可靠性.

情感分析的方法主要可分为基于情感词典的情感分析方法和基于机器学习的情感分析方法.基于情感词典的情感分析是从待测文本中提取特征词后,在情感词典中查找该特征词的情感值,根据累加的情感值进行情感分类的方法[2].在情感词典的选择上,一般有两种方式：一种是引用已有的情感词典,如HowNet词典、SentiWordNet、Inquirers等;另一种是通过研究数据自行构建词典,如R.Feldman等学者在已有的情感词典基础上,利用部分人工标注和Bootstrapping的方式提取情感词[1].由于美国最早的社交媒体情感分析就是基于Twitter的社交媒体数据开展的,因此本文将采用针对Twitter平台已有的且准确率较高的情感分析词典SentiWordNet进行知识推理和话语的偏颇性判别.

3.正文

3.1实验准备

3.1.1实验数据集

本实验采用情感词典SentiWordNet_3.0.0来进行文本中词语积极性和消极性的匹配和提取,应用于Twitter用户名为METGALA、archie、best dressed三人的推文中来生成用户主体依赖的知识图谱.

下载链接：

推文：https：//download.csdn.net/download/zzhaier/6640081

情感词典：https：//download.csdn.net/download/zzhaier/6640081

3.1.2评价标准

由于句子的情感表述无法通过准确率召回率等指标进行定量衡量,因此我们对最终的结果进行了人工评价,具体例子可以在3.2.3的部分看到.

3.2实验过程

本篇文章大体步骤可分为三个部分,首先依据情感词典和Twitter中用戶的话语来构建词与词之间的情感关系,生成一个两种极性词语全连接的庞大的双向图网络.其次改进PageRank算法利用词之间的双向关系计算每个词正向和逆向的偏颇值,给每个结点重新赋值.最后用新的推理图谱,以词语偏颇性代数和的结果判断话语是否偏颇或过激.

3.2.1知识图谱构建

现代知识图谱通常使用W3C Resource Description Framework（RDF）[Cyganiak et al.,2014]这一用于存储实体及其关系的基于图的数据模型,标准RDF以三元组（subject,predicate,object）（SPO）来表示事实.在本篇论文中,我们将predicate视作一种相关性的表示,这种相关性用权重值Weight来表示,Weight的值越大,subject与object的情感对立性越强,反之则越弱,最终用三元组（subject,Weight,object）来表示.假设我们用符号L表示某一篇推文,li表示隶属于L的每一个句子,对于句中任意的两个词Si和Ti,他们之间的Weight计算公式可如下表示：

其中,若Si与Ti同为积极性词或同为消极性词,则二者之间的Weight将较小,即对立性弱,反之若Si和Ti为不同类情感,则二者Weight较大,对立性强.

依照用户话语生成用三元组表示的图模型,用所有Weight的平均值为界限,将值较大的表示为红色,较小的表示为绿色,线条越粗表示距均值越远,用可视化图片表示出来如下：

以使用频率较高的love一词举例,该用户使用的与love对立性最强的词是never,最弱的词（也是情感较为相近的词）是honored.

3.2.2知识推理

目前,我们已经生成了一个词汇网络,下一步就是给每个节点的词重新赋值.首先我们以Weight的均值为中心点对Weight进行了数据规约.而后,根据PageRank的图理论原理,我们对每个结点的值采用如下计算方法：

其中,Bu表示所有结点的集合,w+（i,j）和w-（i,j）分别表示连接到结点i的所有正Weight值和负Weight值,W+（j）和W-（j）分别表示与结点i相连的每个结点j的正Weight值之和及负Weight值之和.PR+（u）和PR-（u）分别代表与结点i相连的每个结点j的正Weight加权出度值之和与负加权出度值之和.为了更方便描述,以下图为例,假设图结构中只有四个结点A,B,C,D,则PR（A）、PR（B）、PR（C）、PR（D）计算方法如下：

PR（A）等于0–[W2/（W2+W3）+W1/W1]

PR（B）等于[W4/W4+W5/W5]-W1/（W1+W2）

PR（C）等于W4/（W4+W5）-[W2/（W1+W2）+W3/W3]

PR（D）等于W3/（W2+W3）-W5/（W4+W5）

这里如果假设W2的值较高,即A点和C点在情感得分方面有着很强的关联性,则PR（A）和PR（C）的值将会变小,同时,与C存在对立关系的B点的PR（B）将会变大,也就是说,两个同为积极情感的词若总是同时出现,则该用户平时的推文表现应为平和正面的,而语句中一旦出现与其相反的消极词汇,该模型将会指出这条语句的偏颇性较大,且偏颇值会随着消极词汇的增多而增大;但等到该用户频繁使用消极词汇时,偏颇性又会减小.这与我们预想的效果基本一致.

3.2.3话语偏颇性判定

由于知识图谱是根据某个人长期以来的话语文本和用词习惯创建而来的,因此,在运用时,可作为这个特定的Twitter用户话语偏颇性的重要评判依据,为了检验此知识推理的效果,在生成的知识图谱中查找句中每个特征词的偏颇性分值,根据累加进行有无偏颇的判断,公式如下：

由于句子的偏颇性都是相对而言的,单独计算出的Bia值在判断是否过激的层面上没有意义,因此待每句话都算出各自的Bia之后,对所有的值进行向0-1之间的归一化映射,便于我们查看和评判.

实验效果如下表所示：

可以看出,第一句话为积极话语,第二句话为消极话语,情感值反差较大,但偏颇值相似,第三句话由于all单词的情感词积极性值过高,其他词语全部中立,因此情感值较高,但经过偏颇性评价,偏颇值大于0.5,发现此话语异常于平时的表达方式,在此判别为过激语句,经过仔细的人工分析其情感,发现也基本符合判断.

但同时与人工评价相比对,该模型评价偏颇话语的错误率也达到了48%,仅仅比随机预测效果好一点有限.

4.结论

本篇文章中设计了一个针对Twitter用户的知识图谱,该图是一个带权无向图,其权重是根据用户话语的情感词的值之差计算得到的.而后将此无向图视做一个双向图,我们设计了一个由PageRank改进来的结点值的静态计算方法来定义结点词语的偏颇性.最后为了检验我们的设想是否合理,运用数据集中未加入训练的10%的数据挑选进行测试,证明了我们的研究是有一定意义的.

5.思考和展望

知识图谱的构建技术是人工智能研究领域的一个前沿课题,此课题以知识工程、社交网络、机器学习等领域的关键技术为支撑,这些领域涌现出的最新研究成果为知识图谱的研究提供了新的研究思路和方法.本篇文章用于构建知识图谱的数据量相对而言也非常小,实体关系刻画也較为简单,还尚不足以发挥知识图谱的强大作用.情感分析中评价言论是否过激这一方面由于实际上因人而异.很难统一用一套标准来衡量所有人的过激言论,因此这一方面仍存在着可研究的地方,不排除需要培养机器“终身学习”的可能性,这将是存储资源飞速发展的时代带给人的新一种可能.

参考文献

[1] 易顺明,周洪斌,周国栋.Twitter推文与情感词典SentiWordNet匹配算法研究[J].南京师范大学学报（工程技术版）,2016,16（03）：41-47+53.

[2] 赵常煜,吴亚平,王继民.“一带一路”倡议下的Twitter文本主题挖掘和情感分析[J/OL].图书情报工作：1-9[2020-04-21]

[3] 平健舟.基于商业知识图谱的新闻舆情系统设计与实现[D].北京邮电大学,2019.

[4] Wei Chen,Xiao Zhang,Tengjiao Wang,等.Opinion-aware Knowledge Graph for Political Ideology Detection[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence.2017.

该文汇总,此文为一篇适合不知如何写社交媒体方面的推理和社交媒体专业大学硕士和本科毕业论文以及关于推理和社交媒体论文开题报告范文和相关职称论文写作参考文献资料.

推理和社交媒体引用文献: