当前位置:论文写作 > 论文大全 > 文章内容

用于信息检索的贝叶斯网络模型扩展

主题:同义词 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-02-12

简介:关于本文可作为术语同义词方面的大学硕士与本科毕业论文术语同义词论文开题报告范文和职称论文论文写作参考文献下载。

术语同义词论文范文

同义词论文

目录

  1. 同义词:在线英语同义词词典 在线英语翻译 在线英语字典

摘 要:针对传统的信息检索方法采用基于关键词匹配的模式,导致查询效率低下的问题,利用同义词对查询术语进行扩展,提出了一种用于信息检索的贝叶斯网络模型扩展,并引入词共现的方法挖掘术语之间的相关关系.实验结果表明,新模型能够有效地提高检索效率.

关键词:贝叶斯网络;信息检索;同义词;词共现

中图分类号:TP391

同义词:在线英语同义词词典 在线英语翻译 在线英语字典

文献标识码:A

文章编号:1007-6921(2009)22-0090-02

贝叶斯网络检索模型可以计算术语与术语,术语与文档之间的条件概率,但是网络拓扑结构显得很复杂,没有层次性.文献1给出了一种贝叶斯网络检索模型,该模型提出了一种新的可以称为传播十估计的推理技术,能够提高一定的检索速率.为了更好地利用贝叶斯网络,利用同义词扩展查询术语,并引入词共现的方法对基本的贝叶斯网络检索模型进行扩展,有效地提高了检索效率.1 相关知识1.1 同义词介绍

同义词的概念并不等同于语言学和日常生活中的同义词,它不考虑感论文范文彩和语气,主要是指能够相互替换、表达相同或相近概念的词汇2.同义词能从概念语义上表达用户的查询意图,如“电脑”一“计算机”,“重构”一“重组”等.

由于自然语言中存在大量的同义词和近义词,用户检索时很难全部列举出表示同一概念的不同词汇,因而造成了检索效率低下.为此,引入同义词扩展查询,可以检索到更多的文档.1.2词共现方法

在信息检索中,如果两个词经常共同出现在文档的同一窗口单元(如章、节、段),就认为两个词在意义上是相互关联的,并且共现的概率越高,其相互关联越紧密3.一般情况下,选择整篇文档作为窗口单元.

这里采用的词共现方法是基于统计学的理论,在文档经过处理后,用公式(1)计算文档中任意两个术语和之间的相关系数.2 用于信息检索的贝叶斯网络模型扩展2.1 模型的网络拓扑结构

文档集合d表示为d等于{d.,d.,等,d.);这些文档的索引术语集合t表示为t等于{t.,t 2,等,t.).图1给出了贝叶斯网络模型扩展的拓扑结构,其中q被定义为查询术语节点,d.定义为文档节点,t,定义为索引术语节点,t,有一条指向被它索引的文档dk的弧.采用两个术语层来挖掘文档索引术语之间的关系,完全复制初始术语节点层t,得到另一个术语节点层tf一(t&,acute,l,t2,等,tm).

对于查询术语q,在索引术语层t’查找它的同义词t,,,则从q到t 7,有一条弧;从t 7.指向t,的弧,就是从t,.∈R(t.)指向ti,其中总有从t’,指向t,的弧,R(t.)是在一定衡量方法下与t,最相关的术语集合.2.2 同义词的获取

在贝叶斯网络模型扩展中,每个查询术语的同义词都用来扩展查询,即如果从查询术语节点q有一条指向术语节点ti的弧,则表示t’.是查询术语q的同义词.对每个查询术语q,通过同义词词典的方法找出其同义词,并存入集合R(q)中.2.3 术语之间关系的挖掘

与t,最相关的术语集合R(t,)用词共现方法来确定,因为术语t,和t.的相关系数与它们在文档中的权重有密切的联系,所以对公式(1)进行改进:2.4推理和检索

确定贝叶斯网络的拓扑结构后,计算每个层次节点之间的条件概率.2.4.1对索引术语节点t,,要计算条件概率P(t,+lpa(t,)),pa (tj)为节点t,父节点集合Pa(t,)的值的任意组合,根据文献[4][5]中的概率函数可以得到:

其中函数gi定义为:如果术语t 7 i包含在R(q)中,则gi(R(q))一1.2.4.1.2 Pa(t,)中可能包含术语‘j的相关词,Wij的计算方法如下:

其中a是参数,满足O<,a<,l,用来控制考虑术语之间的相关关系对tj的相关概率的影响程度.2.4.1.3术语ti的同义词或者相关词有可能是同一个术语,那么采用加权求均值的方法计算.2.4.2索引术语和文档之间的条件概率计算:3 实验结果与分析

实验所用的文档来源于中国学术期刊网全文数据库,从该数据库中下载了300篇文档作为测试集合,经过处理后得到437个代表文档主要内容特征的索引术语,并针对这些文档构造了3个查询.在以上实验数据的基础上做基于贝叶斯网络模型的信息检索,表1中列出了采用不同方法得到的检索结果.’ 方法1是基本贝叶斯网络模型的检索方法,方法2是基于查询扩展的贝叶斯网络模型的检索方法,方法3为本文设计的贝叶斯网络扩展模型的检索方法,当参数a的取值为b.6时可以得到比较理想的检索效果.

从表1可以看出,采用基于扩展的贝叶斯网络模型的方法都要优于方法1;方法2仅从单一的查询扩展方面考虑,导致查准率不高;方法3要优于方法2,因为在查询扩展的基础上,又考虑了术语之间的相关关系,所以本文设计的检索策略能够达到更好的检索效果.

总结:本文是一篇关于术语同义词论文范文,可作为相关选题参考,和写作参考文献。

同义词引用文献:

[1] 古汉语和同义词函授毕业论文范文 关于古汉语和同义词相关自考毕业论文范文10000字
[2] 用同义词来代替可否躲过查重
[3] 同义词的替换会降低论文的查重率
《用于信息检索的贝叶斯网络模型扩展》word下载【免费】
同义词相关论文范文资料
热门术语同义词相关频道