当前位置:论文写作 > 毕业论文范文 > 文章内容

建立计算机知识点检索模型语义自动识别的相关——关于“人民金典”语义自动识别

主题:信息检索知识点 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-02-03

简介:关于本文可作为相关专业检索知识点论文写作研究的大学硕士与本科毕业论文检索知识点论文开题报告范文和职称论文参考文献资料。

检索知识点论文范文

信息检索知识点论文

目录

  1. 信息检索知识点:2015年考研华南师范大学《829信息检索》Q1588-0364命题规律分析及常考知识点精讲第0

文/沈水荣

让计算机自动识别语义,是国内外专家都在不断研究和探索的难点课题.近三年多来,人民出版社在承建“中国论文范文思想理论资源数据库”的过程中,自主研发出了“人民金典语义查询”、 “人民金典概念关联”、 “人民金典模糊找句”等计算机知识点检索系统.这些系统在“人民出版社”网上经过一年多时间的运行,证明其知识点检索的语义准确率均达到了70%以上,其中“人民金典语义查询”系统的准确率达到95%以上.上述系统的常用用户已达到1万余人.该系列产品的基本做法,就是模拟人脑探索未知的思维过程,把传统文献编目的方法引入计算机检索,建立知识点检索模型,实现检索结果的去粗取精、去伪存真.

采用此种标引方法,其意义还在于其标引结果可以为自动标引积累大量的语料库,用来建模和测试,使计算机通过“学习训练”不断提高语义自动识别的准确率.在全社会普遍推广使用,可能是实现完全意义上计算机语义自动识别的必经之路.把文献编目方法引入计算机知识点

检索的必要性和基本构想

计算机知识点检索即按知识点对文献内容进行的检索,是实现计算机语义自动识别的途径和方法.它有别于计算机全文检索和一般的关键词、字符串检索.知识点是指任何单独存在的~项知识,它在文字作品中,是使用字、词、句子、段落、公式、定律、篇章、书集等语言单位表达出来的一种完整意思.知识点是知识的一种计量单位,也是知识存在的一种形式,通过计算机检索进行语义自动识别,需要借助知识点这一知识的单位和形式.随着计算机检索技术应用的普及和发展,人们正在越来越多地按知识点检索和运用知识, “知识点”这个概念日益被广泛使用.

但是,从目前网上的语义搜索以及各种检索系统来看,知识点检索的准确率和有效性还比较低.对此,多年来业界虽有种种解决方案,但效果都不够理想.主要问题:一是“错”,用户查到的语段(构成语言的文字段落)与检索的关键词对不上号.二是“多”,查到的结果条数太多.三是“乱”,查询结果没有排序,难以从中得到需要的信息.因此,目前的计算机检索,与真正意义上的知识点检索和语义自动识别,还有很大距离.

解决这一问题,我们采用的方法是:通过设定相应的标准和规则,让计算机对检索到的知识点进行自动分类,并在屏幕上按一定次序列出相应目录,供用户选择,直到查到所需知识点.建立模拟人脑思维过程的计算机知

识点编目和检索模型

此文分思维模型、检索模型、标引模型三方面阐述,其中思维模型是依据,检索模型是核心,标引模型是实现途径.

人脑探索未知的思维过程.计算机知识点检索的模拟对象,是人脑探索未知的思维过程.

人脑探索未知的基本思维模式.人脑探索未知的思维过程有三个要素构成,即:思考出发点,即“问题”;思索范围,即思索涉及的事物;思索结果,即“答案”.

由于人脑思考问题是一个运用概念的过程,因此上述三要素之间的关系表现为不同概念之间的各种逻辑联系.

我们把上述由概念之间的逻辑联系连接起来的思考出发点、思索范围和思索结果“三要素”,称为人脑探索未知的基本思维模型.

人脑探索未知的具体思维模型.由于人脑思考问题的进入角度及路径不同,会带来三要素之间的概念关系不同,因而形成以下三种具体思维模型:

思维模型1:从大概念中寻找小概念.

人脑探索未知实际上是一个从外延较大的概念中寻找外延较小概念的过程.在此把任何一个事物看作是按属种关系排列起来的树状结构中的一个节点,人们从一个较大概念出发,在它所属的具体概念的种类中,经过比较,挑选出符合需要的那些,就找到了答案.

举例:人们思索“发展生产力的动力是什么”这个问题,总是要把“发展生产力”作为上位概念(大概念),由此进入去寻找它的下位概念(小概念) “动力”.开始会发现对推动生产力发展可以起到或似乎可以起到作用的许多事物,经比较筛选,从中发现下列事物真正能够对发展生产力产生作用,可以构成“动力”这个下位概念:人的因素、体制因素、科技因素、方法因素等.至此就找到了问题的答案.

其中构成三要素的概念: “发展生产力”是构成思考出发点的概念;“对推动生产力发展可以起到或似乎可以起到作用的许多事物”,是构成思索范围的概念; “人的因素、体制因素、科技因素、方法因素”等,是构成思索结果的概念.

思维模型2:寻找一个概念与其它概念之间的关联.

人脑思考问题实际上是在寻找一个概念与其它概念之间的关联.在此把任何一个知识点看作是由不同概念之间的特定联系构成的,人们从一个概念出发,找到了与之相关联的其它概念,并弄清了它们之间的必然联系,这时头脑中的问题也就考虑清楚了.

举例:人们思索“发展生产力的动力是什么”这个问题,不是单纯从“发展生产力”这个概念自身去认知,而总是先要找到与“发展生产力”相关或似乎相关的许多外部概念,如,人民群众、改革开放、××××、科学技术、 ××××、××××、经济发展方式等等,然后经比较,发现其中“人民群众、改革开放、科学技术、经济发展方式”等这些概念对于“发展生产力”有必然联系,这些要素构成了发展生产力的动力.这时答案也就清楚了.

其中构成三要素的概念: “发展生产力”是构成思考出发点的概念;与“发展生产力”相关或似乎相关的许多外部概念,是构成思索范围的概念; “人民群众、改革开放、科学技术、经济发展方式”等,是构成思索结果的概念.

思维模型3:寻找按一定思维规则关联起来的一组概念.

人脑思考问题实际上是在按照回答某一问题的需要寻找一组相互联系的概念.在此把任何一个问题答案即知识点,看作是由一系列按一定逻辑联系连接起来的概念所构成的,人们思考问时,首先往往是初选若干个概念,试探着按各种逻辑联系去构建所要的答案即知识点.在此过程中不断对采用的概念作出调整,最后达到符合实际和需要的状态,也就找到了问题的答案.

举例:人们思索“发展生产力的动力是什么”这个问题,就会从“人民群众劳动创造、××××、实行改革开放、××××、科学技术创新、转变经济发展方式、××××” 等这些初步判断的概念进入,依据一定的标准对这些概念作出增减、修正,形成若干不同组合,然后对这些组合进行比较排选,最后判断出“人民群众劳动创造、实行改革开放、科学技术创新、转变发展方式等”这一组合可以构成发展生产力的动力,这时思考有了结果.

其中构成三要素的概念: “人民群众劳动创造、××××、实行改革开放、××××、技术发展创新、转变经济发展方式、××××” 等,是构成思考出发点的概念; “若干个不同组合”,是构成思索范围的概念; “人民群众劳动创造、实行改革开放、科学技术发展、科学的发展方式”等,是构成思索结果的概念.

计算机知识点检索模型.把人脑探索未知的思维模型体现到计算机知识点检索系统中,就形成了计算机知识点检索模型.它包括以下检索基本模型和具体模型.

计算机知识点检索基本模型.与思维基本模型三要素相对应,形成了检索模型的三要素:与思索出发点相对应的检索词;与思索范围相对应的检索目录;与思索结果相对应的检索结果.我们把按一定思维规则联系的这三要素称为检索基本模型.

计算机知识点检索具体模型.依据检索基本模型三要素概念之间的关系不同,与三种具体思维模型相对应,可建立三种检索的具体模型:

检索模型1:从大概念中检索小概念.

其构思:用户检索时,当输入一个较大概念的检索词,检索到众多知识点后,计算机就会自动按不同主题对这些知识点进行分类,并将其类目排列出来作为选项,即检索目录,供用户选择点击,查阅所需.

依照这个构思,其目录为“主题词目录”,即:检索词与目录之间为上位词与下位词的关系,检索词修饰目录词能够概括相对应的检索到的知识点,成为这个知识点的主题.

示意: (A与ala2a3a4a5 - - - - -为上位词与下位词的关系)

检索词:A

目录:al a2 a3 a4 a5等(al为被点击的选项)

检索结果: “A的al”为主题的语段“A的al”为主题的语段

检索模型2:检索一个概念与其他概念之间的关联.

其构思:用户检索时,当输入一个检索词后,就会检索到一定数量的知识点,这些知识点由这个概念与其它概念以一定逻辑联系所构成.这时这个概念就会与其它概念分别形成一对对组合,作为目录自动显现于屏幕,并按一定次序排列成目,用户选择点击,检索到相应知识点.在该系统中,检索词、目录词都不是知识点的主题,而是知识点的“两端”,两者之间相联系共同构成知识点.

依照这一构思,其目录为“关联词目录”,即:检索词与其他概念之间为概念连带关系,两者共同构成目录词.

示意:(“A”与“B” “C” “D” “E” “F” “G”为连带关系)

检索词:A

目录:A与BA与CA与DA与EA与FA与G等(A+B为被点击的选项)

检索结果: “A与B的联系”为主题的语段

“A与B的联系”为主题的语段

检索模型3:检索按一定思维逻辑关联起来的一组概念.

其构思:用户检索时,先采用若干检索词输入不同检索框,这时屏幕上会排列显示出符合这些条件的知识点语段;同时,还会列出少于输入检索词和多于输入检索词的两组组合式目录.当检索结果太少时,可通过点击前者减少增加查询结果;反之亦然.如此调整检索词,查到需要的知识点.

依据这一构思,检索词与目录之间为要素增减关系,目录为“组合加减词目录”.

示意:

检索词:ABC

减词目录:ABC-C ABC-B ABC-A(ABC-C为被点击的选项)

加词目录:ABC+D ABC+E ABC+F 等

检索结果:含有“ABC-C”要素的语段

含有“ABC-C”要素的语段

知识点标引模型

知识点标引基本模型.标引也有三要素,它包括:与检索词相对应的范围词,与目录词相对应的定点词,与检索结果相对应的知识点.我们把上述相互关联的范围词、定点词和目录词三要素的标引,称为标引基本模型.

知识点标引具体模型.根据标引基本模型三要素之间的关系不同,可建立与三种检索具体模型相对应的三种具体标引模型:

标引模型1:偏正结构模型.

这是与“检索模型1:从大概念中检索小概念”相对应的一种标引模型.范围词与定点词之间为属种关系,范围词后加定点词正好构成一个偏正词组,成为该知识点的主题.

标引模型2:连带结构模型.

这是与“检索模型2:检索一个概念与其他概念之间的关联”相对应的标引模型.范围词与定点词之间为概念连带关系,两者分别为知识点的两端,相互结合构成知识点.

标引模型3:组合词组加减结构模型.

这是与“检索模型3:检索按一定思维逻辑关联起来的一组概念”相对应的标引模型.范围词、定点词两个组合之间为加减关系,也就是定点词是构成要素多于范围词的组合,或少于范围词的组合,两者分别反映着它们所构成的知识点内涵的不同.

标引工作就是要按照上述三种模式的不同实现要求,采用不同的方法和手段,进行知识点切分,并一一标注出它们的范围词、定点词.

应用实例

应用实例一: “人民金典语义查询”系统.该系统按“检索模型1”创建,检索方式为“从大概念中检索小概念”.以16个固定的目录词为鲜明特色.目前已实现对论文范文、论文范文、论文范文著作和讲话7万多个知识点的语义查询.其查询准确率可达到95%以上.

应用实例二: “人民经典概念关联”系统.该系统按“检索模型2”创建,检索方式为“检索一个概念与其他概念之间的关联”.目前已实现对马列著作、领袖著作和论文范文文件文献1000万个知识点的查询,准确率可达70%以上.

应用实例三: “人民金典模糊找句”系统.该系统按“检索模型3”创建,检索方式为“检索按一定思维逻辑关联起来的一组概念”.近期将实现对马列著作、领袖著作和论文范文文件文献800多万个知识点的查询,准确率可达70%以上.计算机知识点检索理论和实践的

主要创新点

创新点一:首次将传统文献编目方法引入计算机知识点编目.成功创建了由上位词与下位词共同展现知识点的主题词目录、由检索词与相关词共同展现知识点的连带词目录、由可调式组合词组展现知识点的加减词目录,大幅度提高了语义自动识别准确率.这是文献编目上的革命性进步,也是计算机知识点检索的重大创新.

信息检索知识点:2015年考研华南师范大学《829信息检索》Q1588-0364命题规律分析及常考知识点精讲第0

创新点二:首次提出和创建了模拟人脑思维过程的计算机知识点检索模型.在总结几十年研究工作实践经验,概括出人脑探索未知思维模型的基础上,构建了知识点检索的基本模型和具体模型.同时,巧妙地采取一系列规则和方法,建立起了相应的标引基本模型和具体模型,使检索模型得以成功实现.

创新点三:创建“中国论文范文思想理论专题词库”.这是一个专家知识系统.该词库首先利用有关软件对有代表性的200多种著作文献,进行自动分词和词组抽取处理.在此基础上,请若干几十年从事政治理论工作的专门人员,分析用词需求,提出和采用了“必用词”、 “或用词”、“不用词”等概念及相应界定标准,按照采用“必用”、弱化“或用词”、排除“不用词”的规则,逐个词组进行修改、补充、删减,使收入词组达到与用户查询用语高度一致.还建立了词与词之间的同义、近义等关联.词库已收入词组50万条.

创新点四:设定“人民金典语义查询”系统的16个固定词组作为目录.这也是一个专家知识系统.它包括前7个和后9个两组.前7个表示事物的性质状态,其中“状态情况、时地数序”表示外部情况, “概念内容、本质要义”表示内部状态, “意义作用、影响使然”与“依从由来”侧重从相互关系和作用上反映了事物的状况;后9个表示文章的各种表达形式.这套目录词比较成功地模拟出了人脑认知事物的思维活动状态,是一张有机联系的“思维网”.它较好地体现了文章(起码是论理性文章)知识点切分的内在逻辑,既有比较全面的语义概括性和覆盖性,又保持了每个词组之间的相互独立性和关联性,并做到准确、通俗,符合词典释义和人们用语习惯,被称为能够查出文章语义的“五笔字型输入法”.三年多来,我们征求了100多位专家学者和机关文字工作者的意见,经过了7万多个知识点的标注和查询,实践证明是可行的.

创新点五:创建“句内概念关联自动判定规则”.这是为“人民经典概念关联”系统制定的标引规则.按照此规则标引:假如两个概念存在于按一定标准切分的一个语段内,同时排除某些例外情况后,可定义这两个概念存在关联.这一规则,是切分知识点的依据,是“检索一个概念与其他概念关联”这一检索模式得以实现和成立的客观根据.实现该规则的难点是,一个语段中两个以上概念排除哪些情况后可定义为关联.我们请若干名知深专家,在分析大量各种类型文字作品之后,才做出一系列这方面的界定.这也是一个专家知识系统.运行结果表明,这套规则是可靠的.

(作者单位:人民出版社)

总结:关于免费检索知识点论文范文在这里免费下载与阅读,为您的检索知识点相关论文写作提供资料。

信息检索知识点引用文献:

[1] 关于计算机信息检索的论文选题 计算机信息检索毕业论文题目怎样定
[2] 信息检索论文选题范文 信息检索毕业论文题目怎么定
[3] 计算机信息检索论文参考文献推荐 计算机信息检索参考文献有哪些
《建立计算机知识点检索模型语义自动识别的相关——关于“人民金典”语义自动识别》word下载【免费】
信息检索知识点相关论文范文资料