基于知识库的的问答式系统的研究(二)
个基于定领域---体育领域(CBA)的问答系统。系统需要对用户提交给它的自然语言问句进行分析,理解用户问句,找出合理的特征及关键词并提交给后台,后台通过与互连网的连接、查找、处理,返回给用户相应的的答案。
问题分析、信息搜索和答案抽取是该系统的三个主要部分。对于问答系统来说,首先要多方位的、充分的、正确的理解用户提出的问题,明确用户的提问意图。故在本系统中,问题分析是一个重点。它包括:问题的分类、关系的确定、关键词的提取、关键词的扩展。问题分析之后,紧随其后的是信息的网络搜索。借助于网络搜索,可在网络中找出相关文档(我们使用互联网搜索引擎作为主要工具)。答案抽取部分是问答系统难度较大的一个模块,它返回的答案形式多样化给答案的归纳及抽取带来了不便。
本文通过对上述三个模块的研究,设计并实验了一个基于知识库的问答系统,并对该系统进行了一系列的测验。
1.4.2 该问答式系统研究目标
⊙研究基于Web的面向大规模真实网络文本的问答系统
⊙目前为受限的特定领域(体育领域)
1.4.3 研究该问答系统的意义
人们可以以自然语言的问句方式对该问答系统提问,把整个问题直接交给问答系统,该问答系统将转到自动分析用户的问句,结合自然语言处理技术及相关的语义关系网,进行问题的模式识别、转换,到常见问题知识库或者互联网中搜索相应的答案,再把答案返回给用户。这样用户就可以通过该问答系统方便地获得自己想要的信息。简而言之,问答系统就像一个知识渊博的专家,通过对问题理解,可以快速、准确、直接返回给用户想要的答案[8]。比如,用户提交一个问题“2005-2006赛季CBA的冠军是谁?”问答系统将会直接给出答案“广东队”。可以看出,问答系统要比传统的搜索引擎方便、快捷、高效。
各章节内容简介
第二章 相关技术简介;
第三章 详细介绍了系统的设计与实现方法;
第四章 介绍实验的结果,及对实验结果的分析;
第五章 系统的不足及今后方向.
第六章 结束语
相关技术介绍
为了实现本系统的功能,即基于知识库的的问答式系统(CBA方面),我们拟采取了以下辅助工具:
●具体的分析方法及关系模型,参照‘知网’(Hownet)[9]
●用可视化语言Visual Basic6.0进行编程
●采用了Microsoft Access数据库对数据进行存储
以下介绍相关技术。
有关知网的技术
知网(英文名称为Hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[9]。下面分别简述知网的研究特点及知网系统的概貌。
2.1.1 知网的哲学
知网系统的哲学也就是它对客观世界的认识与把握。知网的根本哲学点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现。试以人为例,人的生老病死是一生的主要状态。人的年龄(属性)一年比一年大{属性值},随着年龄的增长头发的颜色(属性)变为灰白{属性值}。另一方面,一个人随着年龄的增长他的性格(精神)变得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}。基于上述所述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。
特别要强调的是,部件和属性,这两个基本单位在知网的哲学体系中占有着重要的地位。关于对部件的认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体。门和窗是建筑物的部件;手和脚是动物的部件。但与此同时,一个建筑物又可能是一个社区的部件;一个人又可能是他所属的家庭或社会的部件。一切事物都可以分解为部件。空间可以分解为上下左右;时间可以分解为过去、现在和未来。没有一种事物只能是部件,而不能是整体;也没有一种事物只能是整体,而不会是部件。我们认为一个事物被视为是整体还是部件,可以因系统的不同而区别对待。关于部件在整体中的部位和它的功能,知网遵循这样一种认识:事物的部件在它整体中的部位和功能的描述大体上比照人体。例如:山头、山腰、山脚、桌腿、椅背、河口,建筑物的门和窗类似于人体的口和眼等等。汉语用拟人的手法来描述部件,别的语言也类似,这反映了人类认识事物方法的共性。
关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的,没有属性就没有事物。人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自然属性以及国籍、出身、职业、贫富等社会属性。在某些特定的情况下可以说属性比事物更重要,这一点在人们的日常生活的替代活动中可以得到体现。如:我们要把一个钉子钉到墙上,但没有锤子,我们可找锤子的替代物,那么什么是锤子的替代物呢?那应该是属性最接近锤子的属性的物品才可能是替代物,而这时重量和硬度是关键性的属性。属性和它的宿主之间的关系是固定的,这是说有什么样的宿主就有什么样的属性,反之亦然。属性与宿主之间的关系同部件与整体之间的关系是不同的。这也体现在知网在涉及属性的标注规范上,知网规定在标注属性时必须标注它可能的宿主的类型及它所指向的属性。
2.1.2 知网的特色
计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。
知网作为一个知识系统,名副其实是一个网而不是树。它要反映的是概念的共性和个性,例如:对于“教练”和“球员”,“人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性,那么“教练”的个性是他是“指导”的施事,而“球员”的个性是他是”受指导”的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则是它们的个性。同时知网还要着力反映概念之间和概念的属性之间的各种关系,知网描述了下列各种关系:
上下位关系 (由概念的主要特征体现)
同义关系(如“签约”,“合同”等)
反义关系(如“取胜”,“失误”等)
对义关系(如“指导”,“聘请”等)
部件-整体关系(如“心”,“CPU”等)
属性-宿主关系(如“颜色”,“速度”等)
(g) 材料-成品关系(如“布”,“面粉”等)
(h) 施事/经验者/关系主体-事件关系(如“医生”,“雇主”等)(i) 受事/内容/领属物等-事件关系(如“患者”,“雇员”等)(j) 工具-事件关系(如“手表”,“计算机”等)(k) 场所-事件关系(如“银行”,“医院”等)(l) 时间-事件关系(如“假日”,“孕期”等)(m) 值-属性关系(如“蓝”,“慢”等)(n) 实体-值关系(如“矮子”,“傻瓜”等)(o) 事件-角色关系(如“购物”,“盗墓”等)(p) 相关
基于知识库的的问答式系统的研究(二)由毕业论文网(www.huoyuandh.com)会员上传。