引言
问答系统的产生
语言是人类思考问题和交流思想的工具,是思维表达的载体,人类百分之七十以上的信息是通过自然语言来传递的。因此,自然语言理所当然的成为人机交互语言的首选。
近年来,随着Internet在世界范围内得到了迅猛的发展,网络信息也随之急剧增加。对网上信息的存取、挖掘、检索、过滤等问题的探索及研究成为信息领域的热点,极大地推动了信息检索相关技术的发展。信息检索、搜索引擎(如Google、Baidu等)在很大程度上方便了人们对信息的快速查询,但是,如何在这些海量信息中快速、准确地找到所需要的信息似乎变得越来越困难。例如:网络信息过于复杂、繁冗,用户不能有效的识别、使用;计算机不能识别不同的日常术语,甚至给出与用户的问题根本无关的信息;计算机一般只能提供相关信息,给出最后答案的形式无法满足人们的需求。
传统的搜索引擎查询序列是一系列关键词的组合,而不是以自然语言的形式提供的,同时其返回的结果是与查询相关的网页的列表,用户必须自己从这些文档中找到相关的信息,占用了相当大的时间。为了达到合理地、科学地管理现有的信息资源,有效的利用信息资源并在最短的时间里提供给用户简洁而方便的信息,人们提出了问答式系统。
问答式系统,是指系统接受用户以自然语言形式描述的问题,并从大量异构资料中查找出能回答该问题的准确、简洁的答案的信息检索系统[1]。目前我们所熟悉的问答系统大致可以分三类:基于常问问题集的问答系统,基于百科知识的问答系统以及开放域的问答系统。基于常问问题集的问答系统又可以作为后两种问答系统的一个组成部分,如果用户的提问与以往的记录相符,可直接将对应的答案提交给用户,免去了重新组织答案的过程,可以提高系统的效率。
问答系统发展及现状
问答式系统的发展已有很长的历史了,早在60年代人工智能研究刚开始的时候,人们就提出了让计算机用自然语言来回答人们的问题,说的就是指自动问答系统。过去的一段时间里,我们所接触到的只是它的雏形---问题回答系统[2]。在这一研究方向上最早的尝试是1972年Winograd研制的SHRDLU系统,该系统可以简单的回答一些物理问题。
早期比较著名的问题回答系统包括Dyer的BORIS系统等。Lehnert[3]等人对自然语言问句的分类方面进行了有益的探索。早期的系统通常以手工编写的领域知识,用户经常询问的问题及一些报刊文章作为系统的基础,限于当时的技术条件,问题回答系统技术的研究在很长的一段时间里发展十分缓慢。诞生于1993年的START[4]系统是第一个面向互联网的自然语言问答系统(由麻省理工学院(MIT)开发,它从1993 年开始发布在Internet)。可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如:对于问题“What is the longest river in the world?”Start 将会回答“With a length of 4,180 miles, the Nile River is the longest river in the world。”另外还有一个比较成熟的问答系统Answer Bus 的网址是:Bus是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。在此背景下,问题回答系统逐渐演变成了问答系统。我们相信,在未来的时间里,它会进一步演变。
问答系统同时兼具了信息检索系统[5]和信息抽取系统[6]的优点。首先,它采用自然语言问句的方式与用户进行交互,这是广大的计算机用户所乐于接受的、最为简单直观的交互方式。同时,由于自然语言问句丰富的表现力,而使对问题的精确刻画成为可能。其次,它直接返回蕴含答案的文本片断,极大地提高了用户寻找答案的效率。第三,它易于实现,而且对应用领域没有十分苛刻的要求,因此,这种系统成为Internet信息搜索领域的一个非常引人注目的研究热点。但是它仍有一些不足之处:首先是采用自然语言问句的方式,这样虽然方便了用户的使用和操作,但汉语言本身的丰富性给此系统的实现带来了繁重的工作。其次是目标框架的建立。在对自然问句的处理的过程中,可提取的关键词是丰富的,因为不同的人有不同的提问方法,对应就要产生不同的关键词。因此系统要具备自学习能力,以丰富目标框架,增加寻找答案的正确率。
近几年,随着网络和信息技术的快速发展及人们想更快地获取信息的愿望,重新促进了自动问答技术的发展。最近有越来越多的的公司和科研院所参与了自动问答技术的研究。比如,微软和IBM等著名的跨国公司。在每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。越来越多的大学和科研机构参与了TREC 会议的Question Answering Track。在2000 年10 月召开的ACL2000 国际计算语言学学术会议上,有一个专题讨论会,题目是”Open-Domain Question Answering”。
国内也有一些高等院校及研究机构参与了自动问答技术的研究:中科院计算所、复旦大学、哈尔滨工业大学、香港科技大学等。但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。
问答系统问答原则
(1)允许用户输入自然语言问句
<1>符合人的习惯
<2>精确刻画信息需求
(2)系统直接返回答案或者蕴含答案的文本片断
<1>提高信息检索的效率
<2>精确度是问答式信息检索的首要指标
本文研究内容及方向
在本文,我们提出基于知识库的问答系统,可以理解它是上述三类问答系统的一种综合。
1.4.1 基于知识库的问答系统
所谓“基于知识库”问答式系统,是这样的一个系统:接受用户以自然语言形式描述的问题(例如:CBA代表什么意思?),通过模式匹配及关键词替换,然后把标准关键词提交给网络,查找网络上的信息并抽取相关信息,返回给用户准确、简洁的答案(例如:“中国篮球协会”或者:“Chinese Basketball Association”)。因此,知识库问答系统与根据关键词检索并返回相关文件集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。可以想象,经过几年的发展,基于知识库的问答系统可成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点[7]。
本系统是一