[拼音]:Hanyu shumian lijie xitong
[外文]:written Chinese understanding systems
指人和计算机之间用汉语书面对话的系统。这方面的研究起步较晚,20世纪70年代后期才开始。80年代初期取得成果,建立了几个实验模型。
中国科学院心理研究所和中国科学院北京自动化研究所合作,于1981年建成“机器理解汉语──实验 I”,这是一个人机问答系统,以动物常识为主题,贮存单词70余条,句型20多个,用汉语拼音输入输出。这个系统采用M.R.奎连1968年提出的“语义记忆”网络,加以修改,属于心理学模型。计算机能正确回答问题,并具有一定的推理能力。例如人问:“麻雀、燕子和鸵鸟都是鸟吗?”机答:“它们都是鸟。”人:“麻雀、燕子和鸵鸟都有翅膀吗?”机:“它们都有翅膀。”人:“它们都会飞吗?”机:“麻雀和燕子都会飞,鸵鸟不会飞。”人:“既然鸵鸟有翅膀,为什么它不会飞?”机:“虽然鸵鸟有翅膀,可是它的翅膀是退化的,没有飞的功能,所以不会飞。”
此后心理研究所从事计算机理解古汉语的研究,以“郑人买履”、“刻舟求剑”两个小故事进行实验,于1982年取得成功,称为“一个古汉语机器理解系统──ACLUS ”,能分析句法,把整篇故事译成现代汉语,并回答问题。例如人问:“‘先度其足’中的‘度’字是什么意思?”机答:“‘度’是动词,是测量某种东西的尺寸的意思。”人:“‘吾忘持度’中的‘度’字是什么意思?”机:“‘度’是名词, 是尺寸的意思。”还能区别同一代词所指的不同事物,例如“先度其足而置之其坐,至之市而忘操之”,计算机能理解首尾两个“之”字指的是“脚的尺寸”而不是“脚”。为扩大ACLUS 理解古汉语的功能,心理研究所近年来在修改和补充句法规则,特别对虚词的用法作了较详细的探索。
中国社会科学院语言研究所于1981年建成“RJD-80型汉语人机对话系统”(简称RJD-80),是人和计算机直接对话的一个问答系统。以中国文学作品常识为对话的主要内容,贮存单词250余条,句型30多个。人用键盘输入问题,计算机屏幕显示回答,随问随答,回答一个问题只需1~30秒,输入输出都采用汉语拼音。可查询25个作家的120多种作品,任何人无需学习计算机,只要懂汉语拼音,都能自由使用。
RJD-80属于语言学模型,着重应用现代语言学理论和方法,以N.乔姆斯基的生成语法和W.A.伍兹的ATN为基础,吸收C.菲尔莫尔的格语法、韩礼德系统语法的合理内核,根据汉语特点制定句法、语义规则。计算机具有句法分析、语义解释、知识检索、言谈分析、逻辑推理、根据语义成分生成语句和排除非法输入的功能。语句输入,计算机分析句法,屏幕显示深层结构表达式,语义规则根据深层结构作出语义解释,查询知识库求得答案输出。例如人问:“《茶馆》的作者是曹禺吗?”(输入不用标点,全凭句法形式判断)机答:“不是,是老舍。”(输出用标点)人:“曹禺有小说吗?”机:“没有。”人:“巴金有哪些著作?”机:“《家》、《春》、《秋》。”人:“《背影》是什么?”机:“散文,作者朱自清。” 按深层结构解释语义,可以对形式不同而语义相同的句子统一处理。例如“巴金有剧本吗?”,“巴金有没有剧本?”,“巴金有剧本没有?”3种不同句式的深层结构相同,语义相同,答案也相同。RJD-80具有一定的言谈分析(上下文关系)和逻辑推理的功能。例如人问:“你知道艾青吗?”机答:“不知道。”人:“他写过很多诗?”机:“ 哦,他是诗人。”人:“你还知道谁是诗人?”机:“郭沫若。”人:“他是剧作家,怎么又是诗人?”机:“他写过诗歌,又写过剧本,所以既是诗人,又是剧作家。”人:“老舍呢?”机:“老舍既是小说家,又是剧作家。”RJD-80还能输入某些语义成分,并指定某一成分做主语,令计算机造句输出。此外,凡输入句中有不符合贮存的词汇和句法、语义规则时,能加以排除,显示“词汇不合”、“句法不合”或“语义不合”。
1984 年语言研究所又完成“TK-84汉语人机对话实验”(简称TK-84),以铁路客运咨询为主题,贮存单词200余条,句型30多个。内容包括北京至东北某几条铁路线客运快车的到站、中途站、开点、到点、车次、车种、车组等,也是一个人机直接对话的问答系统。例如人问:“从北京到大连有特快吗?”机答:“没有特快,只有直快。”人:“有哪几次直快?”机:“101/104,129/132。”又如“153次经过唐山吗?”机:“153次走京坨线到沈阳,不经过唐山。”再如“开往沈阳的快车都有卧铺吗?”机:“11次没有卧铺,其他都有。”人:“11次为什么没有卧铺?”机:“11次8点从北京开,18点49分到沈阳,卧铺没有必要。”TK-84根据汉语特点,提出了一种新的句法、语义分析方法──“语义短语语法”。词和语义成分构成语义短语,如介词短语(PP)“从〈处所〉”表示起点,动词短语(VP)“到〈处所〉”表示去处,动词短语“有〈车种〉”表示存在某种车运行。〈 〉中是语义成分,内容由用户自行定义。设〈处所〉定义为“北京、沈阳、大连……”,〈车种〉定义为“特快、直快、快车……”,即可用于本系统。某些语义短语能组合成句,某些不能;短语组合又有不同序列,有的成句,有的不成句;成句的短语序列还往往不止一种,有的语义相同,有的不同,据此建立句法、语义规则。例如“从北京到大连有特快吗?”(PP+VP1+VP2),“从北京有特快到大连吗?”(PP+VP2+VP1),“有特快从北京到大连吗?”(VP2+PP+VP1),3种短语序列语义相同,计算机输出同一回答。TK-84对上下文中的省略句和输出回答时语句生成的规则也作了进一步探索,取得一定成效(见自然语言书面理解系统)。