伊人三级在线视频_ -|五儁├冷水江安监局
淘宝减肥药排行榜十强
只推淘宝安全有效的减肥药

当前位置:伊人三级在线视频 > 减肥产品

伊人三级在线视频

时间:2020-09-28 04:36  编辑:绵竹饭店

伊人三级在线视频

计算机时代2006年第2期

0引言

中文文本中心句和关键词识别在中文自然语言处理中处于一个很重要的地位,尤其在自动问答系统中它扮演着关键角色。问答系统集知识表示、信息检索、自然语言处理于一体,目前正在成为国际研究的一个新热点。自从TR EC (文本检索会议,Text R et r i eval C onf er ence)在1999年第8次会议上引入了对问答系统的评测后,人们对基于自然语言的问答系统产生了浓厚的兴趣。在2001年和2002年的TR EC 上,问答系统是最受关注的项目之一。

目前国外的问答系统比较成熟的代表有M i t 的St ar t 系统和A nsw er B us 系统[1];在国内,由于中文自然语言处理领域中对中文的全面理解还没有得到很好的解决,因此自动问答系统还刚刚开始起步。

受限领域问答系统[2]作为自动问答系统中的热门分支领域,通常只针对特定的领域知识,可以事先列举比较典型的问句类型并进行问句和答案的匹配,因此比较容易实现。

为了提高应答的准确率,本文提出一种方法:在受限领域内,根据受限领域的关键词库和中文自然语言的语法库,识别出问句中的中心句和关键词,并根据知网(H ow N et )[4]的语义库计算出该概念在中文语料库中的概念相似度,根据此相似度,在受限领域已有的关键词库中搜索相近的词,并根据问句的类型和词语,取得相应的答案,返回给用户。

1系统概述

问答式系统由以下两部分组成:问题分析、检索和答案抽取[5]

。本文限于研究问题分析模块中的中心句和关键词的识别,以及用于检索时的概念相似度的计算以及匹配等问题。问题分析模块包括以下几个子模块:接收用户输入、

对用户输入进行分词操作、对问句进行语法分析、问题类型匹配、关键词提取、关键词相似度计算、检索语言转换。其逻辑结构如图1所示。

问题分析

句法分析和关键词提取

分词和词性标注问题输入问题类型匹配

相似度计算检索语言转换

图1

问题分析模块的工作逻辑是:接收用户输入的问句,对该问句进行分词操作,将用户输入的问句分解到词语级别的最小粒度;之后,由语法分析子模块对该问句的各个成分进行分析,然后进行问题类型匹配,判断出该问句是属于哪种类型(如是求原因还是求数量等);然后由关键词提取子模块从问句中提取出关键词,如果该关键词在受限领域的领域词库里有记录,则直接转入检索语言转换———即将用户输入的自然语言转换为检索系统能识别的检索语句,否则要经过相似度计算,选择与受限领域词库中最相似的词进行检索。

当用户输入一个问句Q 时,问句包含了以下信息:问句的类型、问句的中心句、问句限制条件以及关键词。用数学公式可以表示为一个三元组:{T ,F ,K },其中T 表示问题的类型,F 表示问题的焦点,K 表示问题的关键词。问题分析模块的任务就是从问题中提取出这些信息。

2研究与实现

2.1分词及语法分析

分词和词性标注采用中科院计算所的分词标注工具源码,并在原基础上进行了局部改动,增加了领域专业词库。因为本系统是针对受限领域,因此在词库查询时,领域词库比通用词库具有更高的优先权。

2.2问句类型归类

本系统对问句的归类主要依据常见的表达比较完整的传统问句,这些问句含有疑问词和一些特殊含义的动词和介词,例如“什么”、“什么时候”、“哪里”、“哪个”、“谁”、“为什么”、“怎么”、“是否”等常见问句。本系统根据北京大学计算语言学研究所提供的人民日报语料库,对常用问句归类(如表1所示)。

对语料库里300多个问句的统计表明,从问题类型可以大致确定用户需要的答案类型。因此可以对表1建立一个问题与答案模式的映射关系。另外答案类型的每一个分类都拥有自身的规则,用于检验不同问题的特性。

例如,“鲁迅是谁?”和“领导广州起义的是谁?”这样两个问句,虽然同样属于“……是谁”这样的问句模式,但是回答方式却不相同。前者必须回答鲁迅的生平简介,后者只需要回答一个人名即可。

用数学公式可以将映射表示为:A T=F(Q T,Q R ),其中A T 为问题的答案类型,F 为问题类型空间Q T 到答案类型空间A T

受限领域中文问答系统的中心句识别的研究

擎,曹力立

(重庆大学软件学院,重庆400044)

要:在自动问答系统中,只有识别用户输入问句的具体含义后,才能做出相应的处理。文章尝试使用领域知识库作为基础,运用模式匹配的方法实现对用户输入问句的分类,识别问句中的中心句和关键词,计算这些关键词的概念与领域知识库中已有概念的相似度,并将这些参数传给检索系统来检出合适的答案。关键词:问答系统;中心句识别;相似度计算;问题模式匹配

46・・

Computer Era No.22006

类型疑问词

例子

问人(有)谁、哪个人、哪些人……参加广州起义的有谁?问物哪些、什么是……水的化学成分有哪些?问时间什么时候、何时、哪年……

广州起义发生在哪年?问地点哪里、哪、何处、位于、什么地方……古赤壁在现今哪个省?问数量或程度多少、多高、多大、多深、几……中国有多少个省份?问原因为什么、因何、因为什么……

为什么海水是咸的?问结果会怎样、有什么结果、会发生什么……把高锰酸钾加热会怎样?

问肯定或否定

是否、能否……

是否四个人以上组团去九寨沟就可以享受优惠?

问评论或方法怎样、怎么样、怎么、如何……

重庆这个城市怎样?怎样从火车站到重庆大学?

其他

的一个变换,Q R 则为问题的规则空间。对上述例子,可以定义如下两条规则:

Q R :Q T((专有名词)是谁)→A T(简介)Q R :Q T((N P)是谁)→A T(人名)

表1

2.3句法结构分析及关键词识别

词性标注仅仅是从单一层次上区分出问句中的词,词和词之间的关系是平行的关系,而要理解问句,需要划分出句子的各个成分,找出问句焦点F 以及限制条件R 。

常见的句法分析算法包括:自顶向下分析算法、自底向上分析算法、左角分析算法、C Y K 算法、M ar cus 确定性分析算法、Ear l ey 算法、Tom i t a 算法(G LR 算法)、C har t 算法。目前应用得最为广泛的句法分析算法是Tom i t a 算法和C har t 算法。由于

C har t 分析算法非常灵活,通过修改C har t 算法中的分析策略,

很容易模拟多种形式的其他算法,而且C har t 分析算法操作比较直观,借助线图的强大表示能力,可以通过多重边来表示句法分析的歧义,分析算法的时间复杂度和空间复杂度都较低,所以在自然语言处理系统中得到了广泛应用。本系统的句法结构分析算法使用的就是C har t 算法。

C har t 分析算法使用的主要数据结构是有向无环图(

D A G )。

其思路是把一串句子首先用线性图的方式表示出来。边的定义表示为:{edge [i ]:=<P1,P2,Label >|i =1,2,....}在使用C har t 算法来分析句法时,一般要使用一个堆栈来存放不断加入到

C har t 里的边,一般把这个堆栈定义名为agenda 。另外,还需要

一个临时集合act i ve ar c 来存放当前分析的边。

C har t 算法的过程描述如下:

⑴将待分析字符串w 置入输入缓冲区,agenda 清为空栈;⑵循环,反复执行下面步骤,直至输入缓冲区和agenda 均

为空:

a)若agenda 为空,则从输入缓冲区取一个字符,并把该字

符及其起止位置(P1,P2)推入agenda 栈;

b)从agenda 中弹出栈顶的边,该边的起止位置为(P1,P2),边上标记为L ;

c)检查规则集中的规则,对所有形如A →Lβ这样的规

则,在act i ve ar c 集合中增加一条起止位置为P1,P2,弧上为

A →L ・β的点规则;

d)把从agenda 中弹出的标记为L 的边,加入到char t 中的P1,P2之间;

e)检查所有act i ve ar c ,如果存在起止位置为P0,P1,且弧

上点规则为A →α・Lβ的act i ve ar c ,就增加一条新的act i ve

ar c ,起止位置为P0,P2,弧上点规则为A →αL ・

β;f )如果一条act i ve ar c (起止位置为P0,P2)上点规则形如A →αL ・β(点号在规则最右端),就将起止位置为P0,P2,边上标记为A 的边压入agenda 栈。

下面用例子“中国最大的城市在哪里?”来说明C har t 算法。假设句法分析库中有以下规则:

S→N P V P N P→n N P→A P n N P→N P A P n A P→a A P→d a A P→d a 的V P→v N P

根据上面的规则使用C har t 算法,那么对于这句“0中国/n 1最/d2大/a3的/u4城市/n5在/v6哪里/r 7?”进行分析将得到图2所示的结果。

城市

哪里

最大

中国

01

2

4

3

5

6

7

中国

城市

哪里

S

N P N P A P

A P N P

N P

V P

N P U

N

A

V N

N

图2图3

为了能让计算机更好地识别到问句中的关键词,可以把句法分析的结果转化为汉语的依存关系结构树。上面例子的转化结果如图3所示。

这样,从上面的依存关系树的结构,很容易得到该问题的中心句为“城市在哪里”,焦点是问“在哪里”,接下来就可以从问句里提取关键词。为了体现关键词在重要程度上的不同,以抽取到最适合的答案模块,本系统为关键词设置了权重。一般的顺序为名词

(专有名词、一般性名词),其次是数词、动词、形容词和副词。另外,某些特殊的专有名词、形容词和副词(如“第一”、“最”等)还有时间(如“2000年”)应赋予较高的权重。关键词的权重取决于两个因素:关键词的语义规则和句法依存树的权值。

3相似度计算

经过上面3个步骤的处理,问句的基本信息T 、F 、K 都已经得到了,可以根据这些信息进行检索了。但由于自然语言表达的方式多种多样,同样一个问题,可能有多种不同的表达方式。例如“谁是《茶花女》的作者?”和“写《茶花女》的是谁?”以及“谁写了《茶花女》?”,这三个问句问的都是同一种情况。一个智能的问答系统,在它的问题数据库里,应该存放的只是典型

47・・

计算机时代2006年第2期

的问句,而不可能囊括所有的问句,那样显然会造成系统的恶

性膨胀以及工作效率的下降。因此要识别出上面的三句话问的

其实是同一个问题,必须对问句进行一种相似度的计算[3],然后

从系统的问句库里找出与之最相似的问句。

这种相似度的计算是基于语义的计算[6],因此需要一定的

语义知识资源作为基础。本文采用董振东和董强先生创建的知

网作为系统的语义知识资源。知网是一个以汉语和英语所代表

的概念为描述对象,以揭示概念与概念之间以及概念所具有的

属性之间的关系为基本内容的常识知识库,是一个网状的有机

的知识系统。

语义词典是知网的基础文件。在这个文件中每一个词语的

概念及其描述形成一个记录,每一个记录都包含词语、词语例

子、词语词性、概念定义等4项。这里主要用到的是概念定义

(即D EF)这一项。计算句子之间的语义相似度,要确定句子中的

词在这个句子中所表达的语义。例如,“打毛衣”中的“打”作为

“编织”的意思,而“打酱油”中的“打”作为“买”的意思,需要确

定“打”这个词在不同的句子中的不同含义。语义消歧能够挖掘

出一个词在上下文中确切的含义。

除了语义词典,知网中还提供了义原分类树。义原分类树

把各个义原及它们之间的联系以树的形式组织在一起,树中父

节点和子节点的义原具有上下位的关系。可以利用义原分类树

计算2个词之间的语义距离。知网中存在Ent i t y、Event、A t-

t r i but e等11棵义原树。但有些义原树,例如C onver s e、A nt onym

等,里面的义原没有父子关系,并不体现上述的词与词之间的

上下位特征,因此无法使用。在11棵义原树中总共选取了以下

6棵义原树用来计算词的语义距离:Ent i t y、Event、A t t r i but e、A t-

t r i but e V al ue、Q uant i t y、Q uant i t y V al ue。

把语义距离定义为2个词对应的义原在义原树中的最短

距离。如果2个词中有一个词的义原无法在6棵义原树中找

到,或者2个词的义原分别处于2个不同的义原树,则认为这2

个词之间的语义距离为∞。设2个词U,V之间的语义距离为

D,那么U、V之间的相似度可以表达为:

s(U,V)={D/p,p≠∞;0,p=∞}

上式中:D=|T1∪T2|-|T1∩T2|。T1,T2分别是2个词

所在义原树从树根到该节点语义元素集合,T1∪T2是义原树

中从树根到U,V各自语义节点包括的所有义原的集合,T1∪

T2是该集合元素个数,T1∩T2表示U,V对应语义树相同语义

节点集合,T1∩T2表示公共节点的个数,则D表示义原树中

U,V这2个节点的路径最短距离。不同的义原树的长度不同,

需做归一化处理。p为义原树的总节点层次级数。2个词相似度

取值在0到1之间。

有了词与词之间的语义相似度,就可以计算句子间的语义

相似度[6]。设句子A和B,A包含的词为A1、A2、……、A m,B包

含的词为B1、B2、……、B n,则词A i(1≤i≤m)和B j(1≤j≤n)之

间的相似度可用s(A i,B j)来表示。A,B句子之间的语义相似度

s(A,B)为:

S(A,B)=1

2

1

m

m

1

!ai+1

n

n

1

!b

"#j

其中,ai=m ax(s(A i,B1),s(A i,B2),…,s(A i,B n));bi=m ax(s(

B i,A1),s(B i,A2),…,s(B i,A n))。

4检索语言转换

在经过了前4个步骤后,用户输入的问题的各种参数已经

被分解为最小的粒度了,然而由于后台的数据库通常都是使用

关系型数据库来存储数据,因此要让后台的检索系统能够正常

识别这些参数,需要把这些参数转化为SQ L语句。在本系统

中,问题解析模块是使用已定义好格式的X M L来存储这些参

数,然后把X M L消息传入检索系统让检索系统来进行解析

X M L并进行检索操作。本系统使用的X M L格式如下:

<Q uest i on>

<cl ause/>

<C ent er C l ause/>

<K eyw or d>

<i t em>

<w or d/>

<si m i l ar i t yl i st>

<si m i l ar w or d/>

<si m i l ar i t y/>

</si m i l ar i t yl i st>

<nodeval ue/>

</i t em>

</K eyw or d>

<pr edi cat e/>

<r est r i ct/>

</Q uest i on>

5结束语

本文所研究的系统对用户以自然语言输入的问题能够很

好地分解到最细小的粒度上进行分析,并且通过计算句子相似

度来获取在领域数据库中可能不存在的问题,在一定程度上提

高了获取信息的效率,而本系统所采用的结构和分析方法在中

文自然语言及其他处理方面也有很好的借鉴作用。

参考文献:

[1]A gi r r e E.and R i gau G..A pr oposal f or w or d sense

di sam bi guat i on usi ng concept ual di st ance,i n I nt er nat i onal

C onf er ence"R ecent A dvances i n N at ur al Language Pr ocessi ng"

R A N LP'95,1995.

[2]B ur ke R D,H m m ond K J,K ul yuki n V,et al.Q uest i on

answ er i ng f r om f r equent l y asked quest i on f i l es:exper i ences

w i t h t he FA Q f i nder syst em p[J].A I M agazi ne,1997.18:

57 ̄66

[3]D agan I.,Lee L.Per ei r a F..Si m i l ar i t y-based m odel s of w or d

cooccur r ence pr obabi l i t i es,M achi ne Lear ni ng,Speci al i ssue on

M achi ne Lear ni ng and N at ur al Language,1999.10:16 ̄24

[4]董振东,董强.知网.ht t p://w w w.keenage.com,1999.

[5]郑实福,刘挺,秦兵等.中文自动问答系统综述.中文信息学报,2002.

6(16):46 ̄52

[6]李素建.基于语义计算的语句相关度研究.计算机工程与应用,

2002.38(7):75 ̄83▲C E

48

・・

。

猜你喜欢

最安全有效的减肥药

最安全有效的减肥药

编辑:小徐

现在的减肥药真的是真假难分,在选择减肥药的同时也应该更加小心,减肥药多种多样,那么如何才能选择最安全有效的减肥药,也成了很多小仙女的内心疑问,下面就跟着伊人三级在线视频小编一起看一下,如何选择最安全有效的减肥药。 最安全有效的减肥药选购方法 1、首先需要观察产品的外包装,在包装中可以看到其配方是不是含有激素,含有激素的减肥药对身体的内..

吃减肥药失眠

吃减肥药失眠

编辑:小徐

随着现在流行以瘦为美,很多人会不顾身体的健康选择减肥药,达到快速减肥瘦身的效果,但是很多减肥药都是有副作用的,副作用比较轻的就是失眠现象,那么吃减肥药出现失眠是怎么回事儿?如果出现失眠后,我们应该怎样缓解? 吃减肥药失眠是怎么回事 减肥药中富含安非他命,所以减肥药服用了太多会有失眠现象,服用减肥药期间,身体会逐渐出现抗药性,身..

最新文章