共指消解是要找到一段文本中指向相同实体的所有表述(mention,提及)。
共指消解的基本概念
- 照应语(anaphor): 是一个指向真实实体的词;
- 先行语(antecedent):真正的实体;
- 回指(anaphora):照应语放在先行语后边;
- 预指:照应语在先行语前边。
共指消解的应用领域
信息抽取(Information Extraction,IE):共指消解可以帮助IE系统对文本中出现的提及(mention)进行归类,避免提取冗余信息;
文本摘要(Text Summarization): 共指消解可以向文本摘要系统提供文档中所有的共指关系,将所有指向同一个实体的提及根据它们在文中出现的先后顺序构成一条共指链,这条共指链有助于摘要系统提取关键信息;
问答(Question Answer,QA):共指消解能够在问题和答案上优化QA系统。首先,它能够通过分析问题中的共指关系,找到问题的核心实体;其次,共指消解能够帮助判断候选答案与问题中核心实体的相关性,从而辅助对候选答案的排序;
机器翻译(Machine Translation):共指消解可以识别文本中的代词,然后把它们归类到相应的实体中。机器翻译系统翻译文本时,就可以结合代词和实体名称来进行合理的翻译。
基于mention-ranking模型的指代消解
(1)找出所有的mention
如图1:
图1 找出所有的mention(2)对于某个词(这里以“my”示例),让其与该词前面的mention构成一个pair,并为每一个pair打分。
如图2
图2 创建pair(3)选取拥有最高得分的pair作为的最终的共指关系。
如图3
图3 选取拥有最高得分的pair作为的最终的共指关系