命名实体识别和序列标注

序列标注（Sequence Tagging）是NLP中最基础的任务，应用十分广泛，如分词、词性标注（POS tagging）、命名实体识别（Named Entity Recognition，NER）、关键词抽取、语义角色标注（Semantic Role Labeling）、槽位抽取（Slot Filling）等实质上都属于序列标注的范畴。

命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

命名实体识别通常包括两部分：

实体边界识别；
确定实体类别（人名、地名、机构名或其他）。

进行命名实体识别时，通常需要对每个字进行标注，中文为单个字，英文为单词，空格分割。标注的标签类型如下表所示：

类型说明 B Begin，代表实体片段的开始 I Internediate，代表实体片段的中间 M Middle，代表实体片段的中间 E End，代表实体片段的结束 S Single，代表实体片段为单个字 O Other，代表字符不为任何实体

实体识别三种常见的序列标注方法如下：

BIO：标识实体的开始，中间部分和非实体部分
BMES：增加S单个实体情况的标注
BIOSE：增加E实体的结束标识

BIO-三位序列标注法(B-begin，I-inside，O-outside)

B-X代表实体X的开头
I-X代表实体X的中间或结尾
O代表不属于任何类型的

样例：

BMES-四位序列标注法(B-begin，M-middle，E-end，S-single)

B表示一个词的词首位值
M表示一个词的中间位置
E表示一个词的末尾位置
S表示一个单独的字词

样例：

BIOES-四位序列标注法(B-begin，I-inside，O-outside，E-end，S-single)

B表示开始
I表示内部
O表示非实体
E表示实体尾部
S表示改词本身就是一个实体

样例：

基本简单讲述了实体识别三种标注方法，从上面我们可以看出序列标注的各种标注方法大同小异。

上一篇：接口自动化测试框架

下一篇： java多线程编程实例

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/13578.html

BIO-三位序列标注法(B-begin，I-inside，O-outside)

BMES-四位序列标注法(B-begin，M-middle，E-end，S-single)

BIOES-四位序列标注法(B-begin，I-inside，O-outside，E-end，S-single)

相关文章：