HanLP线上模型训练自万字的大型综合语料库,覆盖新闻、社交媒体、金融、法律等多个领域,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。自然语义的语言学专家一直在持续标注该语料库,与时俱进保持最先进的分词质量。 在分词标准上,HanLP提供细粒度和粗粒度两种颗粒度,细粒度适合搜索引擎业务,粗粒度适合文本挖掘业务。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
默认采用细分标准:
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。')
通过启用粗分标准:
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。', coarse=True)
本地调用方法请参考教程。
用于外语或多语种时,请参考文档加载相应的外语或多语种模型。
词性标注(Part-of-Speech tagging、POS)是一种标注句子中每个单词的词性(也称词类、语法类别)的任务。HanLP支持CTB、PKU、863、NPCMJ、Universal Dependencies等词性标注集。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
默认采用CTB,在语言学界被广泛采用:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/ctb').pretty_print()
PKU是国内最流行的标注集,被HanLP1.x采用为默认标准:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/pku').pretty_print()
863是国家标准,诞生于863工程中,被国家语委语料库采用:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/863').pretty_print()
本地调用方法请参考教程。
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。
命名实体识别(Named Entity Recognition、NER)是一种识别文本中实体的位置以及类别的任务。 HanLP支持PKU、MSRA、OntoNotes等命名实体规范。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
默认采用MSRA,是最大的中文命名实体识别语料库:
HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/msra').pretty_print()
PKU是国内最流行的标注集,被HanLP1.x采用为默认标准:
HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/pku').pretty_print()
OntoNotes是国际上最通用的标注规范:
HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/ontonotes').pretty_print()
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。
依存句法分析(Dependency Parsing、DEP)是一种分析一个句子中单词与单词之间的语法关系,并将其表示为树形结构的任务。 HanLP支持SD、UD、PMT等依存句法体系。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定仅执行依存句法分析:
doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='dep') print(doc)
返回值为一个Document。为句子们的依存句法树列表,第个二元组表示第个单词的。
通过,可以在等宽字体环境中得到可视化,你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化,在Jupyter Notebook中自动对齐中文。
doc.pretty_print()
CoNLL是国际上最通用的格式:
print(doc.to_conll())
请参考教程。
请参考文档设置RESTful语种或加载相应的外语或多语种模型。
成分句法分析(Constituency Parsing、CON)是一种分析一个句子在语法上的递归构成,并将其表示为树形结构的任务。HanLP支持中文CTB、英文PTB和日语NPCMJ等树库标准。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定仅执行成分句法分析:
doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'con']) print(doc)
返回值为一个Document。为Tree类型,是list的子类。
通过,可以在等宽字体环境中得到可视化,你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化,在Jupyter Notebook中自动对齐中文。
doc.pretty_print()
括号形式是学术界最通用的格式:
tree = doc['con'][0] print(tree)
短语结构树的类型为,提供了许多接口,此处列举其中一些常用的接口。
for subtree in tree.subtrees(lambda t: t.height() == 4): print(f'子树:{subtree} 标签:{subtree.label()} 短语:{subtree.leaves()}')
for subtree in tree.subtrees(lambda t: t.label() == 'NP'): print(subtree)
print(f'父节点{subtree}的子节点有:') for child in subtree: print(child)
本地调用方法请参考教程。
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。
语义依存分析(Semantic Dependency Parsing、SDP)是一种分析一个句子中单词与单词之间的语义关系,并将其表示为图结构的任务。不同于依存句法分析,图中每个节点可以有任意个目标节点。HanLP支持中文CSDP和英文MR、PAS、PD等语义框架。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定仅执行语义依存分析:
doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='sdp') print(doc)
返回值为一个Document。字段代表语义依存图的数组格式,数组中第个子数组代表第个单词的语义依存关系,子数组中每个二元组的格式为。每个单词的语义依存关系可能有零个、一个或多个(任意数量)。
转换为CoNLLSentence格式更容易观察:
print(doc.to_conll())
本地调用方法请参考教程。
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。
语义角色标注(Semantic Role Labeling 、SRL)任务的目标是分析一个句子的谓词论元结构(predicate-argument、PA),回答了“谁对谁做了什么”这样的语义问题。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定仅执行语义角色标注:
doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks=['srl']) print(doc)
返回值为一个Document。字段为语义角色标注结果,每个四元组的格式为。其中,谓词的语义角色标签为,起止下标对应以开头的第一个单词数组。
通过,可以在等宽字体环境中得到可视化,你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化,在Jupyter Notebook中自动对齐中文。
doc.pretty_print()
遍历谓词论元结构:
for i, pas in enumerate(doc['srl'][0]): print(f'第{i+1}个谓词论元结构:') for form, role, begin, end in pas: print(f'{form} = {role} at [{begin}, {end})')
请参考教程。
请参考文档设置RESTful语种或加载相应的外语或多语种模型。
抽象意义表示(Abstract Meaning Representation,AMR)是一种将句子的意义(时间地点谁对谁怎样地做了什么)表示为以概念为节点的单源有向无环图的语言学框架。AMR正在引起学术界越来越广泛的关注,已经涌现了许多利用AMR进行机器翻译、QA、关系提取等应用的工作。详情请参考博客。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定仅执行抽象意义表示:
HanLP.abstract_meaning_representation('男孩希望女孩相信他。')
返回值为每个句子相应的AMR图的Meaning Representation格式。注意上面“男孩”有2个anchor,分别对应“男孩”和“他”。也就是说,MR格式其实包含了指代消解的结果。
指定即可得到矢量图可视化。
from IPython.display import SVG, display def show_svg(g): display(SVG(data=g['svg'])) graph = HanLP.abstract_meaning_representation('男孩希望女孩相信他。', visualization='svg')[0] show_svg(graph)
本地调用方法请参考教程。
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。
语义文本相似度(Semantic Textual Similarity,STS)任务的目标是判断一对短文本的语义相似度,相似度区间为。
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
指定执行语义文本相似度:
HanLP.semantic_textual_similarity([ ('看图猜一电影名', '看图猜电影'), ('无线路由器怎么无线上网', '无线上网卡和无线路由器怎么用'), ('北京到上海的动车票', '上海到北京的动车票'), ])
返回值为一个语义相似度的。
本地调用方法请参考教程。
敬请期待。
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/6499.html