分词助手 - 穆世明博客

请输入一段中文文本：

HanLP线上模型训练自万字的大型综合语料库，覆盖新闻、社交媒体、金融、法律等多个领域，是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。自然语义的语言学专家一直在持续标注该语料库，与时俱进保持最先进的分词质量。在分词标准上，HanLP提供细粒度和粗粒度两种颗粒度，细粒度适合搜索引擎业务，粗粒度适合文本挖掘业务。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

默认采用细分标准：

 HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。')

通过启用粗分标准：

 HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。', coarse=True)

本地调用方法请参考教程。

用于外语或多语种时，请参考文档加载相应的外语或多语种模型。

请输入一段中文文本：

词性标注（Part-of-Speech tagging、POS）是一种标注句子中每个单词的词性（也称词类、语法类别）的任务。HanLP支持CTB、PKU、863、NPCMJ、Universal Dependencies等词性标注集。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

默认采用CTB，在语言学界被广泛采用：

 HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/ctb').pretty_print()

PKU是国内最流行的标注集，被HanLP1.x采用为默认标准：

 HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/pku').pretty_print()

863是国家标准，诞生于863工程中，被国家语委语料库采用：

 HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/863').pretty_print()

本地调用方法请参考教程。

其他标准用于外语或多语种，请参考文档加载相应的外语或多语种模型。

请输入一段中文文本：

命名实体识别（Named Entity Recognition、NER）是一种识别文本中实体的位置以及类别的任务。 HanLP支持PKU、MSRA、OntoNotes等命名实体规范。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

默认采用MSRA，是最大的中文命名实体识别语料库：

 HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/msra').pretty_print()

PKU是国内最流行的标注集，被HanLP1.x采用为默认标准：

 HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/pku').pretty_print()

OntoNotes是国际上最通用的标注规范：

 HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='ner/ontonotes').pretty_print()

其他标准用于外语或多语种，请参考文档加载相应的外语或多语种模型。

请输入一段中文文本：

依存句法分析（Dependency Parsing、DEP）是一种分析一个句子中单词与单词之间的语法关系，并将其表示为树形结构的任务。 HanLP支持SD、UD、PMT等依存句法体系。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定仅执行依存句法分析：

 doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='dep') print(doc)

返回值为一个Document。为句子们的依存句法树列表，第个二元组表示第个单词的。

通过，可以在等宽字体环境中得到可视化，你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化，在Jupyter Notebook中自动对齐中文。

 doc.pretty_print()

CoNLL是国际上最通用的格式：

 print(doc.to_conll())

请参考教程。

请参考文档设置RESTful语种或加载相应的外语或多语种模型。

请输入一段中文文本：

成分句法分析（Constituency Parsing、CON）是一种分析一个句子在语法上的递归构成，并将其表示为树形结构的任务。HanLP支持中文CTB、英文PTB和日语NPCMJ等树库标准。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定仅执行成分句法分析：

 doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'con']) print(doc)

返回值为一个Document。为Tree类型，是list的子类。

通过，可以在等宽字体环境中得到可视化，你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化，在Jupyter Notebook中自动对齐中文。

 doc.pretty_print()

括号形式是学术界最通用的格式：

 tree = doc['con'][0] print(tree)

短语结构树的类型为，提供了许多接口，此处列举其中一些常用的接口。

 for subtree in tree.subtrees(lambda t: t.height() == 4): print(f'子树：{subtree} 标签：{subtree.label()} 短语：{subtree.leaves()}')

 for subtree in tree.subtrees(lambda t: t.label() == 'NP'): print(subtree)

 print(f'父节点{subtree}的子节点有：') for child in subtree: print(child)

本地调用方法请参考教程。

其他标准用于外语或多语种，请参考文档加载相应的外语或多语种模型。

请输入一段中文文本：

语义依存分析（Semantic Dependency Parsing、SDP）是一种分析一个句子中单词与单词之间的语义关系，并将其表示为图结构的任务。不同于依存句法分析，图中每个节点可以有任意个目标节点。HanLP支持中文CSDP和英文MR、PAS、PD等语义框架。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定仅执行语义依存分析：

 doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks='sdp') print(doc)

返回值为一个Document。字段代表语义依存图的数组格式，数组中第个子数组代表第个单词的语义依存关系，子数组中每个二元组的格式为。每个单词的语义依存关系可能有零个、一个或多个（任意数量）。

转换为CoNLLSentence格式更容易观察：

 print(doc.to_conll())

本地调用方法请参考教程。

其他标准用于外语或多语种，请参考文档加载相应的外语或多语种模型。

请输入一段中文文本：

语义角色标注（Semantic Role Labeling 、SRL）任务的目标是分析一个句子的谓词论元结构（predicate-argument、PA），回答了“谁对谁做了什么”这样的语义问题。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定仅执行语义角色标注：

 doc = HanLP.parse('晓美焰来到北京立方庭参观自然语义科技公司。', tasks=['srl']) print(doc)

返回值为一个Document。字段为语义角色标注结果，每个四元组的格式为。其中，谓词的语义角色标签为，起止下标对应以开头的第一个单词数组。

通过，可以在等宽字体环境中得到可视化，你需要取消换行才能对齐可视化结果。我们已经发布HTML环境的可视化，在Jupyter Notebook中自动对齐中文。

 doc.pretty_print()

遍历谓词论元结构：

 for i, pas in enumerate(doc['srl'][0]): print(f'第{i+1}个谓词论元结构：') for form, role, begin, end in pas: print(f'{form} = {role} at [{begin}, {end})')

请参考教程。

请参考文档设置RESTful语种或加载相应的外语或多语种模型。

请输入一段中文文本：

抽象意义表示（Abstract Meaning Representation，AMR）是一种将句子的意义（时间地点谁对谁怎样地做了什么）表示为以概念为节点的单源有向无环图的语言学框架。AMR正在引起学术界越来越广泛的关注，已经涌现了许多利用AMR进行机器翻译、QA、关系提取等应用的工作。详情请参考博客。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定仅执行抽象意义表示：

 HanLP.abstract_meaning_representation('男孩希望女孩相信他。')

返回值为每个句子相应的AMR图的Meaning Representation格式。注意上面“男孩”有2个anchor，分别对应“男孩”和“他”。也就是说，MR格式其实包含了指代消解的结果。

指定即可得到矢量图可视化。

 from IPython.display import SVG, display def show_svg(g): display(SVG(data=g['svg'])) graph = HanLP.abstract_meaning_representation('男孩希望女孩相信他。', visualization='svg')[0] show_svg(graph)

本地调用方法请参考教程。

其他标准用于外语或多语种，请参考文档加载相应的外语或多语种模型。

请输入两段短文本，每行一对：

编号相似度

语义文本相似度（Semantic Textual Similarity，STS）任务的目标是判断一对短文本的语义相似度，相似度区间为。

 from hanlp_restful import HanLPClient # auth不填则匿名，zh中文，mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

申请秘钥

由于服务器算力有限，匿名用户每分钟限2次调用。如果你需要更多调用次数，建议申请免费公益API秘钥auth。

指定执行语义文本相似度：

 HanLP.semantic_textual_similarity([ ('看图猜一电影名', '看图猜电影'), ('无线路由器怎么无线上网', '无线上网卡和无线路由器怎么用'), ('北京到上海的动车票', '上海到北京的动车票'), ])

返回值为一个语义相似度的。

本地调用方法请参考教程。

敬请期待。

上一篇： left join or

下一篇： java协程原理

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/6499.html

申请秘钥

申请秘钥

申请秘钥

申请秘钥

申请秘钥

申请秘钥

申请秘钥

申请秘钥

申请秘钥

相关文章：