博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自然语言处理工具python调用hanlp中文实体识别
阅读量:6471 次
发布时间:2019-06-23

本文共 1062 字,大约阅读时间需要 3 分钟。

hot3.png

 

Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。

想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境

1.安装jpype1,在cmd窗口输入

pip install jpype1

2.下载hanlp的安装包

在https://github.com/hankcs/HanLP/releases 

(1)下载新的 hanlp-1.7.1-release.zip文件,里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties

(2)点击data-for-1.7.1.zip下载。(底下第8条)

注:如果你在http://hanlp.linrunsoft.com/services.html点击下载hanlp.jar,下载下来的是hanlp-1.2.8.jar。之后在使用过程中可能会出现“字符类型对应表加载失败”的错误,查看相应路径下也没有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本过低,使用新版本应该不会出现这个问题。

3.新建一个文件夹Hanlp,放文件hanlp-1.7.1.jar和hanlp.properties文件

新建一个文件夹hanlp,放data-for-1.7.1.zip解压后的文件

配置hanlp.properties中的第一行的root为hanlp文件夹的位置,也就是data-for-1.7.1.zip解压后的文件放的位置。

4.写py文件调用hanlp进行中文分析。

用法可参考这个博客  blog.csdn.net/u011961856/article/details/77167546。

另,查看HanLP关于实体识别的文档http://hanlp.linrunsoft.com/doc.html

里面介绍说中文人名标注为“nr”,地名标注为“ns”,机构名标注为“nt”,所以使用用法参考链接里的NLPTokenizer.segment就可以标注出中文句子中的人名,地名和机构名。

比较使用jieba进行词性标注时,也可以标注出中文句子中的人名,地名和机构名。jieba分词的词性说明:

转载于:https://my.oschina.net/u/3793864/blog/3009453

你可能感兴趣的文章
js中回调函数写法
查看>>
React native android 最常见的10个问题
查看>>
数据结构和算法
查看>>
int a; int* a; int** a; int (*a)[]; int (*a)(int)
查看>>
.Net 项目代码风格要求
查看>>
java编码规范
查看>>
[pat]1045 Favorite Color Stripe
查看>>
Immutable学习及 React 中的实践
查看>>
【转】性能测试步骤
查看>>
OSI与TCP/IP各层的结构与功能,都有哪些协议
查看>>
Android实例-程序切换到后台及从后台切换到前台
查看>>
spring boot启动定时任务
查看>>
值类型和引用类型
查看>>
查看外键属性
查看>>
[转]html5 Canvas画图教程(6)—canvas里画曲线之arcTo方法
查看>>
maven 常用插件
查看>>
朴素贝叶斯方法在乳腺肿块检测中的应用
查看>>
算法 (二分查找算法)
查看>>
java Date 当天时间戳处理
查看>>
C++学习笔记之syntax_2: C++ 预处理命令
查看>>