首页 >> 网络营销词典 >> 互联网工具及软件 >> 切词工具

切词工具[编辑]


目前常用的切词工具有Paoding、IKAnalyzer、Ictclas4j。

一、paoding

1、庖丁简介

paoding是庖丁解牛分词器,paoding中的庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。

2、庖丁系统的核心内容

net.paoding.analysis.dictionary 字典抽象—提供查询字典

net.paoding.analysis.knife 切割抽象—分词算法

net.paoding.analysis.analyzer 封装适配器到lucene接口

3、庖丁分词系统的缺点

这种切分还是有很明显的缺点.例如下面一段文字:

“发展社区老年活动场所和服务设施”

如果想搜索日本的和服相关资料,输入关键字“和服”的时候,上面的资料也会被搜索出来

搜索引擎是第一步搜索:

在浩瀚的信息中,快速集结最后可能是所想要的结果, 按照可能是最好的顺序展现出来。

人的眼睛是第二步搜索:

找寻最符合要求的结果,同时将机器无法轻易识别的少数“无效”结果过滤

“和服”问题,涉及了汉语语义的问题,几乎不可完全解决(可作为“特例”解决,或通过排序方法,将他排到相对靠后等价解决)。

二、 IK Analyzer

1、 IK Analyzer的简介

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,新版本的IK Analyzer 3.0是发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

2、 IK Analyzer的特性

1)采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。

2)采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。

3)优化的词典存储,更小的内存占用。支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser;

4)采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。

三、ictclas4j

1、ictclas4j的简介

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。

2、ictclas4j的使用方法

使用方法:

SegTag st = new SegTag(1);
SegResult sr = st.split(str);
System.out.println(sr.getFinalResult());

切词效果:在/p 传统/n 意义/n 上/f 的/u 几何学/n 是/a 研究/n 图形/n 的/b 形状/n 大小/a 等/a 性质/n

 

 

参考资料: 开源项目,新浪博客
扩展阅读:
相关词条:
合作编辑:

网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。

词条信息

浏览次数:179

编辑次数:0历史版本

创建者: 蒋佰蓉

最近更新:2014/10/21 9:18:14

词条分类导航

关于网络营销教学网站| 本站动态| 网站地图| 版权声明| 联系作者| 问题和建议|

版权声明:网络营销教学网站所有作品版权均归原作者所有,未经书面许可,严禁任何形式的转载/转贴、出版、篡改、汇编、编译等。