Ictclas50是一个分词库,我嘛主要用来做中文分词,其也能分出词性等东西。

1.环境搭建

官方网站:

进入到下载页面进行下载:

如下图: 因为我的系统是64位的windows,所以选择了到数第三行进行下载。其JAVA版本是通过JNI去调用dll库,所以下载下来后没有jar包。看到没有,这就是下载下来后的所有东西,里面有Demo,Doc,API,Sample,主要就是Doc里面的文档要去看一下,里面有实例代码啥的。还有就是API,自然是用来开发用的。

把API文件夹里面的东西都拖入到你的工程中,其中ICTCLAS文件夹拖入工程目录下的src文件夹中,这样之后就可以开始使用里ICTCLAS50这个类进行分词了。

2.测试:

查看下ICTCLAS50这个类里面的代码可以看出,其很简单,里面就几个函数,具体用法参见doc文件夹里的文档,里面都有说明和示例。

下面就是那几个函数:

以下为测试代码:

package test;import java.io.UnsupportedEncodingException;import ICTCLAS.I3S.AC.ICTCLAS50;public class test {    /**     * @param args     */    public static void main(String[] args) {        ICTCLAS50 ictclas50 = new ICTCLAS50();        String argu = ".";        try {            if (ictclas50.ICTCLAS_Init(argu.getBytes("GB2312")) == false)            {                System.out.println("Init Fail!");            }            String text = "loma在做一个分词测试";            //分词处理            byte nativeBytes1[] = ictclas50.ICTCLAS_ParagraphProcess(text.getBytes("GB2312"), 2, 0);            String nativeStr1 = new String(nativeBytes1, 0, nativeBytes1.length, "GB2312");            System.out.println(nativeStr1);            ictclas50.ICTCLAS_Exit();        } catch (UnsupportedEncodingException e) {            e.printStackTrace();        }    }}

输出结果:

空格有点小,要睁大眼睛哦~

里面还能输出词性啥的,请看doc里面的文档。