中文分词器ICTCLAS使用方法（Java）-白红宇

中文分词器ICTCLAS使用方法（Java）

阅读量：7011 次

发布时间：2019-06-28

本文共 5118 字，大约阅读时间需要 17 分钟。

http://www.cnblogs.com/CheeseZH/archive/2012/11/27/2791037.html

吃水不忘挖井人，这篇文章给了我很大帮助：，这篇文章写的蛮详细，不过是ICTCLAS在web项目中的应用，于是我借花献佛，把它整理了一下成为java项目的应用。

1、到ICTCLAS官网下载最新版本分词器：，点击下载后需要填写反馈信息——姓名，邮箱；

注：听学长说这个分词器有时间限制，所以一段时间之后需要重新下载。

2、将下载的ICTCLAS50_Windows_32_JNI.rar解压，其中有API，Demo，Doc，Sample四个文件夹；

API文件夹中的东西就是我们需要使用的；

Demo文件夹中的东西是一个用MFC实现的分词程序；

Doc文件夹中的东西是两个文档，注：ICTCLAS5.0接口文档.doc中提及的部分接口在最新的ICTCLAS中已经不再提供，还有的做了少量修改；

Sample文件夹中是一个java使用ICTCLAS例子：

比如我把ICTCLAS50_Windows_32_JNI.rar解压到C盘根目录，那我只需要在命令行中输入：

cd ICTCLAS50_Windows_32_JNI\Sample\Windows_32_jni_Demo

javac TestMain.java

java TestMain

就可以看到运行结果了；

3、如何将ICTCLAS整合到自己Java 项目中：

在myeclipse中创建项目为ICTCLAS003，那么将ICTCLAS的API目录中的ICTCLAS文件夹拷贝到ICTCLAS003文件夹的src目录下（ctrl+v粘贴到工程src即可），然后把DATA和其他的文件放到ICTCLAS003文件夹中即可。

刷新项目（Refresh）就可以看到这些内容已经导入了；

然后新建一个Test.java，

写上：import ICTCLAS.I3S.AC.ICTCLAS50;

就可以使用接口了。

下边就是API文件加中的ICTCLAS50.java文件，可以看出它提供的几个接口：

package ICTCLAS.I3S.AC;import java.io.*;public class ICTCLAS50{    //public enum eCodeType    //{    //    CODE_TYPE_UNKNOWN,//type unknown     //    CODE_TYPE_ASCII,//ASCII    //    CODE_TYPE_GB,//GB2312,GBK,GB10380    //    CODE_TYPE_UTF8,//UTF-8    //    CODE_TYPE_BIG5//BIG5    //}        public native boolean ICTCLAS_Init(byte[] sPath);    public native boolean ICTCLAS_Exit();    public native int ICTCLAS_ImportUserDictFile(byte[] sPath,int eCodeType);    public native int ICTCLAS_SaveTheUsrDic();    public native int ICTCLAS_SetPOSmap(int nPOSmap);    public native boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged,byte[] sDestFilename);    public native byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, int bPOSTagged);    public native byte[] nativeProcAPara(byte[] sSrc, int eCodeType, int bPOStagged);    /* Use static intializer */    static    {        System.loadLibrary("ICTCLAS50");    }}

下边是我自己写的测试TestMain.java:

/* * ICTCLAS_Init * ICTCLAS_ParagraphProcess * ICTCLAS_Exit * ICTCLAS_ImportUserDictFile[接口文档中的函数为：ICTCLAS_ImportUserDict] * ICTCLAS_SetPOSmap * */import ICTCLAS.I3S.AC.ICTCLAS50;public class TestMain {    public static void main(String[] args){        try{            ICTCLAS50 testICTCLAS50 = new ICTCLAS50();            String argu = ".";            if(testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false){                System.out.println("Init Fail");            }else{                System.out.println("Init Succeed!");            }                        String sInput = "随后温总理就离开了舟曲县城，预计温总理今天下午就回到北京。以上就是今天上午的最新动态。";            //未导入用户词典            byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);            System.out.println(nativeBytes.length);                        String nativeStr = new String(nativeBytes,0,nativeBytes.length,"GB2312");            System.out.println("未导入用户词典分词结果："+nativeStr);            //导入用户词典            int nCount = 0;            String usrdir = "userdict.txt";            byte[] usrdirb = usrdir.getBytes();            //第一个参数为用户字典路径，第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)            nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);                    System.out.println("导入用户词个数："+nCount);            nCount = 0;                        //导入用户词典之后再分词            byte[] nativeBytes1 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);            System.out.println(nativeBytes1.length);            String nativeStr1 = new String(nativeBytes1,0,nativeBytes1.length,"GB2312");            System.out.println("导入用户词典分词结果："+nativeStr1);                        /*             * ICT_POS_MAP_SECOND  计算所二级标注集   0             * ICT_POS_MAP_FIRST  计算所一级标注集    1             * PKU_POS_MAP_SECOND   北大二级标注集    2             * PKU_POS_MAP_FIRST       北大一级标注集   3             * */            //使用计算所二级标注集            testICTCLAS50.ICTCLAS_SetPOSmap(0);            byte[] nativeBytes2 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);            System.out.println(nativeBytes2.length);            String nativeStr2 = new String(nativeBytes2,0,nativeBytes2.length,"GB2312");            System.out.println("计算所二级标注集："+nativeStr2);            //使用北大二级标注集            testICTCLAS50.ICTCLAS_SetPOSmap(2);            byte[] nativeBytes3 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);            System.out.println(nativeBytes3.length);            String nativeStr3 = new String(nativeBytes3,0,nativeBytes3.length,"GB2312");            System.out.println("北大二级标注集："+nativeStr3);                //释放分词组件资源                        testICTCLAS50.ICTCLAS_Exit();                    }catch(Exception ex){                    }    }}

使用的时候需要注意一下各个函数不同参数的含义。

bool ICTCLAS_Init( );参数就是一个目录的String，这个目录下包含分词器所需的系统词表以及配置文件；

boolean ICTCLAS_Exit();无参数

int ICTCLAS_ImportUserDictFile(byte[] sPath);参数就是用户自定义词表文件名字，记得把词表放在工程根目录中；返回值是词表中的词条数目；

public native byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, int bPOSTagged);第一个参数就是待处理文本，注意要将String转换为bytes数组，第二个参数是字符集类型【我的源码中有介绍】，第三个参数0：无标注，1：有标注

public native int ICTCLAS_SetPOSmap(int nPOSmap);选择标注集【我的源码中有介绍】

你可能感兴趣的文章