#Java# 文章列表 Java 安装 Java:第一个程序 Hello World Java:建议使用 UTF-8 编写 Java 代码 Java:package 包命名规范 使用 Intellij IDEA 创建 Java 项目 Java 布尔类型 Java 处理日期和时间 Java 正则表达式 Java finalize 方法 Java:空值 null Java 如何触发垃圾回收 Java ThreadLocal Java InheritableThreadLocal Java Integer之间的比较 Java 动态代理 Java 匿名类 Java 枚举 Java 如何静态导入 import static println Java 引用级别:强引用、软引用、弱引用、幽灵引用 Java try finally return 解惑 Java WeakHashMap Java ReferenceQueue 怎么写 Java 示例代码? Java 匿名类双大括号初始化 什么是 Java Bean Java 多行字符串 Java 快速生成 List Java 快速生成 Map Java 将异常堆栈转换为 String JDK SPI 的使用和源码分析 Java Map 中的 key 和 value 能否为 null ? Java List 和 数组的互相转换 Java 获取环境变量 Java 获取和设置系统属性 Java:如何获取当前进程的 PID ? Java 字符串左侧 右侧补充空格或者其他字符 Java 线程 Java:如何获取文本文件内容 Java:读取资源文件内容 Java:使用 JavaFx 构建 GUI Java:Class 类 Java:使用 instanceof 判断对象类型 一个自定义的 Java 工具类 Java:获取当前函数所属类的类名 Java:获取当前执行的函数名 Java:使用 String 的 split 函数拆分字符串 Java:获取字符的 Unicode 编号(代码点) Java:获取当前工作目录 Java:使用 Class 对象的 isArray 方法判断对象是否为数组 使用 Java 生成 CSV 文件 Java Mockito 测试框架快速入门 JUnit 入门 JUnit 单测隔离 Java JOOR 反射库 Java alibaba transmittable-thread-local 库:让 ThreadLocal 跨线程传播 Java 日志组件 slf4j 的使用和源码分析 Java Lombok 库:为你减少样板代码 Java:使用 cglib 实现动态代理 Java Hibernate validator 校验框架 Java 使用 Hessian2 序列化和反序列化 H2 数据库快速入门 Java:使用 Gson 库处理 JSON 数据 Java 集成 groovy 构建规则引擎 Java 13:安装 Java 13 新特性:文本块(多行字符串) 卸载 MacOS 上安装的 Java Java:执行 sql 文件 Java JDK 有哪些发行版 ? java拾遗:String和数组 java拾遗:由反转数组想到System.out的实现机制 java拾遗:如何读取properties文件内容 Java并发概念汇总 java拾遗:System.out.println()是什么? java拾遗:通过示例理解位运算 使用“庖丁解牛”进行中文分词 DBUtils简明教程 试用velocity模板引擎 Java:将字符串哈希为数字 kafka SnappyError no native library is found 问题

使用“庖丁解牛”进行中文分词


#Java#


2014-11-26

作为一款分词工具,“庖丁解牛”(Paoding Analysis)为lucene设计,其官方网站是https://code.google.com/p/paoding/。下面看一看如何用它来分词。

需要的jar

https://code.google.com/p/paoding/下载paoding-analysis-2.0.4-beta.zip,解压后移动到/home/letian/paoding-analysis-2.0.4-beta

Lucene当前版本是4.*,不过对于“庖丁解牛”,建议使用2.*系列的版本,我是在Download lucene-core-2.9.3.jar下载的Download lucene-core-2.9.3.jar。

在apache 官网下载commons-logging-1.2.jar。

创建项目并引入jar

在eclipse下创建项目Fenci,之后,引入paoding-analysis.jarlucene-core-2.9.3.jarcommons-logging-1.2.jar

代码

创建文件PaoDingFenci.java,内容如下:

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

public class PaoDingFenci {

	Analyzer analyzer = new PaodingAnalyzer();

	public PaoDingFenci() {
		//
	}

	public String fenci01(String text) throws IOException {
		StringBuffer sb = new StringBuffer();
		StringReader reader = new StringReader(text);
		TokenStream ts = this.analyzer.tokenStream(text, reader);

		TermAttribute termAtt = (TermAttribute) ts
				.addAttribute(TermAttribute.class);
		while (ts.incrementToken()) {
			sb.append(termAtt.term());
			sb.append(" ");
		}
		return sb.toString();
	}

	public String fenci02(String text) throws IOException {
		StringBuffer sb = new StringBuffer();
		StringReader reader = new StringReader(text);
		TokenStream ts = this.analyzer.tokenStream(text, reader);

		Token t;
		t = ts.next();
		while (t != null) {
			sb.append(t.termText());
			sb.append(" ");
			t = ts.next();
		}
		return sb.toString();
	}
}

方法fenci01fenci02都可以拿来用,不过fenci02中的ts.next()t.termText()是被弃用的。

创建文件FenciMain.java,内容如下:

import java.io.IOException;

public class FenciMain {
	public static void main(String[] args) throws IOException {
		PaoDingFenci pd = new PaoDingFenci();
		String text = "自己翻译的官方文档,需要的人可以参考一下,有翻译错误还请指正。 \nHello world";
		System.out.println(pd.fenci01(text));
		System.out.println(pd.fenci02(text));
	}
}

然后建立文件paoding-dic-home.properties,内容如下:

# values are "system-env" or "this";
# if value is "this" , using the paoding.dic.home as dicHome if configed!
paoding.dic.home.config-fisrt=this

# dictionary home (directory)
# "classpath:xxx" means dictionary home is in classpath.
# e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory
paoding.dic.home=/home/letian/paoding-analysis-2.0.4-beta/dic

# seconds for dic modification detection
# paoding.dic.detector.interval=60

运行FenciMain.java,结果如下:

翻译 官方 文档 需要 要的 的人 参考 一下 翻译 译错 错误 还请 指正 hello world 
翻译 官方 文档 需要 要的 的人 参考 一下 翻译 译错 错误 还请 指正 hello world 

两种分词模式

默认模式是most-words。 文件FenciMain2.java

import java.io.IOException;

public class FenciMain2 {
	public static void main(String[] args) throws IOException {
		PaoDingFenci pd = new PaoDingFenci();
		String text = "中华人民共和国";
		System.out.println(pd.fenci01(text));
	}
}

结果如下:

中华 华人 人民 共和 共和国 

在项目中添加paoding-analyzer.properties文件,内容如下:

# PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...

paoding.analyzer.mode=most-words
paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

# paoding.analyzer.mode=max-word-length
# paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler

上面的配置代表启用most-words模式,FenciMain2.java运行结果如下:

中华 华人 人民 共和 共和国 

修改paoding-analyzer.properties文件,启用max-word-length模式:

# PaodingAnlyzer Mode, "most-words", "max-word-length", "class:com.xxx.MyTokenCollectorImpl"...

# paoding.analyzer.mode=most-words
# paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

paoding.analyzer.mode=max-word-length
paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler

注意,“max-word-length”等的后面不要有空格,否则会出现下面的错误:

java.lang.IllegalArgumentException: 不合法的分析器Mode参数设置:max-word-length  

最后一行"net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler"的后面也不要有空格,否则会出现下面的错误:

java.lang.ClassNotFoundException: net.paoding.analysis.analyzer.impl.SortingDictionariesCompiler  

FenciMain2.java运行结果如下:

中华人民共和国 

下面这段文字:

互联网安全事件层出不穷,用户每时每刻都有可能会遭受攻击者袭击。

most-words模式分词结果如下:

互联 联网 安全 事件 层出 层出不穷 用户 每时 每刻 都有 可能 有可能 可能会 遭受 攻击 攻击者 袭击 

max-word-length模式分词结果如下:

互联网 安全 事件 层出不穷 用户 每时每刻 都有 有可能 可能会 遭受 攻击者 袭击

该工具作者的博客

Qieqie

遇到的问题

运行时出现下面的错误:

Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory

原因:没有引入commons-logging-1.2.jar


( 本文完 )