代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Java
】
简单的中文正向最大前缀匹配
作者:
oO脾气不坏Oo
/ 发布于
2013/9/2
/
769
package com.gj.split; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.HashSet; import java.util.List; import java.util.Set; /** * 简单的中文最大前缀匹配,仅能切分连续中文句子 * @author guojing * * 2013-8-27 */ public class MMWordMatch { private static Set<String> words; /** * 加载词典 * @param path 词典文件路径 */ public static void loadWords(String path){ if(null==words){ words=new HashSet<String>(); } if(null==path||path.equals("")){ return; } File f=new File(path); try { InputStreamReader isReader=new InputStreamReader(new FileInputStream(f)); BufferedReader bufferReader=new BufferedReader(isReader); String word=""; while((word=bufferReader.readLine())!=null){ words.add(word); } } catch (FileNotFoundException e) { System.err.println("词典文件未找到!"); } catch (IOException e) { System.err.println("IO读取错误!"); } } /** * 切分语句 * @param document 语句 * @return */ public static List<String> splitWords(String document){ List<String> result=new ArrayList<String>(); int offset=0;//记录每次截取的位置 //一次截取四个字进行匹配,若匹配到则逐字减少,如果只有一个字,则直接放入list while(document.length()>0){ if(document.length()>=4){ offset=4; }else{ offset=document.length(); } String matchWord=document.substring(0, offset); if(words.contains(matchWord)){ result.add(matchWord); }else{ //逐字减少进行判断 while(matchWord.length()>1){ offset--; matchWord=matchWord.substring(0, offset); if(words.contains(matchWord)){ result.add(matchWord); break; } } //一个字则直接加入 if(matchWord.length()==1){ result.add(matchWord); } } //继续截取 document=document.substring(offset, document.length()); } return result; } public static void main(String[] args) { loadWords("E:\\test\\dict.txt"); List<String> result=splitWords("我的朋友们很高兴"); for(String str : result){ System.out.print(str+"|"); } } /** * 词典结构如下(每行一个词): 我们 我的 朋友 朋友们 人们 高兴 */ }
试试其它关键字
中文正向最大前缀匹配
同语言下
.
List 切割成几份 工具类
.
一行一行读取txt的内容
.
Java PDF转换成图片并输出给前台展示
.
java 多线程框架
.
double类型如果小数点后为零则显示整数否则保留两位小
.
将图片转换为Base64字符串公共类抽取
.
sqlParser 处理SQL(增删改查) 替换schema 用于多租户
.
JAVA 月份中的第几周处理 1-7属于第一周 依次类推 29-
.
java计算两个经纬度之间的距离
.
输入时间参数计算年龄
可能有用的
.
实现测量程序运行时间及cpu使用时间
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
oO脾气不坏Oo
贡献的其它代码
(
2
)
.
打老鼠游戏
.
简单的中文正向最大前缀匹配
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3