首页 » Web前端 » 英文分词php技巧_Java 开源中文分词器 Jcseg

英文分词php技巧_Java 开源中文分词器 Jcseg

访客 2024-12-14 0

扫一扫用手机浏览

文章目录 [+]

Jcseg 是什么?

Jcseg 是基于 mmseg 算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动择要等功能,并且供应了最新版本的 lucene, solr, elasticsearch 的分词接口。
Jcseg 自带了一个 jcseg.properties 文件用于快速配置而得到适宜不同场合的分词运用,例如:最大匹配词长、是否开启中文人名识别、是否追加拼音、是否追加同义词等。

英文分词php技巧_Java 开源中文分词器 Jcseg

Jcseg 核心功能:

英文分词php技巧_Java 开源中文分词器 Jcseg
(图片来自网络侵删)
中文分词:mmseg 算法 + Jcseg 独创的优化算法。
关键字提取:基于textRank算法。
关键短语提取:基于textRank算法。
关键句子提取:基于textRank算法。
文章自动择要:基于BM25+textRank算法。
自动词性标注:目前只是基于词库,效果不是很空想。
Restful api:嵌入 jetty 供应了一个绝对高性能的 server 模块,包含全部功能的 http 接口,标准化 json 输出格式,方便各种措辞客户端直接调用。

Jcseg 中文分词:

四种切分模式:

大略单纯模式:FMM 算法,适宜速率哀求场合繁芜模式:MMSEG 四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%检测模式:只返回词库中已有的词条,很适宜某些运用处所检索模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与繁芜模式同等(英文,组合词等)分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的运用NLP 模式:继续自繁芜模式,变动了数字,单位等词条的组合办法,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回支持自定义词库。
在 lexicon 文件夹下,可以随便添加/删除/变动词库和词库内容,并且对词库进行了分类。
支持词库多目录加载,配置 lexicon.path 中利用';'隔开多个词库目录。
词库分为简体/繁体/简繁体稠浊词库:可以专门适用于简体切分、繁体切分、简繁体稠浊切分,并且可以利用下面提到的同义词实现,简繁体的相互检索,Jcseg 同时供应了词库两个大略的词库管理工具来进行简繁体的转换和词库的合并。
中英文同义词追加/同义词匹配 + 中文词条拼音追加。
词库整合了《当代汉语词典》和 cc-cedict 辞典中的词条,并且依据 cc-cedict 词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。
变动 jcseg.properties 配置文档可以在分词的时候加入拼音和同义词到分词结果中。
中文数字和中文分数识别,例如:\"大众一百五十个人都来了,四十分之一的人。
\"大众中的\公众一百五十\"大众和\"大众四十分之一\公众。
并且 Jcseg 会自动将其转换为阿拉伯数字加入到分词结果中。
如:150, 1/40。
支持中英稠浊词和英中稠浊词的识别(掩护词库可以识别任何一种组合)。
例如:B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。
更好的英文支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。
自定义切分保留标点。
例如: 保留 &,就可以识别 k&r 这种繁芜词条。
繁芜英文切分结果的二次切分:可以保留原组合,同时可以避免繁芜切分带来的检索命中率低落的情形,例如QQ2013会被切分成: qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg 会将其转换为“5折”加入分词结果中。
智能圆角半角, 英文大小写转换。
分外字母识别:例如:Ⅰ,Ⅱ;分外数字识别:例如:①,⑩。
配对标点内容提取:例如:最好的 Java 书《java编程思想》,‘畅想杯黑客技能大赛’,被《,‘,“,『标点标记的内容。
(1.6.8版开始支持)。
智能中文人名/外文翻译人名识别。
中文人名识别精确率达 94% 以上。
(中文人名可以掩护 lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex 来提高准确率),(引入规则和词性后会达到 98% 以上的识别精确率)。
自动中英文停滞词过滤功能(须要在 jcseg.properties 中开启该选项,lex-stopwords.lex 为停滞词词库)。
词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载。
自动词性标注(目前基于词库)。
自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。

Jcseg 快速体验:

终端测试:

cd 到 Jcseg 根目录。
ant all(或者利用 maven 编译)运行:java -jar jcseg-core-{version}.jar你将看到如下的终端界面在光标处输入文本开始测试

+--------Jcseg chinese word tokenizer demo---------------+|- @Author chenxin<chenxin619315@gmail.com> ||- :seg_mode : switch to specified tokenizer mode. ||- (:complex,:simple,:search,:detect,:delimiter,:NLP) ||- :keywords : switch to keywords extract mode. ||- :keyphrase : switch to keyphrase extract mode. ||- :sentence : switch to sentence extract mode. ||- :summary : switch to summary extract mode. ||- :help : print this help menu. ||- :quit : to exit the program. |+--------------------------------------------------------+jcseg~tokenizer:complex>>

测试样板:

分词文本

歧义和同义词:研究生命起源,稠浊词: 做B超检讨身体,x射线实质是什么,本日去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开始大学之旅,岳阳本日的气温为38.6℃, 也便是101.48℉, 中文数字/分数: 你分三十分之二, 小陈拿三十分之五,剩下的三十分之二十三全部是我的,那是一九九八年前的事了,四川麻辣烫很好吃,五四运动留下的五四精神。
条记本五折包邮亏本大甩卖。
人名识别: 我是陈鑫,也是jcseg的作者,三国期间的诸葛亮是个天才,我们一起给刘翔加油,罗志高兴奋极了由于老吴送了他一台条记本。
外文名识别:冰岛韶光7月1日,正在当地拍片的汤姆·克鲁斯通过发言人承认,他与第三任妻子凯蒂·赫尔墨斯(第一二任妻子分别为咪咪·罗杰斯、妮可·基德曼)的婚姻即将结束。
配对标点: 本次『畅想杯』黑客技能大赛的得主为电信09-2BF的张三,褒奖C++程序设计措辞一书和【畅想网络】的『PHP教程』一套。
分外字母: 【Ⅰ】(Ⅱ),英文数字:

分词结果:

歧义/n 和/o 同义词/n :/w 研究/vn 琢磨/vn 研讨/vn 研讨/vn 生命/n 起源/n ,/w 稠浊词 :/w 做/v b超/n 检讨/vn 身体/n ,/w x射线/n x光芒/n 实质/n 是/a 什么/n ,/w 本日/t 去/q 奇都ktv/nz 唱/n 卡拉ok/nz 去/q ,/w 哆啦a梦/nz 是/a 一个/q 动漫/n 中/q 的/u 主角/n ,/w 单位/n 和/o 全角/nz :/w 2009年/m 8月/m 6日/m 开始/n 大学/n 之旅 ,/w 岳阳/ns 本日/t 的/u 气温/n 为/u 38.6℃/m ,/w 也便是/v 101.48℉/m ,/w 中文/n 国语/n 数字/n //w 分数/n :/w 你/r 分/h 三十分之二/m ,/w 小陈/nr 拿/nh 三十分之五/m ,/w 剩下/v 的/u 三十分之二十三/m 全部/a 是/a 我的/nt ,/w 那是/c 一九九八年/m 1998年/m 前/v 的/u 事/i 了/i ,/w 四川/ns 麻辣烫/n 很/m 好吃/v ,/w 五四运动/nz 留下/v 的/u 五四/m 54/m 精神/n 。
/w 条记本/n 五折/m 5折/m 包邮 亏本/v 大甩卖 甩卖 。
/w 人名/n 识别/v :/w 我/r 是/a 陈鑫/nr ,/w 也/e 是/a jcseg/en 的/u 作者/n ,/w 三国/mq 期间/n 的/u 诸葛亮/nr 是个 天才/n ,/w 我们/r 一起/d 给/v 刘翔/nr 加油/v ,/w 罗志高/nr 愉快/v 极了/u 由于/c 老吴/nr 送了 他/r 一台 条记本/n 。
/w 外文/n 名/j 识别/v :/w 冰岛/ns 韶光/n 7月/m 1日/m ,/w 正在/u 当地/s 拍片/vi 的/u 汤姆·克鲁斯/nr 阿汤哥/nr 通过/v 发言人/n 承认/v ,/w 他/r 与/u 第三/m 任/q 妻子/n 凯蒂·赫尔墨斯/nr (/w 第一/a 二/j 任/q 妻子/n 分别为 咪咪·罗杰斯/nr 、/w 妮可·基德曼/nr )/w 的/u 婚姻/n 即将/d 结束/v 。
/w 配对/v 标点/n :/w 本次/r 『/w 畅想杯/nz 』/w 黑客/n 技能/n 大赛/vn 的/u 得主/n 为/u 电信/nt 09/en -/w bf/en 2bf/en 的/u 张三/nr ,/w 褒奖/vn c++/en 程序设计/gi 措辞/n 一书/ns 和/o 【/w 畅想网络/nz 】/w 的/u 『/w PHP教程/nz 』/w 一套/m 。
/w 分外/a 字母/n :/w 【/w Ⅰ/nz 】/w (/w Ⅱ/m )/w ,/w 英文/n 英语/n 数字/n :/w bug/en report/en chenxin/en 619315/en gmail/en com/en chenxin619315@gmail.com/en or/en visit/en http/en :/w //w //w code/en google/en com/en code.google.com/en //w p/en //w jcseg/en ,/w we/en all/en admire/en appreciate/en like/en love/en enjoy/en the/en hacker/en spirit/en mind/en !/w 分外/a 数字/n :/w ①/m ⑩/m ⑽/m ㈩/m ./w

标签:

相关文章

大数据时代下的精准营销,变革与创新

随着互联网的飞速发展,大数据已经成为当今时代的重要资源。大数据的广泛应用,使得各行各业都在寻求创新,其中,精准营销便是大数据应用的...

Web前端 2024-12-15 阅读0 评论0

phpsqljoin函数技巧_SQL之JOIN优化

JOIN 操作有多种办法,取决于终极数据的合并效果。常用连接办法的有以下几种:2、驱动表的定义什么是驱动表?多表关联查询时,第一个...

Web前端 2024-12-15 阅读0 评论0