首页 » 网站建设 » php分词扩大技巧_PHP中文分词扩展

php分词扩大技巧_PHP中文分词扩展

访客 2024-11-06 0

扫一扫用手机浏览

文章目录 [+]

由于这是个根本性工具,Python作为一个机器学习,搞nlp的首选措辞,基本上是调个包的事情,但Python的痛点大家也知道~普遍效率低!
当时也没拜托搞Java的同道帮忙,就琢磨PHP能不能也搞一个,然后,就有了下面这篇先容~

PHP中文分词扩展

php分词扩大技巧_PHP中文分词扩展

安装

php分词扩大技巧_PHP中文分词扩展
(图片来自网络侵删)

git clone https://github.com/jonnywang/phpjieba.gitcd phpjieba/cjiebamakecd ..phpize (如果是多版本PHP,则是例如:/usr/local/php/71/bin/phpize)./configure(./configure --with-php-config=/usr/local/php/71/bin/php-config)makemake installphp.ini 加上extension=jieba.sojieba.enable=1 jieba.dict_path=/usr/local/phpjieba/data/softs/jz/cjieba/dict #指向jieba库dict目录

function

array jieba(string $text, bool use_extract = false, long extract_limit = 10)

examples:

ini_set('jieba.enable', 1); //php.ini 配置了可不用写ini_set('jieba.dict_path', '/usr/local/data/softs/phpjieba/cjieba/dict'); //php.ini 配置了可不用写try { $result = jieba('小明硕士毕业于中国科学院打算所,后在日本京都大学深造'); echo implode('/', $result) . PHP_EOL; //打算所/小明/京都大学/深造/硕士/中国科学院/毕业/日本 $result = jieba('小明硕士毕业于中国科学院打算所,后在日本京都大学深造', 1, 50); echo implode('/', $result) . PHP_EOL; //小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/打算/打算所/,/后/在/日本/京都/大学/京都大学/深造 $result = jieba('贰生理康健', 1); echo implode('/', $result) . PHP_EOL; //他/生理/康健/生理康健 $result = jieba('this is a demo, my name is jony', 1, 10); echo implode('/', $result) . PHP_EOL; //demo/jony $result = jieba('this is a demo, my name is jony'); echo implode('/', $result) . PHP_EOL; //this/ /is/ /a/ /demo/,/ /my/ /name/ /is/ /jony $result = jieba('小明硕士毕业于中国科学院打算所,后在日本京都大学深造', 2); print_r($result);/ Array ( [小明] => x [硕士] => n [毕业] => n [于] => p [中国科学院] => nt [打算所] => n => x [后] => f [在] => p [日本] => ns [京都大学] => nz [深造] => v ) /} catch (Exception $e) {echo $e->getMessage . PHP_EOL;}

还有便是,如果有须要完全匹配的词语,可放到dict文件夹下,这样就不会拆分了。
性能上,别的不说,比起Python的分词包,那是不出意外的秒杀,哈哈~

相关文章

phpui技巧_关于UI的进修技巧你理解若干

随着打算机行业的兴起,Java,PHP,UI等一些行业对付人才的需求量也是越来越多,由于行业竞争力的增强行业哀求也越来越高,以是对...

网站建设 2024-12-09 阅读0 评论0