首页 » PHP教程 » php简体繁体技巧_结巴中文分词合营php运用在linux安装全过程和运用代码

php简体繁体技巧_结巴中文分词合营php运用在linux安装全过程和运用代码

访客 2024-10-29 0

扫一扫用手机浏览

文章目录 [+]

2、https://github.com/fxsjy/jieba

二、结巴分词特点:

1、支持三种分词模式:

php简体繁体技巧_结巴中文分词合营php运用在linux安装全过程和运用代码

a、精确模式,试图将句子最精确地切开,适宜文本分析;

php简体繁体技巧_结巴中文分词合营php运用在linux安装全过程和运用代码
(图片来自网络侵删)

b、全模式,把句子中所有的可以成词的词语都扫描出来, 速率非常快,但是不能办理歧义;

c、搜索引擎模式,在精确模式的根本上,对长词再次切分,提高召回率,适宜用于搜索引擎分词。

2、支持繁体分词

3、支持自定义词典

三、安装步骤:

利用centos+ngnix+mysql+php环境,利用PuTTY远程做事器,上岸后安装步骤如下(参考资料1内容):

git clone https://github.com/jonnywang/phpjieba.git

cd phpjieba/cjieba

make

cd ..

phpize

./configure --with-php-config=/www/server/php/71/bin/php-config (这里填写自己php-config路径)

make

make install

在对应php.ini中增加类似如下配置信息

[jieba]

extension=/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so

jieba.enable=1

jieba.dict_path=/usr/local/download/jieba71/phpjieba/cjieba/dict

个中/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so是编辑后产生的文件,

/usr/local/download/jieba71/phpjieba/cjieba/dict是下载解压缩的文件目录文件,确保文件路径精确

末了重启一下做事器;

编译安装后jieba.so的路径截图

四、利用的php代码示例和分词api测试

自己建立的中文分词api:http://api.zzv.cn/jieba.php?word=微奇奇软件分词&type=0

个中type=0是默认精确模式,1是全模式,2是搜索模式,搜索模式目前还有点问题

api做事器端处理jieba.php代码:

$word=$_REQUEST['word'];

$cutType=$_REQUEST['type'];

if($cutType<>'0'&&$cutType<>'1'&&$cutType<>'2')

$cutType='0';

$result = jieba($word,$cutType);

$code=json_encode($result);

echo $code;

在线测试中文分词demo:http://api.zzv.cn/jiebademo.php

五、自定义字典:

直接编辑下载的自定义词库文件/usr/local/download/jieba71/phpjieba/cjieba/dict/user.dict.utf8即可

编辑增加用户词库

分词词库测试demo截图

标签:

相关文章

五笔输入法,传承与创新中的文字输入革命

五笔输入法作为我国特有的汉字输入技术,自诞生以来,便以其独特的魅力和高效的输入速度赢得了广大用户的喜爱。如今,随着科技的不断发展,...

PHP教程 2025-01-01 阅读0 评论0

五笔输入法,传承与创新下的智能输入革命

随着科技的不断发展,计算机已经成为了我们日常生活中不可或缺的工具。而输入法作为计算机与使用者之间的桥梁,对于提高工作效率和生活品质...

PHP教程 2025-01-01 阅读0 评论0

五笔输入法,传承与创新中的“姊五笔”

随着科技的发展,输入法在我国已经成为了人们日常生活中不可或缺的工具。五笔输入法作为其中的一种,以其独特的编码方式和高效的速度,受到...

PHP教程 2025-01-01 阅读0 评论0