首页 » 网站推广 » php余弦分类技巧_文本相似度计算之余弦相似度算法

php余弦分类技巧_文本相似度计算之余弦相似度算法

访客 2024-10-23 0

扫一扫用手机浏览

文章目录 [+]

下面让我们 一起来理解一下评分是如何打算的?本文我们先探索一下最大略的相似度打算:余弦相似度算法,

余弦相似度

余弦相似度打算的步骤紧张有以下几步:

php余弦分类技巧_文本相似度计算之余弦相似度算法

假设查询语句为q,待匹配的文档为d

php余弦分类技巧_文本相似度计算之余弦相似度算法
(图片来自网络侵删)
对q和d进行分词。
处理词条。
比如:大小写转换,去除一些“无意义”的词,如:标点符号等词条向量化。
取q和d的分词凑集并集,作为根本坐标,分别表示向量和向量打算权重。
最大略的办法是将词频(分词在分词凑集中涌现的次数)作为权重根据余弦公式打算余弦值。

余弦函数的取值范围为:[-1,1]。
行文本相似度度量时,利用正区间[0,1],0表示“完备不同”,1表示“完备相同”。

举例

文本1: 我本日去打网球,然后去打橄榄球。

文本2: 我来日诰日去吃火锅,然后去打篮球。

语句分词:文本1: 我 本日 去 打 网球 , 然后 去 打 橄榄球 。
文本2:我 来日诰日 去 吃 火锅 , 然后 去 打 篮球 。
处理词条。
去除“无意义”词,比如:标点符号文本1: 我 本日 去 打 网球 然后 去 打 橄榄球文本2:我 来日诰日 去 吃 火锅 然后 去 打 篮球词条向量化利用文本1和文本2的分词凑集并集作为分词凑集,凑集为:我 本日 来日诰日 去 吃 打 然后 网球 橄榄球 篮球 火锅向量化,如果文本中有某个词在分词凑集中,则对应位置标记为1

分词凑集

本日

来日诰日

然后

网球

橄榄球

篮球

火锅

文本1

1

1

1

1

1

1

1

文本2

1

1

1

1

1

1

1

1

打算权重,此处以分词在文本中涌现的次数作为分词的权重,加入权重的向量

分词凑集

本日

来日诰日

然后

网球

橄榄球

篮球

火锅

文本1

1

1

2

2

1

1

1

文本2

1

1

2

1

1

1

1

1

打算余弦值

打算结果约为:0.727

标签:

相关文章

招商蛇口中国房地产龙头企业,未来可期

招商蛇口(股票代码:001979),作为中国房地产企业的领军企业,自成立以来始终秉持“以人为本,追求卓越”的经营理念,致力于打造高...

网站推广 2025-02-18 阅读1 评论0