文章目录
[+]
下面让我们 一起来理解一下评分是如何打算的?本文我们先探索一下最大略的相似度打算:余弦相似度算法,
余弦相似度余弦相似度打算的步骤紧张有以下几步:
假设查询语句为q,待匹配的文档为d

(图片来自网络侵删)
余弦函数的取值范围为:[-1,1]。行文本相似度度量时,利用正区间[0,1],0表示“完备不同”,1表示“完备相同”。
举例文本1: 我本日去打网球,然后去打橄榄球。
文本2: 我来日诰日去吃火锅,然后去打篮球。
语句分词:文本1: 我 本日 去 打 网球 , 然后 去 打 橄榄球 。文本2:我 来日诰日 去 吃 火锅 , 然后 去 打 篮球 。处理词条。去除“无意义”词,比如:标点符号文本1: 我 本日 去 打 网球 然后 去 打 橄榄球文本2:我 来日诰日 去 吃 火锅 然后 去 打 篮球词条向量化利用文本1和文本2的分词凑集并集作为分词凑集,凑集为:我 本日 来日诰日 去 吃 打 然后 网球 橄榄球 篮球 火锅向量化,如果文本中有某个词在分词凑集中,则对应位置标记为1分词凑集
我
本日
来日诰日
去
吃
打
然后
网球
橄榄球
篮球
火锅
文本1
1
1
1
1
1
1
1
文本2
1
1
1
1
1
1
1
1
打算权重,此处以分词在文本中涌现的次数作为分词的权重,加入权重的向量分词凑集
我
本日
来日诰日
去
吃
打
然后
网球
橄榄球
篮球
火锅
文本1
1
1
2
2
1
1
1
文本2
1
1
2
1
1
1
1
1
打算余弦值打算结果约为:0.727