首页 » 网站推广 » php重拍索引技巧_提升搜索体验Crispy mixedbread重排模型

php重拍索引技巧_提升搜索体验Crispy mixedbread重排模型

访客 2024-12-14 0

扫一扫用手机浏览

文章目录 [+]

但是,许多公司已经环绕基于关键词的搜索构建了弘大的流水线和系统。
迁移到语义嵌入搜索将是资源密集型和本钱高昂的。

通过我重排模型,公司可以利用现有的搜索根本举动步伐并在其上增加语义提升。
这些模型在行业干系的用例上表现非常好。
更主要的是?它们是开源的,并且在性能上与许多闭源竞争对手相称,乃至更好。

php重拍索引技巧_提升搜索体验Crispy mixedbread重排模型

包括重排的两阶段搜索流程

php重拍索引技巧_提升搜索体验Crispy mixedbread重排模型
(图片来自网络侵删)

重排是在第一阶段检索步骤之后运用的。
可以利用基于关键词的搜索系统(如Elasticsearch或Solr)来检索前100个或更多候选项,我们的重排模型可以在末了阶段运用,以将最干系的候选项提升到顶部。

先容mixedbread重排模型系列

这些模型完备开源,可以自己托管它们或通过即将推出的API利用它们。
这些模型可以成为任何高性能搜索系统不可或缺的一部分。

这些模型是利用大量真实搜索查询和这些查询的搜索引擎前10结果进行演习的。
一个大型措辞模型根据其与查询的干系性对结果进行排名。
然后利用这些旗子暗记来演习重排模型。
实验表明,模型显著提升了搜索性能,特殊是对付繁芜和特定领域的查询。

当与基于关键词的搜索引擎(如Elasticsearch、OpenSearch或Solr)结合利用时,重排模型端点可以添加到现有搜索事情流的末端,并许可用户在不变动现有根本举动步伐的情形下将语义干系性整合到他们的基于关键词的搜索系统中。
这是一种大略、低繁芜度的方法,通过一行代码将语义搜索技能引入用户的堆栈,从而改进搜索结果。

提升搜索质量

模型与您现有的搜索堆栈非常随意马虎集成。
从现有搜索引擎获取初始结果后,将初始查询和结果列表通报给模型。
有两个选项:通过自己托管模型进行离线利用或利用我们(即将推出的)API进行在线利用。
我们的模型有三种尺寸:

mxbai-rerank-xsmall-v1:供应良好的性能,略微增加了非干系结果的分数。
mxbai-rerank-base-v1:最佳地平衡了尺寸和性能。
mxbai-rerank-large-v1:供应最高的准确性和性能。

本地利用

要开始,请安装必要的包:

Python

pip install -U sentence-transformers

JavaScript

npm i @xenova/transformers

这里是一个快速示例:给定查询“谁写了'To Kill a Mockingbird'?”我们想检索与该查询最干系的段落。

# 重排示例from sentence_transformers import CrossEncoder# 加载模型,这里我们利用根本大小的模型model = CrossEncoder("mixedbread-ai/mxbai-rerank-base-v1")# 示例查询和文档query = "Who wrote 'To Kill a Mockingbird'?"documents = ["'To Kill a Mockingbird' is a novel by Harper Lee published in 1960. It was immediately successful, winning the Pulitzer Prize, and has become a classic of modern American literature.","The novel 'Moby-Dick' was written by Herman Melville and first published in 1851. It is considered a masterpiece of American literature and deals with complex themes of obsession, revenge, and the conflict between good and evil.","Harper Lee, an American novelist widely known for her novel 'To Kill a Mockingbird', was born in 1926 in Monroeville, Alabama. She received the Pulitzer Prize for Fiction in 1961.","Jane Austen was an English novelist known primarily for her six major novels, which interpret, critique and comment upon the British landed gentry at the end of the 18th century.","The 'Harry Potter' series, which consists of seven fantasy novels written by British author J.K. Rowling, is among the most popular and critically acclaimed books of the modern era.","'The Great Gatsby', a novel written by American author F. Scott Fitzgerald, was published in 1925. The story is set in the Jazz Age and follows the life of millionaire Jay Gatsby and his pursuit of Daisy Buchanan."]# 打算分数results = model.rank(query, documents, return_documents=True, top_k=3)

这将产生一个按分数排序的文档列表:

结果

[{'corpus_id': 0,'score': 0.9968497,'text': "'To Kill a Mockingbird' is a novel by Harper Lee published in 1960. It was immediately successful, winning the Pulitzer Prize, and has become a classic of modern American literature."},{'corpus_id': 2,'score': 0.99251455,'text': "Harper Lee, an American novelist widely known for her novel 'To Kill a Mockingbird', was born in 1926 in Monroeville, Alabama. She received the Pulitzer Prize for Fiction in 1961."},{'corpus_id': 1,'score': 0.2528591,'text': "The novel 'Moby-Dick' was written by Herman Melville and first published in 1851. It is considered a masterpiece of American literature and deals with complex themes of obsession, revenge, and the conflict between good and evil."}]

corpus_id是输入文档列表的索引,分数和输入文本。

您可以在这里直接在浏览器中考试测验它。
非常感谢Hugging Face团队和Joshua Lochner为供应网络界面和一样平常帮助!

理解更多关于sentence-transformers rank函数或transformers.js的信息。

评估:业内最佳

在常见的基准测试如BEIR(利用子集)上对模型进行了基准测试。
首先,对NDCG@10进行了基准测试,这是衡量搜索结果整体质量的一种度量,考虑到干系文档在搜索结果列表中的位置和结果的干系性等级,列表中较高位置的结果有更重的权重。
此外,还测试了Accuracy@3,即模型在前三个结果中包含高度干系搜索结果的搜索查询数量。
对付搜索和RAG等任务的实际用例,准确性是一个特殊干系的基准。

现在,将展示我们的模型在11个BEIR数据集子集上的评估结果。
子集的选择是为了其在打算需求和现实天下运用性之间的适当比例。
请把稳,我们的模型从未看过这些评估数据集的任何样本,而当前模型常常遭受严重的数据透露。

首先,我们比较NDCG@10的性能:

mixedbread重排家族与其他模型之间的整体干系性分数比较

显然,所有模型都在搜索结果的整体干系性上供应了显著的提升,超过了常规的词汇(基于关键词)搜索。
更主要的是,它们同等地超过了同等大小乃至更大确当前模型,包括基于嵌入的语义搜索模型。
现在,为准确性对重排模型进行基准测试:

mixedbread重排家族与其他模型之间的准确性分数比较模型 BEIR准确性(11个数据集)词汇搜索(Pyserini) 66.4bge-reranker-base 66.9bge-reranker-large 70.6cohere-embed-v3 70.9mxbai-rerank-xsmall-v1 70.0mxbai-rerank-base-v1 72.3mxbai-rerank-large-v1 74.9

数据显示,mixedbread重排模型再次同等地表现得与其他当前可用模型相称,乃至更强,特殊是在比较模型大小时。
这也包括基于嵌入的语义搜索模型。
准确性指标特殊干系,由于它反响了用户搜索信息并期望在第一眼就能在屏幕上看到最干系结果的实际体验。
您可以在这里找到有关基准测试的更多信息。

必须指出,将重排模型作为第二阶段在基于嵌入的语义搜索之后利用,而不是基于关键词的搜索,将产生更加令人惊叹的结果!

标签:

相关文章

大数据级联,驱动未来发展的引擎

随着信息技术的飞速发展,大数据已成为当今世界的重要战略资源。大数据级联作为一种新兴的跨学科研究方法,正逐渐成为推动科技创新、产业发...

网站推广 2024-12-16 阅读0 评论0

大数据索引,构建未来信息检索的桥梁

随着信息技术的飞速发展,大数据已成为当今时代的重要特征。在大数据时代,如何快速、准确地获取和检索信息,成为了人们关注的焦点。大数据...

网站推广 2024-12-16 阅读0 评论0

大数据结盟,跨界融合下的智慧未来

随着信息技术的飞速发展,大数据已成为推动全球经济增长的重要引擎。在众多领域,大数据的应用不断拓展,为各行各业带来了前所未有的机遇。...

网站推广 2024-12-16 阅读0 评论0

大数据组胚,科技赋能下的未来医疗革命

随着科技的飞速发展,大数据在各个领域都展现出了巨大的潜力。在医疗领域,大数据组胚技术应运而生,为未来的医疗革命提供了强大的技术支持...

网站推广 2024-12-16 阅读0 评论0

大数据苗子,智慧农业的未来展望

随着互联网、物联网、云计算等技术的飞速发展,大数据已经成为当今世界最热门的话题之一。在我国,农业作为国民经济的基础,其发展备受关注...

网站推广 2024-12-16 阅读0 评论0