首页 » SEO优化 » web3php技巧_AI 与Web3 数据行业融合现状竞争格局与未来机遇探析上

web3php技巧_AI 与Web3 数据行业融合现状竞争格局与未来机遇探析上

访客 2024-12-13 0

扫一扫用手机浏览

文章目录 [+]

择要:LLM 技能的发展让人们更加关注 AI 与 Web3 的结合,新的运用范式正在逐步展开。
本文中,我们将重点研究如何利用 AI 提升 Web3 数据的利用体验和生产效率。
由于行业尚处早期阶段和区块链技能的特性,Web3 数据行业面临着诸多寻衅,包括数据来源、更新频率、匿名属性等,使得利用 AI 办理这些问题成为新关注点。
LLM 相对付传统人工智能的可扩展性、适应性、效率提升、任务分解、可访问性和易用性等上风,为提高区块链数据的体验和生产效率供应了想象空间。
LLM 须要大量高质量数据进行演习,而区块链领域垂直知识丰富且数据公开,可以为 LLM 供应学习素材。
LLM 也可以帮助生产和提升区块链数据的代价,例如数据洗濯、标注、天生构造化数据等。
LLM 不是万灵药,须要针对详细业务需求进行运用。
既要利用 LLM 的高效率,同时也要把稳结果的准确性。

1AI 与 Web3 的发展与结合

1.1 AI 的发展历史

web3php技巧_AI 与Web3 数据行业融合现状竞争格局与未来机遇探析上

人工智能(AI)的历史可以追溯到上个世纪 50 年代。
自 1956 年起,人们开始关注人工智能这一领域,逐渐发展出了早期的专家系统,帮助专业领域办理问题。
此后,机器学习的兴起,拓展了 AI 的运用领域,AI 开始更广泛地运用在各行各业。
到如今,深度学习和天生式人工智能爆发,带给了人们无限可能性,个中的每一步都充满了不断的寻衅与创新,以追求更高的智能水平和更广泛的运用领域。

web3php技巧_AI 与Web3 数据行业融合现状竞争格局与未来机遇探析上
(图片来自网络侵删)

图 1:AI 发展进程

2022 年 11 月 30 日,ChatGPT 面世,首次展示了 AI 与人类低门槛、高效率交互的可能性。
ChatGPT 引发了对人工智能的更广泛磋商,重新定义了与 AI 互动的办法,使其变得更加高效、直不雅观和人性化,也推动了人们对更多天生式人工智能的关注,Anthropic(Amazon)、DeepMind(Google)、Llama 等模型也随后进入人们的视野。
与此同时,各行各业的从业者也开始积极探索 AI 会如何推动他们所在领域的发展,或者寻求通过与 AI 技能的结合在行业中脱颖而出,进一步加速了 AI 在各个领域的渗透。

1.2 AI 与 Web3 的交融

Web3 的愿景从改革金融体系开始,旨在实现更多的用户权力,并有望引领当代经济和文化的转变。
区块链技能为实现这一目标供应了坚实的技能根本,它不仅重新设计了代价传输和勉励机制,还为资源分配和权力分散供应了支持。

图 2:Web3 发展进程

早在 2020 年,区块链领域的投资公司 Fourth Revolution Capital(4RC)就曾指出,区块链技能将和 AI 结合,通过对金融、医疗、电子商务、娱乐等环球行业的去中央化,以实现对现有行业的颠覆。

目前,AI 与 Web3 的结合,紧张是两大方向:

利用 AI 去提升生产力以及用户体验。
结合区块链透明、安全、去中央化存储、可追溯、可验证的技能特点,以及 Web3 去中央化的生产关系,办理传统技能无法办理的痛点或者勉励社区参与,提高生产效率。

市场上 AI 与 Web3 的结合有以下的一些探索方向:

图 3:AI 与 Web3 结合全景图

数据:区块链技能可以运用在模型数据存储上,供应加密数据集,保护数据隐私和记录模型利用数据的来源、利用情形,以及校验数据的真实性。
通过访问和剖析存储在区块链上的数据,AI 可以提取有代价的信息,并用于模型演习和优化。
同时,AI 也可以作为数据生产工具,去提高 Web3 数据的生产效率。
算法:Web3 中的算法可以为 AI 供应更安全、可信和自主掌握的打算环境,为 AI 体统供应加密保障,在模型参数上,内嵌安全防护栏,防止系统被滥用或者恶意操作。
AI 可以与 Web3 中的算法进行交互,例如利用智能合约实行任务、验证数据和实行决策。
同时,AI 的算法也可以为 Web3 供应更智能化和高效的决策和做事。
算力:Web3 的分散式打算资源可以为 AI 供应高性能的打算能力。
AI 可以利用 Web3 中的分散式打算资源进行模型的演习、数据剖析和预测。
通过将打算任务分发到网络上的多个节点,AI 可以加快打算速率,并处理更大规模的数据。

在本文中,我们将重点探索如何利用 AI 的技能,去提升 Web3 数据的生产效率以及利用体验。

2Web3数据现状

2.1 Web2 & Web3 数据行业比拟

作为 AI 最核心的组成部分“数据”,在 Web3 跟我们熟习的 Web2 很着很多的差异。
差异紧张是在于 Web2 以及 Web3 本身的运用架构导致其产生的数据特色有所不同。

2.1.1 Web2 & Web3 运用架构比拟

图 4:Web2 & Web3 运用架构

在 Web2 架构中,常日是由单一实体(常日是一家公司)来掌握网页或者 APP,公司对付他们构建的内容有着绝对的掌握权,他们可以决定谁可以访问其做事器上的内容和逻辑,以及用户拥有若何的权柄,还可以决定这些内容在网上存在的时长。
不少案例表明,互联网公司有权改变其平台上的规则,乃至中止为用户供应做事,而用户对此无法保留所创造的代价。

而 Web3 架构则借助了通用状态层(Universal State Layer)的观点,将一部分或者全部的内容和逻辑放置在公共区块链上。
这些内容和逻辑是公开记录在区块链上的,可供所有人访问,用户可以直接掌握链上内容和逻辑。
而在 Web2 中,用户须要帐户或 API 密钥才能与区块链上的内容进行交互。
用户可以直接掌握其对应的链上内容和逻辑。
不同于 Web2,Web3 用户无需授权帐户或 API 密钥就能与区块链上的内容进行交互(特定管理操作除外)。

2.1.2 Web2 与 Web3 数据特色比拟

图 5:Web2 与 Web3 数据特色比拟

Web2 数据常日表现为封闭和高度受限的,具有繁芜的权限掌握,高度成熟、多种数据格式、严格遵照行业标准,以及繁芜的业务逻辑抽象。
这些数据规模弘大,但互操作性相对较低,常日存储在中心做事器上,且不看重隐私保护,大多数是非匿名的。

比较之下,Web3 数据更加开放,访问权限更广泛,只管成熟度较低,以非构造化数据为主,标准化较为罕见,业务逻辑抽象相对简化。
Web3 的数据规模相对 Web2 较小,但它具有较高的互操作性(比如 EVM 兼容),并可分散或集中存储数据,同时强调用户隐私,用户常日采取匿名办法进行链上交互。

2.2 Web3 数据行业现状与前景,以及碰着的寻衅

在 Web2 时期,数据如石油的“储量”般宝贵,访问和获取大规模数据一贯是极大的寻衅。
在 Web3 中,数据的开放性和共享性一下子让大家以为“石油到处都是”,使得 AI 模型能够更轻松地获取更多的演习数据,这对付提高模型性能和智能水平至关主要。
但对 Web3 这个“新石油” 的数据处理依然有很多问题待办理,紧张有以下几个:

数据来源:链上数据“标准”繁杂分散,数据处理花费大量人工本钱

处理链上数据时,须要反复实行耗时而劳动密集的索引过程,须要开拓者和数据剖析师花费大量韶光和资源来适应不同链、不同项目之间的数据差异。
链上数据行业缺少统一的生产和处理标准,除了记录到区块链账本上的,events,logs,and traces 等都基本上是项目自己定义和生产(或天生)的,这导致非专业交易者很难辨别并找到最准确和可信的数据,增加了他们在链上交易和投资决策中的困难。
比如,去中央化交易所 Uniswap 和 Pancakeswap 就有可能在数据处理方法和数据口径上存在差异,过程中的检讨和统一口径等工序进一步加大了数据处理的繁芜性。

数据更新:链上数据体量大且更新频率高,难以及时地处理成构造化数据

区块链是时候变动的,数据更新以秒乃至毫秒级别计。
数据的频繁产生和更新使其难以坚持高质量的数据处理和及时的更新。
因此,自动化的处理流程是十分主要的,这也是对付数据处理的本钱和效率的一大寻衅。
Web3 数据行业仍处于低级阶段。
随着新合约的层出不穷和迭代更新,数据缺少标准、格式多样,进一步增加了数据处理的繁芜性。

数据剖析:链上数据的匿名属性,导致数据身份难以区分

链上数据常日不包含足够的信息来清晰识别每个地址的身份,这使得数据在与链下的经济、社会或法律动向难以联动。
但是链上数据的动向与现实天下紧密干系,理解链上活动与现实天下中特定个体或实体的关联性对付特定的场景比如数据剖析来说十分主要。

随着大措辞模型(LLM)技能引发的生产力变更谈论,能否利用 AI 来办理这些寻衅也成为 Web3 领域的一个焦点关注之一。

3AI 与 Web3 数据碰撞产生的化学反应

3.1 传统 AI 与 LLM 的特色比拟

在模型演习方面,传统 AI 模型常日规模较小,参数数量在数万到数百万之间,但为了确保输出结果的准确性,须要大量的人工标注数据。
LLM 之以是如此强大,部分缘故原由在于其利用了海量的语料拟合百亿、千亿级以上的参数,极大地提升了它对自然措辞的理解能力,但这也意味着须要更多的数据来进行演习,演习成本相当高昂。

在能力范围和运行办法上,传统 AI 更适宜特定领域的任务,能够供应相对精准和专业的答案。
比较之下,LLM 更适宜通用性任务,但随意马虎产生幻觉问题,这意味着在一些情形下,它的回答可能不足精确或专业,乃至完备缺点。
因此,如果须要和客不雅观,可信任,和可以追溯的结果,可能须要进行多次检讨、多次演习或引入额外的纠错机制和框架。

图 6:传统 AI 与大模型措辞模型 (LLM)的特色比拟

3.1.1 传统 AI 在 Web3 数据领域的实践

传统 AI 已经在区块链数据行业展现了其主要性,为这一领域带来了更多创新和效率。
例如,0xScope 团队采取 AI 技能,构建了基于图打算的群集剖析算法,通过不同规则的权重分配来帮助准确识别用户之间的干系地址。
这种深度学习算法的运用提高了地址群集的准确性,为数据剖析供应了更精确的工具。
Nansen 则将 AI 用于 NFT 价格预测,通过数据剖析和自然措辞处理技能,供应有关 NFT 市场趋势的见地。
另一方面,Trusta Labs利用了基于资产图谱挖掘和用户行为序列剖析的机器学习方法,以增强其女巫检测办理方案的可靠性和稳定性,有助于掩护区块链网络生态的安全。
另一方面,Trusta Labs 采取了图挖掘和用户行为剖析的方法,以增强其女巫检测办理方案的可靠性和稳定性,有助于掩护区块链网络的安全。
Goplus 在其运营中利用传统人工智能来提高去中央化运用程序(dApps)的安全性和效率。
他们网络和剖析来自 dApp 的安全信息,供应快速风险警报,帮助降落这些平台的风险敞口。
这包括通过评估开源状态和潜在恶意行为等成分来检测 dApp 主条约中的风险,以及网络详细的审计信息,包括审计公司凭据、审计韶光和审计报告链接。
Footprint Analytics 则利用 AI 天生生产构造化数据的代码,剖析 NFT 交易 Wash trading 交易以及机器人账户筛选排查。

然而,传统 AI 拥有的信息有限,专注于利用预定的算法和规则实行预设任务,而 LLM 则通过大规模的自然措辞数据学习,可以理解和天生自然措辞,这使其更适宜处理繁芜且巨量的文本数据。

最近,随着 LLM 取得了显著进展,人们对 AI 与 Web3 数据的结合,也进行了一些新的思考与探索。

3.1.2 LLM 的上风

LLM 相对付传统人工智能具有以下上风:

可扩展性:LLM 支持大规模数据处理

LLM 在可扩展性方面表现出色,能够高效处理大量数据和用户互动。
这使其非常适宜处理须要大规模信息处理的任务,如文本分析或者大规模数据洗濯。
其高度的数据处理能力为区块链数据行业供应了强大的剖析和运用潜力。

适应性:LLM 可学习适应多领域需求

LLM 具备卓越的适应性,可以为特界说务进行微调或嵌入行业或私有数据库,使其能够迅速学习温柔应不同领域的细微差别。
这一特性使 LLM 成为理解决多领域、多用场问题的空想选择,为区块链运用的多样性供应了更广泛的支持。

提高效率:LLM 自动化任务提高效率

LLM 的高效率为区块链数据行业带来了显著的便利。
它能够自动化原来须要大量人工韶光和资源的任务,从而提高生产力并降落本钱。
LLM 可以在几秒内天生大量文本、剖析海量数据集,或实行多种重复性任务,从而减少了等待和处理韶光,使区块链数据处理更加高效。

任务分解:可以天生某些事情的详细操持,把大的事情分成小步骤

LLM Agent 具备独特的能力,即可以天生某些事情的详细操持,将繁芜任务分解为可管理的小步骤。
这一特性对付处理大规模的区块链数据和实行繁芜的数据剖析任务非常有益。
通过将大型事情分解成小任务,LLM 可以更好地管理数据处理流程,并输出高质量的剖析。

这一能力对付实行繁芜任务的 AI 系统至关主要,例如机器人自动化、项目管理和自然措辞理解与天生,使其能够将高等任务目标转化为详细的行动路线,提高任务实行的效率和准确性。

可访问性和易用性:LLM 以自然措辞供应用户友好互动

LLM 的可访问性使更多用户能够轻松与数据和系统进行互动,让这些互动更加用户友好。
通过自然措辞,LLM 使数据和系统更随意马虎访问和交互,无需用户学习繁芜的技能术语或特定命令,例如,SQL,R,Python 等来做数据获取和剖析。
这一特性拓宽了区块链运用的受众范围,让更多的人能够访问和利用 Web3 运用和做事,不论他们是否精通技能,从而促进了区块链数据行业的发展和遍及。

3.2 LLM 与 Web3 数据的领悟

图 7:区块链数据与 LLM 的领悟

大型措辞模型的培训须要依赖大规模数据,通过学习数据中的模式来建立模型。
区块链数据中蕴含的交互和行为模式是 LLM 学习的燃料。
数据量和质量也直接影响 LLM 模型的学习效果。

数据不仅仅是 LLM 的花费品,LLM 还有助于生产数据,乃至可以供应反馈。
例如,LLM 可以帮忙数据剖析师在数据预处理方面做出贡献,如数据洗濯和标注,或者天生构造化数据,打消数据中的噪声,凸显有效信息。

3.3 增强 LLM 的常用技能办理方案

ChatGPT 的涌现,不仅向我们展示了 LLM 办理繁芜问题的通用能力,同时也引发了环球范围的,对在通用能力上去叠加外部能力的探索。
这里包括,通用能力的增强(包括高下文长度、繁芜推理、数学、代码、多模态等)以及外部能力的扩充(处理非构造化数据、利用更繁芜的工具、与物理天下的交互等)。
如何将 crypto 领域的专有知识以及个人的个性化私有数据嫁接到大模型的通用能力上,是大模型在 crypto 垂直领域商业化落地的核心技能问题。

目前,大多数运用都集中在检索增强天生(RAG)上,比如提示工程和嵌入技能,已经存在的代理工具也大多都聚焦于提高 RAG 事情的效率和准确性。
市场上紧张的基于 LLM 技能的运用栈的参考架构有以下几种:

Prompt Engineering

图 8:Prompt Engineering

当前,大多数从业者在构建运用时采取根本办理方案,即 Prompt Engineering。
这一方法通过设计特定的 Prompt 来改变模型的输入,以知足特定运用的需求,是最方便快捷的做法。
然而,根本的 Prompt Engineering 存在一些限定,如数据库更新不及时、内容冗杂、以及对输入高下文长度(In-Context Length)的支持和多轮问答的限定。

因此,行业内也在研究更前辈的改进方案,包括嵌入(Embedding)和微调(Fine-tuning)。

嵌入(Embedding)

嵌入(Embedding)是一种广泛运用于人工智能领域的数据表示方法,能高效捕获工具的语义信息。
通过将工具属性映射成向量形式,嵌入技能能够通过剖析向量之间的相互关系,快速找到最有可能精确的答案。
嵌入可以在 LLM 的根本上构建,以利用该模型在广泛语料上学到的丰富措辞知识。
通过嵌入技能将特界说务或领域的信息引入到预演习的大模型中,使得模型更专业化,更适应特界说务,同时保留了根本模型的通用性。

用普通的话来讲,嵌入就类似于你给一个经由综合演习的大学生一本工具书,让他拿着拥有特界说务干系知识的工具书去完成任务,他可以随时查阅工具书,然后可以办理特定的问题。

微调(Fine-tuning)

图 9:Fine Tuning

微调(Fine-tuning)与嵌入不同,通过更新已经预演习的措辞模型的参数,使其适应特界说务。
这种方法许可模型在特界说务上表现出更好的性能,同时保持通用性。
微调的核心思想是调度模型参数,捕捉与目标任务干系的特定模式和关系。
但微调的模型通用能力上限仍旧受限于基座模型本身。

用普通的话来讲,微调就类似于给经由综合演习的大学生上专业知识课程,让他节制除了综合能力以外的专业课知识,能自行办理专业板块的问题。

重新演习 LLM

当前的 LLM 虽然强大,但不一定能够知足所有需求。
重新演习 LLM 是一种高度定制化的办理方案,通过引入新数据集和调度模型权重,使其更适应特界说务、需求或领域。
然而,这种方法须要大量打算资源和数据,并且管理和掩护重新演习后的模型也是寻衅之一。

Agent 模型

图 10:Agent 模型

Agent 模型是一种构建智能代理的方法,它以 LLM 作为核心掌握器。
这个别系还包括几个关键组成部分,以供应更全面的智能。

Planning,方案:将大任务分成小任务,这样更随意马虎完成Memory,反思:通过反思过去的行为,改进未来的操持Tools,工具利用:代理可以调用外部工具获取更多信息,如调用搜索引擎、打算器等

人工智能代理模型具备强大的措辞理解和天生能力,能够办理通用问题,进行任务分解以及自我反思。
这使得它在各种运用中都有广泛的潜力。
然而,代理模型也存在一些局限性,例如受到高下文长度的限定、长期方案和任务拆分随意马虎出错、输出内容的可靠性不稳定等问题。
这些局限性须要长期不断的研究和创新,以进一步拓展代理模型在不同领域的运用。

以上的各种技能并不是相互排斥的,它们可以在演习和增强同一个模型的过程中一起利用。
开拓者可以充分发挥现有大措辞模型的潜力,考试测验不同的方法,以知足日益繁芜的运用需求。
这种综合利用不仅有助于提高模型的性能,还有助于推动 Web3 技能的快速创新和进步。

然而,我们认为,虽然现有的 LLM 已经在 Web3 的快速发展中发挥了主要浸染,但在充分考试测验这些现有模型(如 OpenAI、Llama 2 以及其他开源 LLM)之前,我们可以从浅入深,从 prompt engineering 和嵌入等 RAG 策略入手,谨慎考虑微调和重新演习根本模型。

3.4 LLM 如何加速区块链数据生产的各个流程

3.4.1 区块链数据的一样平常处理流程

当今,区块链领域的培植者逐渐认识到数据产品的代价。
这一代价覆盖了产品运营监控、预测模型、推举系统以及数据驱动的运用程序等多个领域。
只管这一认知逐渐增强,但作为数据获取到数据运用中不可或缺的关键步骤,数据处理每每被忽略。

图 12:区块链数据处理流程

将区块链原始非构造化数据,如 events 或 logs 等,转换为构造化的数据

区块链上的每一笔交易或事宜都会天生 events 或 logs,这些数据常日是非构造化的。
这一步骤是获取数据的第一入口,但数据仍旧须要被进一步处理以提取有用信息,得到构造化的原始数据。
这包括整理数据、处理非常情形和转化为通用格式。

将构造化的原始数据,转换为具有业务意义的抽象表

在得到构造化原始数据后,须要进一步进行业务抽象,将数据映射到业务实体和指标上,比如交易量、用户量等业务指标,将原始数据转化为对业务和决策故意义的数据。

从抽象表中,打算提取业务指标

有了抽象的业务数据后,可以在业务抽象的数据上进行进一步打算,就可以得出各种主要的衍生指标。
例如交易总额的月增长率、用户留存率等核心指标。
这些指标可以借助 SQL、Python 等工具实现,更加有可能帮助监控业务康健、理解用户行为和趋势,从而支持决策和计策方案。

3.4.2 区块链数据天生流程加入 LLM 后的优化

LLM 在区块链数据处理中可以办理多个问题,包括但不限于以下内容:

处理非构造化数据:

从交易日志和事宜中提取构造化信息:LLM 可以剖析区块链的交易日志和事宜,提取个中的关键信息,如交易金额、交易方地址、韶光戳等,将非构造化数据转化为的带有业务意义的数据,使其更易于剖析和理解。
洗濯数据,识别非常数据:LLM 可以自动识别和洗濯不一致或非常的数据,帮助确保数据的准确性和同等性,从而提高数据质量。

进行业务抽象:

将原始链上数据映射到业务实体:LLM 可以将原始区块链数据映射到业务实体,例如将区块链地址映射到实际用户或资产,从而使业务处理更加直不雅观和有效。
处理非构造化链上内容,打标签:LLM 可以剖析非构造化数据,如 Twitter 情绪剖析结果,将其标记为正面、负面或中脾气感,从而帮助用户更好地理解社交媒体上的情绪方向。

自然措辞解读数据:

打算核心指标:基于业务抽象,LLM 可以打算核心业务指标,如用户交易量、资产代价、市场份额等,以帮助用户更好地理解其业务的关键性能。
查询数据:LLM 可以通过 AIGC,理解用户意图,天生 SQL 查询,利用户能够以自然措辞提出查询要求,而不必编写繁芜的 SQL 查询语句。
这增加了数据库查询的可访问性。
指标选择、排序和干系性剖析:LLM 可以帮助用户选择、排序和剖析不同的多个指标,以更好地理解它们之间的关系和干系性,从而支持更深入的数据剖析和决策制订。
产生业务抽象的自然措辞描述:LLM 可以根据事实数据,天生自然措辞择要或阐明,以帮助用户更好地理解业务抽象和数据指标,提高可阐明性,并使决策更具合理性。

3.5 目前用例

根据 LLM 自身的技能以及产品体验上风,它可以被运用到不同的链上数据场景,技能上从易到难可以将这些场景分成四类:

数据转换:进行数据增强、重构等操作,如文本择要、分类、信息抽取。
这类运用开拓较快,但更适宜通用场景,不太适宜大量数据的大略批量化处理。
自然措辞接口:将 LLM 连接知识库或工具,实现问答或基本工具利用的自动化。
这可以用于构建专业谈天机器人,但其实际代价受其所连接的知识库质量等其他成分影响。
事情流自动化:利用 LLM 实现业务流程的标准化和自动化。
这可以运用于较繁芜的区块链数据处理流程,如解构智能合约运行过程、风险识别等。
帮忙机器人与助手赞助系统:赞助系统是在自然措辞接口的根本上,集成更多数据源和功能的增强系统,大幅提高用户事情效率。

图 11:LLM 运用处景

3.6 LLM 的局限性

3.6.1 行业现状:成熟运用、正在占领的问题以及尚未办理的寻衅

在 Web3 数据领域,只管已经取得了一些主要的进展,但仍旧面临一些寻衅。

相对成熟的运用:

利用 LLM 进行信息处理:LLM 等 AI 技能已成功用于天生文本择要、总结、阐明等事情,帮助用户从长篇文章、专业报告中提取关键信息,提高了数据的可读性和可理解性。
利用 AI 办理开拓问题:LLM 已经运用于办理开拓过程中的问题,例如替代StackOverflow 或搜索引擎,为开拓者供应问题解答和编程支持。

有待办理与正在探索的问题:

利用 LLM 天生代码:行业正在努力将 LLM 技能运用于自然措辞到 SQL 查询措辞的转换,以提高数据库查询的自动化和可理解性。
然而,过程中会有很多困难,比如在某些情境下,天生的代码哀求极高的准确性,语法必须百分之百精确,以确保程序能够无 bug 运行,并得到精确的结果。
难点还包括确保问题回答的成功率、精确率,以及对业务的深刻理解。
数据标注问题:数据标注对付机器学习和深度学习模型的演习至关主要,但在 Web3 数据领域,特殊是处理匿名的区块链数据时,标注数据的繁芜性较高。
准确性和幻觉(Hallucination)问题:AI 模型中幻觉的涌现可能受多成分影响,包括有偏见或不敷的演习数据、过度拟合、有限的高下文理解、缺少领域知识、对抗性攻击和模型架构。
研究职员和开拓者须要不断改进模型的演习和校准方法,以提高天生文本的可信度和准确性。
利用数据进行业务剖析和文章输出:将数据用于业务剖析和天生文章仍旧是一个具有寻衅性的问题。
问题的繁芜性、须要精心设计的提示(prompt)、以及高质量的数据、数据量、减少幻觉问题的方法都是待办理的问题。
根据业务领域自动索引智能条约数据以进行数据抽象:自动为不同业务领域的智能条约数据建立索引以进行数据抽象仍旧是一个未办理的问题。
这须要综合考虑不同业务领域的特点,以及数据的多样性和繁芜性。
处理时序数据,表格文档数据等更繁芜的模态:DALL·E 2 等多模态模型非常善于在笔墨天生图像、语音等常见模态。
而在区块链以及金融领域须要特殊地对待一些时序数据,而非大略地把文本向量化就能办理。
联和时序数据与文本,跨模态联合演习等,是实现数据智能剖析以及运用的主要研究方向。

3.6.2 为何只靠 LLM 不能完美办理区块链数据行业的问题

作为措辞模型,LLM 更适用于处理对流畅度哀求较高的场景,而在追求准确性方面,可能须要对模型进行更进一步的调度。
在将 LLM 运用于区块链数据行业时,以下框架可供应一些参考。

图 13:区块链数据行业下 LLM 输出的流畅性、准确性和用例风险

在评估 LLM 在不同运用中的适用性时,关注流畅度和准确性是至关主要的。
流畅度指的是模型的输出是否自然、畅通,准确性则表示模型的答案是否准确。
这两个维度在不同运用处景中有不同的哀求。

对付流畅度哀求较高的任务,如自然措辞天生、创意写作等,LLM 常日能够胜任,由于其在自然措辞处理方面的强大性能使其能够天生流畅的文本。

区块链数据面临着数据解析、数据处理、数据运用等多方面的问题。
LLM 拥有卓越的措辞理解和推理能力,使其成为与区块链数据互动、整理和概括的空想工具。
然而,LLM 并不能办理所有区块链数据领域的问题。

在数据处理方面,LLM 更适宜快速迭代和探索性处理链上数据,不断考试测验新的处理方法。
然而,LLM 在生产环境中的详细核对等任务方面仍存在一些限定。
范例的问题是 token 长度不足,无法应对长高下文的内容。
耗时的 prompt,回答不稳定影响下贱任务进而导致成功率不稳定的问题,以及实行大批量任务的效率不高。

其次,LLM 处理内容的过程中很可能涌现幻觉问题。
据估计,ChatGPT 的幻觉概率约为 15% 至 20%,而由于其处理过程的不透明性,很多缺点难以察觉。
因此,框架的建立和专家知识的结合变得至关主要。
此外,LLM 结合链上数据还是有很多寻衅:

链上数据实体类型多、数量弘大,以何种形式投喂给 LLM,有效地利用在详细的商业化场景,类似其他垂直行业,须要更多研究和探索。
链上数据包括构造化和非构造化数据,目前行业大多数数据办理方案,都是基于对业务数据的理解。
解析链上数据的过程中,用 ETL 去过滤,洗濯,补充和复原业务逻辑,进一步把非构造化数据整理为构造化数据,可以为后期多种业务场景供应更高效的剖析。
比如,构造化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高质量,高代价,准确和真实等特点,可以给通用 LLM 供应高效的补充。

4被误解的 LLM

LLM 可以直接处理非构造化数据,因此构造化数据将不再被须要?LLM 常日基于海量文本数据预演习而来,天然适宜处理各种非构造化的文本数据。
然而,各个行业已经拥有大量构造化数据,尤其 Web3 领域中解析后的数据。
如何有效的利用这些数据,增强 LLM,是一个行业的热门研究课题。

对付 LLM,构造化数据仍旧具有以下的上风:

海量:大量的数据储存在各种运用背后的数据库和其他标准格式里面,特殊是私有数据。
每个公司和行业都还有大量 LLM 没有用于预演习的墙内数据。
已有:这些数据不须要重新生产,投入本钱极低,唯一的问题是怎么用起来。
高质量和高代价:领域内长期积累的,蕴含专家的专业知识,常日都沉淀到了却构化数据里面,用于产学研。
构造化数据的质量是数据可用性的关键,个中包括数据的完全性、同等性、准确性、唯一性和事实性。
高效率:构造化数据以表格、数据库或其他规范格式存储,模式是预先定义的,并且在全体数据集中保持同等。
这意味着数据的格式、类型和关系都是可预测和可控的,使得数据的剖析和查询更加大略和可靠。
而且,行业已经有成熟的 ETL 及各种数据处理和管理工具,利用起来也更加高效和便捷。
LLM 可以通过 API,把这些数据利用起来。
准确性和事实性:LLM 的文本数据,基于 token 概率,目前还不能稳定的输出确切的答案,产生的幻觉问题一贯是 LLM 要办理的核心根本问题。
对付很多行业和场景,会形成安全和可靠性问题,比如,医疗,金融等。
构造化数据,正是可以赞助和纠正LLM 这些问题的一个方向。
表示关系图谱,和特定业务逻辑:不同类型的构造化数据,可以以特定的组织形式(关系型数据库,图数据库等),输入到 LLM,办理不同类型的领域问题。
构造化数据利用标准化的查询措辞(如 SQL),使得对数据进行繁芜的查询和剖析变得更加高效和准确。
知识图谱 (Knowledge Graph) 可以更好地表达实体之间的关系,也更随意马虎进行关联查询。
利用本钱低:不用 LLM 每次重新从底层重新演习全体底座模型,可以结合 Agents 和LLM API 等 LLM 赋能办法,更快更低本钱的接入 LLM。

目前市场上还有一些脑洞大开的不雅观点,认为 LLM 在处理文本信息和非构造化信息方面的能力极强,只需将原始数据,包括非构造化数据,大略导入到 LLM,就能达到目的。
这个想法类似于哀求通用 LLM 解数学题,在没有专门构建数学能力模型的情形下,大多数 LLM 可能会在处理大略的小学加减题时出错。
反而,建立类似数学能力模型,和图像天生模型的 Crypto LLM 垂直模型,才是办理 LLM 在 Crypto 领域更落地的实践。

4.2 LLM 可以从新闻、推特等笔墨信息推测内容,人们不再须要链上数据剖析来得出结论?

LLM 虽然可以从新闻、社交媒体等文本中得到信息,但直接从链上数据中得到的洞察仍旧是不可或缺的,紧张缘故原由有:

链上数据是原始的第一手资讯,而新闻和社交媒体中的信息可能存在片面性或误导性。
直接剖析链上数据可以减少信息偏差。
只管利用 LLM 进行文本分析存在理解偏差的风险,但直接剖析链上数据可以减少误读。
链上数据包含全面的历史交互和交易记录,剖析可以创造长期趋势和模式。
链上数据还可以展现全体生态系统的全貌,如资金流向、各方关系等。
这些宏不雅观的洞察有助于更深入地理解状况。
而新闻和社交媒体信息常日更零散且短期。
链上数据是开放的。
任何人都可以验证剖析结果,避免信息的不对称。
而新闻和社交媒体未必都如实表露。
文本信息和链上数据可以相互验证。
综合两者可以形成更立体和准确的判断。

链上数据剖析仍是不可或缺的。
LLM 从文本中获取信息具有赞助浸染,但不能取代直接剖析链上数据。
充分利用两者上风才能取得最佳效果。

4.3 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的根本上构建区块链数据办理方案非常随意马虎?

LangChain 和 LlamaIndex 等工具为构建自定义的大略 LLM 运用供应了便利,使快速搭建成为可能。
然而,将这些工具成功运用于实际生产环境中涉及到更多的寻衅。
构建一个高效运行、保持高质量的 LLM 运用是一项繁芜的任务,须要深入理解区块链技能和 AI 工具的事情事理,并有效地将它们整合在一起。
这对付区块链数据行业来说,是一项主要但具有寻衅性的事情。

在这个过程中,必须认识到区块链数据的特性,它哀求极高的精准性和可重复校验性。
一旦数据通过 LLM 进行处理和剖析,用户对其准确性和可信度有很高的期望。
这与 LLM 的模糊容错性之间存在着潜在的抵牾。
因此,在构建区块链数据办理方案时,必须仔细权衡这两方面的需求,以知足用户的期望。

当前市场上,虽然已经有了一些根本工具,但这个领域仍在快速演进和不断迭代。
类比于 Web2 天下的发展进程,从最初的 PHP 编程措辞到更成熟、可扩展的方案如 Java、Ruby、Python,以及 JavaScript 和 Node.js 等,再到 Go 和 Rust 等新兴技能,都经历了不断的演化。
AI 工具也在不断变革,新兴的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未来可能性的一部分。
这表明,区块链数据行业和 AI 技能都还有许多发展空间,须要不断努力和创新。

当前在运用 LLM 时,有两个陷阱须要特殊把稳:

期望值过高:很多人认为 LLM 可以办理统统问题,但实际上 LLM 有明显的局限性。
它须要大量的打算资源,演习本钱高昂,而且演习过程可能不稳定。
对 LLM 的能力要有现实的期望,明白它在某些场景下表现出色,如自然措辞处理和文本天生,但在其他领域可能无法胜任。
忽略业务需求:另一个陷阱是强行运用 LLM 技能,而不充分考虑业务需求。
在运用 LLM 之前,务必明确详细的业务需求。
须要评估 LLM 是否是最佳技能选择,并做好风险评估和掌握。
强调 LLM 的有效运用须要根据实际情形慎重考虑,避免误用。

只管 LLM 在许多领域都具备巨大潜力,但开拓者和研究者在运用 LLM 时须要保持谨慎,采纳开放的探索态度,以找到更适宜的运用处景并最大程度地发挥其上风。

标签:

相关文章