agentphp技巧_大年夜模型Agent技能未来10年99的开拓设计文字工作将被AI吸收

文章目录 [+]

随着大规模模型技能的兴起，我们正处于一个崭新的智能时期的黎明。
我们有一个大胆的预测，未来的5到10年将可能带来一场大变局：99%的开拓、设计和笔墨事情将被AI接管。
这不仅仅是一个想象，而是对未来可能趋势的寻思熟虑。

在互联网时期，我们目睹了大量网站的崛起，成为互联网时期的原生运用的紧张载体，这个时期有了 Web 干系的新技能，这些技能承载着 Google、Facebook、Twitter 等互联网明星企业的崛起。
进入移动互联网时期，App 成为了紧张载体，它们霸占了全体移动互联网时期人们把稳力的中央。
然而，当我们进入智能时期，开始思考：什么将会成为这个时期的核心载体？我们预测可能不再是 App，也不再是网站，而是 Agent，大概几年后的现实才能给出答案，但历史见告我们一个新鲜事物的演进总会找到一个稳定的术语来概括这个载体，而本日我们看到 Agent 最具有这个潜力。

agentphp技巧_大年夜模型Agent技能未来10年99的开拓设计文字工作将被AI吸收

对付这个猜想，随着我们后面讲的越来越深入，大家可能体会也会越来越深，由于它可能捉住的一些智能时期一个非常实质性的东西，基于大模型把 Agent 的能力推高到了一个全新的水平，这个在学术界研究了几十年的全新物种才开始走入人类舞台的中心。
在范式上我们也在思考是什么样的底层技能和架构会驱动 Agent 技能的快速发展，从现在的趋势来看，我们以为在人类的智能事理处于核心地位的面向目标架构很可能会成为驱动这个 Agent 技能发展的紧张范式。

（图片来自网络侵删）

而且现在环球对Agent的关注也是非常狂热的，几个月前，OpenAI 在内部就开始高度关注智能体（Agent）领域，Deep Mind的联合创始人最近也提到下一代 AI 技能走向并非是天生性 AI，而该当是交互性 AI。
这种交互性 AI 在很大程度上类似我们本日提到的智能体，用户哀求完成各种任务，智能体则可以对软件进行操作或者与人进行协作，完成干系的事情。

希望这些想法可以帮助大家在计策层面或者是产品和技能层面得到一个很好的思考框架，能够在各自的领域去推演未来。

导读

走马不雅观花、抛砖引玉
全体 PPT 一百多页，内容繁杂。
我给大家做一个大略的导读，紧张还是梳理脉络，提出思考的框架和基点，起到抛砖引玉的浸染，个中涉及的很多细节部分我们并没有做得非常细致。
期望大家在看完这个分享之后，对智能体技能有一个新的认知，并能运用在你们自己的研究方向或者职业方案上。
我们将全体内容分为四个部分：首先，会对从大模型到现在的智能体的技能发展做一个串讲；接着，先容通用智能事理和面向目标架构这个两个根本性问题；末了，基于这两个事理，剖析现在的智能体架构仍存在的毛病，以及未来可能的发展方向。
1. LLM Agents综述
如果你一贯关注 AI 领域，你该当能看到一个清晰的技能脉络，一开始大家玩 Prompt 工程，接着是Prompt Chain或Flow，再到Agent，多Agent，很清晰的一个脉络架构，我们也会沿着这个脉络给大家分享干系的经典事情。
我们回到 Agent 这个观点上，实际上，人类是这个星球上最强大的 Agent。
Agent是一个能感知并自主地采纳行动的实体，这里的自主性极其关键，Agent要能够实现设定的目标，个中包括具备学习和获取知识的能力以提高自身性能。
Agent 的繁芜程度各不相同，一个大略的恒温器可以是一个 Agent，一个大型的国家或者一个生物群体也可能是个 Agent。
感知环境、自主决策、具备行动能力，设定明确的目标和任务，适应环境及学习能力，都是 Agent 的关键特点。
Agent 这一观点的起源并不明确，可以是学术界逐渐发展沉淀而来，但是我们可以考虑马文·明斯基80年代《智能社会》这本书中在人工智能领域发扬光大了这个观点。
Agent 理论在大模型时期之前已经被学术界研究了很多年，乃至是汗牛充栋，许多理论研究都试图创造出具有人类智能水平的 Agent。
然而，在大模型涌现之前，Agent 的技能始终面对天花板限定，无法取得实用的进步，它的实质问题还是AGI问题，反过来说，只有AGI的技能进步才能让 Agent 技能进步。
在学术领域，最经典的案例可能是与机器人干系的研究，都涉及到了Agent 技能。
在大模型时期之前，比较有名的垂直领域 Agent 的例子比如 Alphago，它有感知环境、做决策、采纳行动的闭环，当时的紧张研究方向还有利用强化学习打游戏的DeepMind的Agent57，后来更加通用的Gato，还有OpenAI玩“躲猫猫”的多智能体。
我们认为Agent技能是未来实现社会全面自动化的关键技能。
在大模型涌现之前，自动化更多的是一些偏构造化固定模式环境中通过实现固定算法流程来完成自动化任务，而大模型智能体的通用性带来了灵巧性，使其可能应对人类在脑力劳动中面临的各种繁芜长尾任务，进一步实现体力和脑力任务的全面自动化。
大模型和Agent技能开启了全面自动化的新时期。
大模型是第一个可以自主学习并拥有广泛知识的模型，以是在大模型时期，Agent技能开始迅速发展。
本日，我们可能只是在出发点，我们看到的Agent还倾向于玩具，但是估量在未来几年，这个领域将产生极大的改变，它的发展速率可能会超越我们的想象，由于我们现在看到改进每天都在发生，天花板远未来到，乃至天花板可能不会再来了。
1.1 Prompt工程
在大模型刚出来的时候，大家都喜好做的事便是Prompt工程，把大模型当成一种编程措辞来看待。
人们通过描述角色技能、任务关键词、任务目标及任务背景，奉告大模型须要输出的格式，并调用大模型进行输出。
这种方法便是经典的把大模型当做工具来调用，我们可以称为工具模式。
为此，大家也发展了各种各样的Prompt工程的玩法，如角色扮演、零样本提示和少样本提示。
比如一个澳大利亚少年编写了一个15000个字符的提示词，成功地让他变身为人类的导师，教授各种知识。
这种办法就像能直接构建软件一样，是我们将Prompt工程发挥到极致的一个经典案例。
https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor
1.2 Prompt外挂
仅凭Prompt工程根本无法知足人们日益增长的大模型须要，鉴于大模型本身的诸多毛病，如不能及时更新知识，高下文有限等等，人们开始给大模型加入插件，如引入向量数据库，把数据索引进向量数据库，再召回数据，再提交给大模型做Prompt工程，这样就可以利用最新的知识和频年夜模型里的知识更准确的知识。
这些还不足，人们又开启了外挂模式，考试测验让 GPT 调用函数和利用工具，一系列关于工具利用的实践开始涌现，ChatGPT也推出了插件体系。
当人们创造大模型的推理能力很差时，开始试图让模型自身清楚地描述问题，把问题转化为 PDDL （Planning Domain Definition Language）格式的描述措辞，通过调用通用方案器来办理方案问题，再把办理方案转化为可实行的动作，以更好地逻辑推理和方案等任务。
更加经典的外挂形式当然是让大模型调用外部工具了，OpenAI也搞出了ChatGPT Plugins的开放体系，这些本日转头看都是非常顺理成章的形式，ChatGPT的爆发引发了全天下大量的Idea，这些创新很快就被OpenAI吸纳进产品迭代中。
此外，大模型虽然具备一定的推理能力和思考能力，在很多推理任务上依然力不从心，能不能让模型自己不做方案推理，让他把问题描述清楚，转化成一个 PDDL 的一个关于方案描述的措辞，然后利用通用的方案器去做方案，再转化成动作实行，这就把大模型作为一个中转器，把方案器当做了一个外挂。
我们可能会思考，大模型或许真的便是我们以前想象的那样，会达到人类聪慧水平的普适性机器么？显然从各项评测来看还有很多任务做不到，更何况这些任务评测本身的覆盖度也不足完备。
有一个经典观点被誉为"通用任务办理器"，在达特茅斯会议之后得名“GPS”，即General Problem Solver。
这是由赫伯特·西蒙（Herbert Simon）和艾伦·纽维尔（Allen Newell）在早期提出的观点，他们考试测验探求可用于办理数学问题的通用办理方案。
这套理念实在很简洁，可以看作是早期的面向目标架构。
它的紧张内容是将目标状态列出，然后在解空间中搜索可以将初始状态转化为目标状态的操作组合，这样的组合便是问题的答案。
1.3 分解与组合
然而，目前我们创造，在通用人工智能（AGI）的漫长旅途中，大模型虽显强大，仍存在着显著的技能天花板。
许多人开始探索如何挖掘大模型在大任务实行能力上的可能性，个中一个基本策略便是能够分解和组合。
例如，经典的 MapReduce 模式可以将一个大型文本进行择要，由于它的高下文有限，一种办理办法是扩大 context 的范围。
另一个办理方案是，在有限的 context 中，我们先将文本拆分成小片段，对每个片段进行择要，然后再将其组合，从而得出结果。
大家也创造大模型直接给出答案彷佛并不靠谱，那么是否可以让它像人类一样，一步一步思考呢？毕竟，人类在办理问题时，也是逐渐构建办理方案，而并非立即给出答案。
因此，开始涌现了一系列的考试测验解法，比如思维链、多思维链、思维树和思维图等。
我们逐一讲解，首先是思维链（Chain of Thought，CoT），它哀求模型展示其思考过程，而非仅给出答案。
这可以通过两种办法实现，一种是详细解释，即哀求模型详细地、一步步地思考；另一种是示例解释，即通过给定问题和答案的同时，供应思考过程。
这样，当讯问模型时，模型会模拟此过程，逐渐思考并给出答案。
再今后，我们创造一个CoT有时可能涌现缺点，然后开始考试测验让它发散，考试测验多种思路来办理问题，然后投票选择最佳答案，这便是CoT-SC了。
在这过程中，我们创造，这种发散的方法也有局限性，例如24点问题，它不能很好地办理，那么我们就会考试测验把这个问题进行垂直分解，分成三步来做，每一步分解成多个子问题，类似于动态方案的做法，就彷佛把一个大任务拆解成了三个小的子任务，然后再一步一步地去实现它。
这便是思维树（ToT， Tree of Thought）的一个紧张思路，它会根据当前的问题分解出多个可能，然后每一个树节点便是父节点的一个子问题，逐层扩散，遍布全体解空间，一些节点就直接会创造不得当而终止掉，达到了有效剪枝的浸染。
然而 ToT 的办法也存在问题，对付一些须要分解后再整合的问题，比如排序问题，排序你可能须要分解和排序，然后再merge，就弗成了。
为理解决这个问题，一种名为思维图（Graph of Tree，GoT）的方法被提出。
这种思维图既可以分解，也可以合并。
9月26日，清华姚期智团队又提出了更新的方法——累计推理，在24点问题上成功率已经达到98%的SOTA。
他们办法很靠近主流 Agent 的实现办法，具备一定的通用性。
它首先会提出一个初步的想法，然后再对这个想法进行验证，看这个提案是否得当。
如果提案得当，就将它添加到图的下一个节点，每一步都基于已经建立的图节点进行下一个思考节点的创建，这样发散、合并或删除直到达到终极目标状态，完备性和灵巧性大大增强。
1.4 反馈
上述的谈论紧张是任务分解和组合，他们只管强大，却不能与外界进行互动，这就不得不讲到反馈机制了。
反馈是全体掌握论的基石，也是动物体从出身之初就具备的基本能力。
最经典的方法实际便是 ReACT，这个方法非常经典，基本把智能体最核心的能力圈出来了，当然它也有它的毛病，我们将在后面谈论为什么还会有 Agent 更多的繁芜技能以战胜它的不敷。
ReACT让大模型前辈行思考，思考完再进行行动，然后根据行动的结果再进行不雅观察，再进行思考，这样一步一步循环下去。
这种行为模式基本上便是人类这样的智能体紧张模式。
比如，讯问一个关于科罗拉多造山带的干系问题，它就会去通过搜索工具进行搜索，如果搜索结果没有提到东部地区，它会连续搜索东部地区的数据，然后连续一步一步地思考，根据结果反复思考，直到完成这一项任务。
ChatGPT的代码阐明器紧张采取的便是这种模式。
首先，代码阐明器能够与用户进行大略的互动，如用户的问侧和解释器的回应。
当用户的问题须要外部调用时，例如讯问景象情形，阐明器会天生相应的代码，利用代码调用外部工具获取结果。
基于这些结果，代码阐明器会将信息反馈给用户，如“本日景象很好”。
下图是，我们调研的ChatGPT Code Interpreter 的紧张实现办法。
然而，我们始终以为这样仍旧不足，我们希望大模型在完成每一个任务后，能够积累履历，故而产生了借鉴强化学习思路的"反射"机制。
反射机制能够让机器记住每一次任务的完成情形，无论效果好坏，以供未来参考，提升模型的性能。
Agent的框架都会让模型输出JSON进行函数调用，OpenAI也就推出了Funtion Calling，将外部调用内化到模型中，变成了一种原生能力。
考虑到前面说的ReACT和Reflection这些不彻底性，更大的变革轰然袭来，这便是Agent，本日4月AutoGPT横空出世，短短数周Star数就超过PyTorch达到90k，赚足了眼球。
1.5 Agent
本日，全天下都在关注这个领域，Agent 模式的研究和运用都在迅猛发展，作为一个"共识"可预见的未来该技能的进步将势不可挡。
AutoGPT模型刚在10月15日宣告得到1200万美金的资金支持，也小道称OpenAI将在11月份发布面向 Agent 的原生模型和规范。
百度在发布"文心一言4.0"时也表示，他们考虑在升级系统时重点考虑了系统2的能力，这也是Agent 模式的关键设计。
下图是AutoGPT 发布的进行中的架构图，旨在实现对任务的有效管理。
天生的任务将会被加入优先级行列步队中，随后系统会不断从优先行列步队中选择优先级最高的任务进行实行，全体过程中，任何反馈都会通过影象进行迭代优化代码。
这个紧张框架虽然相对大略，但其设计理念具有主要意义。
首先，创建一个初始的操持，然后进入主循环。
系统会让模型判断在当前操持下该进行何种行动，接着会实行行动。
实行完毕后，结果会写入下一次循环中。
如此，每次决策都会基于之前的结果、影象和操持，从而制订出新的行动方案。
在该框架中，模型的决策过程涉及到动作选择，这也是紧张的功能之一。
此外，全体过程中我们紧张关注的一些工具包括“Start Another Agent”以及“Task Complete”。
这两个工具表示了Agent可以被调用，从而将大任务拆解为多少小任务进行处理，继而形成层次化的树状构造，这种构造与人类分工和协作的事情办法极为相似。
值得一提的是，微软的贾维斯 (Jarvis)一个深度学习任务调度系统，也采取了类似思想。
他们紧张关注如何调用模型来实行各种深度学习任务，涉及到了先做操持，再选择模型，然后实行任务，获取反馈，然后进入下一轮循环等环节。
有的研究者会考试测验利用大模型写小说，借鉴LSTM这个经典深度网络的思想发明RecurrentGPT，还引入了永劫影象和短时影象机制，使模型拥有了更佳的影象和学习功能。
其他方向，我们看到把大模型视作一个虚拟天下中的智能体，如MineCraft游戏中所设定的角色。
这个角色可以沿着指定的路线，完成一些在环境中探索的任务，如建屋子、挖矿、打怪等。
这个角色首先须要被奉告若何去实行任务，例如自动演习课程操持的利用。
然后逐步的完成任务，形本钱身的实行代码库、技能库等，这样就算是在往后碰着相似的任务，它都能快速调用已有的技能和履历来完成任务。
某种意义上，这便是一种强化学习的办法。
这个方向的变革真的是提高神速，就在昨天，清华联合面壁发布了XAgent，提出了双循环机制在效果上碾压了AutoGPT。
这种机制中，外循环卖力宏不雅观方案，而内循环则卖力细节的实行。
双循环模式
在完成各种任务的时候，它的能力也大大赛过 GPT 4。
这里须要阐明一下，研究者为什么把 GPT 4 和 Agent 进行比拟，看起来GPT 4只是 Agent 的一个组件，自行车的轮子怎么能和自行车比拟呢？这是由于从任务完成的视角看，GPT-4也是一种Agent，Agent的观点是大模型的超集，这也是为什么我们说智能时期的核心载体是 Agent 而不是大模型的缘故原由，这个事物的发展形态终将会走到一个最稳定的形态，这个形态目前看只有 Agent 最配这个颜值担当。
当能不大众所接管的对等 Agent 含义的词汇可能还在发明中，至少目前看伙伴、助手这些命名的水平都不足高，让我们拭目以待。
1.6 Multi-Agent
进一步，人们很自然地想到了多智能体（Multi-agent）模式， "斯坦福小镇"开了一个好头。
在这个虚拟的小镇里，每个角色都是一个单独的智能体，每天依据制订的操持按照设定的角色去活动和干工作，当他们相遇并交谈时，他们的交谈内容会被存储在影象数据库中，并在第二天的活动操持中被回顾和引用，这一过程中就能呈现出许多颇有意见意义性的社会学征象，我们成为群体智能的呈现。
再看今年7月份，一个被命名为MetaGPT的项目引起了广泛关注，这个项目中定义了产品经理、架构师、项目管理员、工程师和质量担保等角色，各角色之间通过相互协作，基本可以胜任完成500行旁边代码的小工程了。
很大略的一个实现就能够完成500行，后续改进后，是否有可能完成5000行或者是5万行代码的项目呢？譬如前两天微软刚发布的 Code Plan 项目已经开始考试测验履行大型工程的改造操持。
Meta GPT 最有代价的思想是借鉴人类社会中的协作办法，尤其是SOP，之于Agent 设计则平平无奇，也包括不雅观察、思考、状态管理、任务行动以及结果反馈等等必备组件。
同样的思路，清华开拓了一个名为ChatDev的系统，进一步引入了CEO等角色，这里就不再展开描述。
值得一提的是，Agent 的运用方向实在非常广泛。
比如 RPA 公司实在智能把 Agent 用于他们的产品调用常见桌面软件，如淘宝网、钉钉，来自动完成桌面任务。
而任何一个 Agent 的实现，彷佛共性都挺多，都须要有是非时影象能力、工具利用能力、通信能力，乃至包括 SOP 的能力，自然而言就有人要做这样的框架了，如 agents。
1.7 大略的难题
只管 GPT-4 等模型非常强大、Agent的发展彷佛牛气冲天，它们仍旧无法知足很多任务的须要，乃至一些在我们看来很大略的任务都完成不了，比如我们布局的这个任务：
给小学生展示一下两数相加的每一步打算过程，如1135 + 78答：打算详细过程如下5+8=13，进位13+7+1=11，进位1一个数已经加完，剩余数11 + 1 = 12结果为：1211下面请列出以下两数的详细打算过程：81728738271872871871672 + 28781729836746721
我们必须明白，只管AI在一定程度上模拟了人脑的事情办法，但实际上，机器人和人脑在处理信息时采取的策略有很大的不同。
因此，纵然在未来，我们也须要连续改进 AI 框架，以办理这种差距。
比如一个百万位数的加法任务，GPT-4囿于token数的限定是不可能完成这个任务的，但人类却可以，这正是人类和AI须要填补的Gap。
我们进行了一些大略的试验，还没有创造大模型和Agent能搞定这个任务。
个中，ChatGPT4的Code Interpreter是表现最好的，由于它调用了外部打算器，但中间的过程描述还是发生了缺点。
如果你能做出来这个小作业，欢迎联系我。
至此，我们已经讲述了大模型到 Agent 的发展进程。
接下来的韶光，我们将从人类智能的视角，结合面向目标架构的理念，剖析 Agent 技能的实质、存在的毛病以及未来可能的发展方向。
2. 通用智能基本事理
首先我们来看看这个众人熟知的认知飞轮，感知、认知、决策、行动，本日的人工智能代理更像是基于这个认知飞轮构建的。
但是从实质上，人类智能远比这繁芜。
在漫长的进化历史中，生物神经网络从大略的条件反射逐渐进化到本日的主动预测，我们已经可以在大脑中构建天下模型，进行强大的推理和剖析。
看似繁杂的过程，实际上都发生在核心的架构上，并且逐步完善。
无论是事情影象，还是人类处理措辞的能力的出身，这些都是智能的必不可少的元素，尤其是符号能力，对人类智能的发展有着不可替代的浸染。
因此，让我们先提出一个更为宏不雅观的问题，智能究竟是什么？我强烈推举这本名为《预测算法》的书，它在20年揭橥，那一年，GPT 3也刚刚问世，我在阅读之后，就有这样一个觉得：天生模型是计策精确的。
在之前关于AGI的分享中，也提到过这个不雅观点，智能是通过预测来办理应对天下的不愿定性的，分享视频拜会这里https://www.bilibili.com/video/BV16h4y1w79A/
让我们深入理解一下仿照的观点，当一个低等动物打仗到外界的刺激，它会紧缩往返避潜在的风险。
这实在是一种仿照，只不过这个仿照反射神经元对有些过于反应敏锐，它假设所有的刺激都是潜在的危险。
然而，对付人类来说，我们的仿照则更为风雅。
我们对天下进行建模，把天下以实体、关系、属性描述出来。
然而，这也是我们认知的极限，我们只能理解一个工具化的天下，非工具化的天下我们无法理解。
比如，当我们探索量子的时候，我们还常常用对事物进行工具化的办法去理解，但是创造我们的理解力有时候是有限的，由于量子天下的原形超出了人类认知能力的范围，我们智能利用低维空间的投影去推断它，就像我们无法在三维天下去想象十一维天下的样子。
在过去的四十年里，科学家对认知架构有很多深入的研究，并考试测验据此研发出通用人工智能，但天地不仁以万物为刍狗，当前来看只有GPT系列模型间隔实现通用人工智能最近，当然这些认知理论依然具有巨大的参考和辅导意义。
深入地聊认知架构和智能事理之前，我们必须要聊的是绕不开的《思考快与慢》，这是一本脱销书，其后面的学术道理也十分受用。
大脑中的系统1和系统2是我们所有人都熟知的，只管在实际实现中，系统2可能由系统1呈现，但至少在表现上，我们的大脑看起来有两个别系，系统1和系统2，分别卖力不同的功能。
知识和情绪的快速反应被称为系统1，而逻辑性强、思考速率慢的反应被称为系统2。
接下来我们看看这些认知架构中，有一个叫做GWT(Global Workspace Theory，全局事情空间理论)，如下图所示：
全局事情空间理论（GWT）是认知科学家伯纳德·巴尔斯（Bernard Baars）和斯坦·富兰克林（Stan Franklin）在20世纪80年代后期提出的一种意识思维框架。
它被开拓出来，以定性地阐明一系列故意识和无意识过程之间的匹配。
GWT在建模意识和高等认知方面具有影响力，认为它们是从广泛、并行的神经由程中信息的竞争和集成流动中产生的。
系统1涵盖了神经网络的外围连接，涉及长期影象、代价系统、感知运动掌握干系的神经网络，系统2则是一个高度集中的“舞台”，人类的故意识思考，如做数学题时，脑中想象数字相加的过程，都在这个舞台上进行。
这个舞台叫全局事情空间，影象在这个舞台上被拉进来加工，然后被扔出去。
LIDA (Learning Intelligent Distribution Agent) 受到多种打算范例的启示，并且实现了GWT。
认知模块包括知觉关联影象，情景影象，意识，程序性影象和行动选择。
由 LIDA 架构掌握的认知机器人和软件代理将能够进行多种学习机制。
其实在大模型Agent技能涌现之前，人们就已经意识到，试图集成各种深度学习模型以实现人工普遍智能（AGI）并不足，还须要更高层次的认知模型。
Lecun在思考AGI时对大模型的涌现也提出过见地，它认为天下模型才是关键，但前两天新的研究却认为大模型中有天下模型。
但毫无疑问的一点是，天下模型对付我们对天下的认知是非常关键的，无论大模型中是否包含天下的认知，Agent都必须对天下有准确的理解才能做出精确的决策。
当模型不能精确运行时，决策就会出错；只有当天下模型构建的精确，才能选择精确的模型，进而做出精确的决策。
总结一下，系统2包含意识、思考、符号主义、逻辑推理图灵、机制构造化和模型。
而系统1包含快速思考、神经网络连接主义、长期影象、深度学习、亚符号、潜意识和非构造化数据。
在构建 Agent 时，可以参考这两种系统的思维框架。
在理解智能架构的观点时，我们须要从影象空间、符号系统、天下模型构建与加工三个方向去考虑。
影象空间是根本，符号系统是思考和推理的核心，而天下模型的构建和加工则是个中最主要的环节。
在现在的大模型中，如 GPT，虽然很多人认为它没有符号系统，但我们认为，其内部的把稳力机制可能已经在激活流转过程中仿照了天下模型的加工过程，只是这个过程并不显式，而且无法掌握，只能通过Prompt工程勾引它进行，但它会常常跑偏。
我们通过学习节制了对天下的知识，并针对感知数据考试测验在符号系统中构建天下模型，进行预测和行动。
如弹钢琴这样的行动，我们须要通过反复演习，逐渐将运动序列内化，变成肌肉影象和反射。
这些在系统2中反复涌现的行为，会逐渐沉淀到系统1中。
这个过程可以理解为一个“快捷通道”的形成过程，称为Shortcut。
人的视觉识别过程是一个层次性的关系，从最低级的视觉皮层一贯到更高等的皮层，从大略的视觉边缘特色到线条的方向性，再到线条之间的组合，如角等更高维特色的形成，直到形成物体的感知。
这些物体的观点再对应符号系统和自然措辞的绑定，当图像信息经由解码过程进入符号系统后，我们的关联影象会帮助我们召回数字等语义观点。
以人类做加法为例，假设我们要办理“219 + 13”的问题，这个过程可能会碰着一个看似相同的图形，比如图中有"13"和"B"的歧义。
这就冲破了现在很多人的想法，常日我们喜好做前向过程，先利用一个视觉模型处理输入，然后再将其输出通报给大模型进行处理。
实际上，人在理解这个场景时是一个双向过程，首先有一些直觉的特色传入到系统2，系统2会推断这是一个做加法任务，并将看似“B”的图形阐明为13，这个过程称为Projection。
例如，我们常常从一些像素点中识别出人脸，这便是由上至下的功效发挥浸染，这是对未来人工智能代理（Agent）的一种启示。
另一个关键的能力是关联影象。
当我们开始不雅观察某个物体时，比如进行加法操作时，我们的大脑并不会以固定模式运作。
相反，我们的神经网络会并走运行，有的神经网络开始将加法的观点、数字的观点以及加法规则等各种信息激活，所有这些信息都会基于一个关联网络唤醒出来，这样我们就可以开始下一步的事情。
接下来便是所谓的构造推理，我们会开始将这些符号构造化，例如，如果它是一个三位数，我们就会开始理解它的每一位构成整体和部分之间的关系。
当我们已经理解到219 + 13是加法时，我们也会实行Structure Inference得到构造的认知A+B=C的两位数加法构造，并将219和A对应上，13和B对应上，这个过程便是Variable Binding了，我们将详细的实例与它的角色对应上了。
接着我们要遵照加法规则进走运算以实现我们的目标——完成加法任务。
根据我们打算完成的目标以及现在的状态，我们须要方案出达成目标所须要的详细步骤，即实行加法规则。
进入到这样一个循环过程之中，我们会额外提到两个观点，即"Shortcut"和"Exception"。
那么什么是Shortcut呢？当我们初次开始书写数字时，速率每每很慢，但随着练习，我们将逐渐写得越来越快。
这个过程实际上包含了一个叫做“Recoding”的过程，我们会将熟习的操作或流程用神经元重新表示，这样就把一个繁芜的操作简化为了一个子任务，通过类似于传参的办法掌握一个子神经网络完成任务。
比如开车，一开始，每个动作都须要集中把稳力，严重依赖系统2，但是开了一段韶光之后，就可以自若地进行了，这便是由于系统2的掌握能力已经被沉淀到了系统1里面，称为Shortcut。
另一个主要的方面是非常处理能力，人类最强大的能力便是能够随时应对非常。
譬如，你在走路时溘然被绊了一跤，你首先须要应对的便是跌倒这个状况，然后再回到原来的路线上连续走。
因此，在实行加法过程中，并不是由于一个细节被中断或碰着各种非常，才开始实行加法。
我们会创造，在碰着各种问题时，我们总是会奔着目标勇往直前。
人是一个运作着面向目标架构的繁芜过程。
面向目标架构是人类智能的一个核心机制，当然并不是唯一的。
有时，我们也会没有详细的目标或者说目标不是显式的，比如citywalking，同时有一些底层的目标机制，诸如生存，这解释人的面向目标架构要繁芜许多，这便是我们不得不说的智能核心的面向目标架构。
3. 面向目标架构
我们的感情系统实在也在办理目标问题，例如，你会由于目标无法达成而生气，由于目标可能无法达成焦虑，由于别阻碍你的目标而愤怒。
显而易见，许多感情都与目标机制有所关联。
因此，这套面向目标的机制在人的智能运作中霸占极其核心的地位。
让我们通过一个大略的模型来描述该机制。
首先，我们须要对这个天下有理解，因此我们会在脑中构建一个关于天下的模型。
这个模型在构造化之后，就会变成了当前世界状态。
而我们的目标是对应的一个目标天下状态。
因此，人类便是在一直地肃清当前状态和目标状态之间的差异，这个肃清的过程便是目标驱动的过程。
在目标驱动的过程中，你开始考试测验去办理这个问题，肃清这个差异，你也可能有现成的办理方案，直接动用已有的办理方案实行已知的运动序列，也可能须要进行一定的思考，做出推理剖析帮助你办理问题。
一旦你找到了一些实行序列，这些序列可能会变成一个子序列，子序列里有子目标。
每个子目标的实行有可能是直接完成的，也可能须要进一步思考才能完成。
正如我们可以看到，GPS这段代码便是在为了达成某一个目标而事情，它会遍历所有的目标，考试测验让每一个目标都能够达成，一旦达成就结束。
有兴趣的同学可以读一下这个代码，便是做暴力遍历找出达到目标状态的操作序列。
不过，像GPS这种空想的办理方案在现实天下中可能并不见效，由于真实天下的解空间过于弘大，想想AlphaGo的故事就理解了，这也是为什么虽然此想法在理论上看起来很好，但在实际操作时却无法履行。
但这种思考很有启示，在Newell和Simon1972年出版的《Human Problem Solving》一书中，他们研究了人类如何办理问题，并意识到我们常常进行手段-目的剖析(means-ends)
举一个例子：
"我想把儿子送到幼儿园。
我现在的状态和我想要的状态之间有什么差异？个中一个是间隔。
是什么成分会改变间隔？我的汽车。
可是我的汽车坏了。
要让它事情须要什么？一个新电池。
哪里能买到新电池？汽车修理店。
我想让修理店为我安装一个新电池，但店里不知道我须要一个新电池。
问题出在哪里？是沟通的问题。
什么能让沟通变得随意马虎？一部电话……以此类推。
"
在打算机领域，有很多方法都与目标机制干系。
例如，过程描述措辞（PDL）便是一种经典的方法，紧张用于办理机器人问题。
我们可以描述天下上的工具，它们当前的状态是若何的，目标状态是若何的，有哪些可以采纳的操作，然后我们可以基于这些操作，利用方案器探求一个得当的运动序列来办理问题。
但在本日打算机领域的工程实践中，人们更多采取的是面向过程架构，无论是接口、函数、UI界面，还是组件，又或者是一个运用程序，都因此接口的形式存在的。
而这个接口实质上是一种被调用的子流程，借此过程的完成，我们希望实行结果符合我们的预期，但程序并不为结果卖力。
它办理的是过程和流程问题，系统内没有目标的观点。
当然，也存在一些以目标导向为核心理念的的软件工程，例如声明式编程，它只须要你描述你想要什么，而无需关心实行的过程，像HTML和SQL便是其经典例子。
在这样的架构下，程序能够自行探求达成目标的方法。
然而问题在于，这种面向目标的架构只能运用于垂直领域，而无法普遍运用到所有领域，只有在特定的领域内才能发挥浸染，这就限定了它的运用范围。
总的来说，只管面向目标架构在打算机领域有一席之地，但由于其只能在特定领域发挥浸染，而无法办理所有领域的问题，因此它的运用还是有所限定，更多涌如今特定的DSL（领域特定措辞）中，这种架构的确也发挥了巨大的浸染。
在软件工程的范式迁移中，我们创造面向过程架构与面向目标架构之间的主要差异点：随着人类的生产办法的变革，软件工程可能正逐步蜕变为智能体工程(Agent Engineering)；以前我们主导的生产办法是人类处于中央位，AI做赞助。
而未来可能会变成以 AI 为中央，人类变为赞助。
由此，全体产品形态和平台的构成可能会发生这样的转变。
在这一转变中，原来由人类主导的功能开拓，逐渐演化为以智能体为紧张驱动力。
传统的用户界面，由于其垂直的任务层级架构，每一层都须要人类逐一天生，未来这个过程可能会被智能体自主天生并改良。
此外，原来只能办理有限范围的任务，未来的架构则可以办理无限域的任务。
就犹如头条这样的平台，它是一个信息的分发平台。
那么，是否会涌现新的平台模式？比如一种知识和天下模型的分发平台。
以前我们只能处理大量长尾数据，在未来可能能办理大量长尾任务。
以前是廉价的规模化加昂贵的个性化，往后是廉价的规模化的个性化。
4. 前瞻性剖析
根据上面的剖析，我们能看到 Agent 技能在未来的发展还有很大的提升空间。
我认为，这些提升紧张可以从几个方向开始，包括引入中心实行机构、学习能力、输入感知、输出实行、天下模型和影象等几个方面，这些构成成分是完备非正交的，都对提升 AI 技能至关主要。
4.1 Central Executive
首先，中心实行机构，这是一个核心的观点，但常常被人们忽略。
现在的 Agent 只是一个方案器，它卖力做方案。
但实际上，这个流程中还存在很多未明确的问题，比如，是否存在一个内部加工过程，以及这个过程是否透明可控等。
一种可能的办理办法是，将内部加工过程外部化，用系统2包裹起来，使每一步细粒度的思考都可以展现出来。
其次是天下模型，现在的大模型只能输入措辞，显然这样是不足的，进一步理解天下须要多模态输入。
这是我们在未来须要处理的关键问题。
同样地，对付韶光和自身的身体运动掌握的认知也须要能够输入到大模型里面去。
我们不雅观察到，无论是自动驾驶汽车、大模型Agent，还是其他的诸多智能体模型，都已经在运用这种面向目标的架构。
目前的寻衅在于如何在细节上加以改进，如找出此架构未能完成某些任务的缘故原由，以及这些毛病是源于大模型底层的子任务能力不敷，还是须要对框架本身做出改进，比如增加更多的思考层次，或加入更多的内部推演等。
另一个主要的问题是宏不雅观把稳力，由于大模型的高下文限定，是否可以让模型自身主动去探索外部天下，将其精力和把稳力主动地投入到解答某些具有目标性的问题上去，实现主动的把稳力机制？这不仅涉及到搜索和考试测验的问题，如针对一些无法思考出办理方案的情形，模型应如何去进行考试测验，而且这些考试测验何时能够带来进步，以及如何去探求更为精良的办理空间，进行推理和方案。
4.2 Memory
值得把稳的是，数学和逻辑学习也会涉及到上述问题，比如人类在很多情形下不善于方案，那么我们是否可以利用网络和影象机制来实现方案的功能？这个中就涉及到影象的内化，也便是把大模型从外部天下获取的履历转化为内部参数，或者说把这些履历转化为内存。
目前，我们依赖的影象机制紧张是把所有的信息存储在历史记录里，然后在须要的时候进行召回。
然而，这些信息并未经由整理，在一些试图整理影象的考试测验中，我们创造人类是具有这种能力的。
人类在得到大量干系的知识后，不会大略地把它们堆积在脑中，由于人的神经元存储空间是有限的。
相反，人脑会通过海马体进行整理，而在我们做梦时，大脑会重新布局这些干系的知识，使得影象网络变得有序。
然而，现在我们怎么去实现这种能力？目前还未见到具有遗忘功能的模型，也便是删掉一些垃圾信息或缺点的信息。
在大模型演习过程中，产生了许多无用乃至是缺点的信息，而我们在事情中只是采取了许多办法来规避这些缺点的信息，但为什么不试图去删掉它们呢？如果能够将这些信息更换为有代价的信息，那将是一件有代价的事。
我把稳到在人工智能领域中，对付是非时影象与事情影象，以及它们之间的关系谈论并不深入，更常见的是，人们将是非时影象简化为向量数据库。
我想办理这个问题，考试测验对这两者进行深层次的理解，并建立更完备，更正交的关系也很主要。
4.3 Sensory
当人工智能Agent融入人类生活后，它与我们的体验和经历能否成为Agent自身的存储内容？如果可以，那么在未来，我们与Agent之间的互动将会变得更加实用，更加贴近现实生活，更加有温度。
在输入的问题上，我明确地看到了多模态输入的必要性，同时，对付韶光感知我认为也非常主要，韶光性对付运动掌握任务极其主要。
引入多模态输入后，我们还要办理一个自上而下的机制问题，便是Projection启示的这个点，OCR嫁接术一定会在某类任务存在毛病。
4.4 Motor
在互换办法上，我认为不应仅仅依赖于措辞，虽然现在的互换基本都是基于措辞的，但是，措辞是一个低带宽且低效的通信工具。
我在想，我们能否引入一种新的沟通办法 - 类似心灵感应的办法，让Agent在隐空间通信。
关于运动掌握，当前的办法包括一些机器人运用，都比较构造化。
但我认为，在未来，大模型的神经网络该当可以直接连接到运动掌握的神经网络，实现层次化掌握，使得运动更为流畅，乃至比人类更为灵巧。
在另一方面，运动掌握也该当是数据化的，而不是仅仅处于我们所说的”操持者“的层面。
如果有一个命令下达，神经网络该当可以直接实行。
除此之外，还有一些亚符号的掌握，在大模型直接对接神经网络时，我们应该避免通过措辞来描述，由于我们可以通过这种办法得到的信息量会比通过措辞描述来得多。
同时，也须要进行一些外部工具的优化，让现有的工具更适应我们的需求，比如一些乐意为了方便Agent调用进行改造的工具做事商将会在新的代价网络中霸占一席之地，如一个旅游做事供应商，加入下一代Agent平台之后，Agent在完成用户旅游类任务时可能会有限调用它，并利用类似Web3的技能进行代价分配。
4.5 Learning
任何一个产品，或者说Agent，都须要学习。
学习的过程是十分主要的，尤其是模型须要学会对自身的可靠性进行判断，知道自己知道什么，更主要的是，知道自己并不知道什么，不善于什么，这将会对模型的发展产生重大影响。
关于大型模型的优化，我认为最关键的问题就在于模型须要明确自己的能力范围。
有些问题，大模型不能张口就来直接给出答案，过于逞能，它该当经由仔细的思考，担保任务目标的准确达成。
同时，我们也须要考虑模型的威信性问题。
大模型可能从互联网和垃圾信息中学到很多知识，但这并不虞味着它在办理问题时能供应最威信、最佳的做法。
我们须要把这个模型演习到，纵然是在面对垃圾信息输入时，它也能输出更好的、更有代价的办理方案。
另一方面，我们还须要考虑到模型的多样性。
很多时候，为了担保任务的有效实行，我们每每会掌握模型的温度参数，以保持其输出的稳定性。
但是，在担保模型精确性的同时，我们也不应该忽略它的思维生动度。
我们应许可智能体在办理任务时有更大的解空间，以便找到最优的办理方案。
4.6 World Models
关于天下模型，我们须要把稳的是，只管模型的演习数据中可能含有很多垃圾信息和缺点信息，我们还须要让模型具有辨别和整理这些信息的能力，以构建一个无抵牾、统一的实体网络，这一点鲜被提及，我认为现在黯然神伤的之前做知识图谱的同学可以重点考虑一下这个方向。
在此根本上，我们还须要让模型具备推理能力。
一个精良的智能体不应该仅仅依赖于内部推理，而该当有能力借助外部推理，当然这个外部推理可以当做工具来利用。
末了，我们还必须强化模型的内部思考机制。
当调用一些有本钱的接口时，模型不能只是“想到就做到”，而该当有自我觉知的能力，或者叫Mental Simulation，预判自己的行动可能会带来的结果，并在内部进行纠错，以担保行动的可靠性，这不同于Reflection是实行后根据实行结果再反思。
进一步，我们可能更大的关注点该当是它在家庭生活及现实社会中的运用上，将实在现为实体化的机器人，那么动力学机制和韶光性认知还是很主要的，而当前的大模型仅是一个大略的循环调用，无法实现这方面的任务。
好，以上便是我对一些方向的浅近思考。
末了，我们以伟人的一段话来结尾：Agent 技能，它是站在海岸遥望海中已经看得见桅杆尖头了的一只航船，它是立于高山之巅远看东方已见光芒四射喷薄欲出的一轮朝日，它是躁动于母腹中的快要成熟了的一个婴儿。
参考文献Wikipedia Agent. https://en.wikipedia.org/wiki/Intelligent_agentIntelligent Agents 综述. https://vsis-www.informatik.uni-hamburg.de/getDoc.php/publications/373/INTELLIGENT_AGENTS_v7_final.pdfPrompt经典网络。
https://github.com/f/awesome-chatgpt-promptsLLM+P: Empowering Large Language Models with Optimal Planning Proficiencyhttps://github.com/Cranial-XIX/llm-pddlChain-of-Thought Prompting Elicits Reasoning in Large Language ModelsSelf-Consistency Improves Chain of Thought Reasoning in Language ModelsTree of Thoughts: Deliberate Problem Solving with Large Language ModelsGraph of Thoughts: Solving Elaborate Problems with Large Language ModelsCumulative Reasoning with Large Language ModelsReAct: Synergizing Reasoning and Acting in Language ModelsReflexion: Language Agents with Verbal Reinforcement Learninghttps://openai.com/blog/function-calling-and-other-api-updates人大综述https://arxiv.org/pdf/2308.11432.pdf复旦综述 https://arxiv.org/pdf/2309.07864.pdfhttps://github.com/Significant-Gravitas/AutoGPThttps://github.com/microsoft/JARVISHuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging FaceGPT-Researcher https://github.com/assafelovic/gpt-researcherRecurrentGPT https://arxiv.org/abs/2305.13304Voyager https://arxiv.org/abs/2305.16291https://github.com/OpenBMB/XAgent斯坦福小镇代码 https://github.com/joonspk-research/generative_agents斯坦福小镇论文 Generative Agents: Interactive Simulacra of Human BehaviorMetaGPT代码 https://github.com/geekan/MetaGPTMetaGPT论文 https://arxiv.org/pdf/2308.00352.pdfhttps://github.com/OpenBMB/ChatDevhttps://github.com/OpenBMB/AgentVersehttps://arxiv.org/pdf/2307.07924.pdfAgents: An Open-source Framework for Autonomous Language Agentshttps://lilianweng.github.io/posts/2023-06-23-agent/Phase transitions of brain evolution that produced human language and beyondA Review of 40 Years in Cognitive Architecture Research Core Cognitive Abilities and Practical ApplicationsLIDA: A Computational Model of Global Workspace Theory and Developmental Learninghttps://hal.science/hal-03311492/documenthttps://ai.meta.com/blog/yann-lecun-advances-in-ai-research/Projection: A Mechanism for Human-like Reasoning in Artificial Intelligencehttps://en.wikipedia.org/wiki/Planning_Domain_Definition_Language

标签：我们模型