来源:Empower Labs
在技能进步的编年史上,革命性技能往往独立呈现,各自引领一个年代的变革。而当两股革命性技能相遇,它们的碰撞往往会产生指数级的影响。现在,咱们正站在这样一个历史性时间:人工智能与加密技能,这两种相同具有颠覆性的新技能,正携手步入舞台中央。
咱们畅想AI范畴的许多应战可以被加密技能所处理;咱们期待AI Agent构建自主经济网络,推动加密技能的大规划选用;咱们也期望AI能加快加密范畴现有场景的开展。很多目光聚焦于此,海量资金疯狂涌入,就如任何buzzword一样,它凝聚了人们对创新的巴望、对未来的憧憬,也包含了难以抑制的野心与贪欲。
可是在这一片喧嚣中,咱们却对最根本的问题知之甚少。AI究竟有多懂加密范畴?装备了大言语模型的Agent是否具有运用加密工具的实践才能?不同的模型在加密使命上的差异有多大?
这些问题的答案将决议AI和加密技能的相互影响力,也对这个交叉范畴的产品方向和技能道路挑选至关重要。为了探求这些问题,我做了一些大言语模型的评价试验。经过评价它们在加密范畴的常识和才能,衡量AI的加密运用水平,判断AI与加密技能交融的潜力和应战。
先说结论
大言语模型在密码学和区块链根底常识方面体现杰出,对加密生态十分了解,但在数学核算和杂乱事务逻辑剖析上体现很差。在私钥和根本钱包操作方面,模型有着令人满意的根底,但面临怎么云端保管私钥的严峻应战。很多模型可以生成简略场景的有用智能合约代码,但无法独立履行合约审计、杂乱合约创建等高难度的作业。
商业闭源模型整体有较大抢先,开源阵营中仅Llama 3.1-405B体现杰出,而参数规划较小的开源模型整体不及格。可是潜力是有的,经过提示词引导、思想链推理和少样本学习技能,一切模型的体现都得到了大幅提升,抢先的模型在一些笔直运用场景现已具有了较强的技能可行性。
试验细节
挑选了18个具有代表性的言语模型作为评价方针,包含:
-
闭源模型:GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(暂时闭源)
-
开源模型:Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R
-
数学优化模型:Qwen2-math-72B、MathΣtral
这些模型涵盖了主流商业和盛行开源模型,参数量从3.8B到405B有百倍以上的跨度。考虑到加密技能与数学的密切关系,试验还特别挑选了两个数学优化模型。
而试验掩盖的常识范畴包含密码学、区块链根底、私钥与钱包操作、智能合约、DAO与治理、一致和经济模型、Dapp/DeFi/NFT、链上数据剖析等。每个范畴都由一系列由易到难的问题和使命组成,不只测验模型的常识储备,也经过模仿使命测验其在运用场景中的体现。
使命的规划来源多样化,一部分来自加密范畴多位专家的输入,另一部分由AI辅佐生成,并经过人工校对,以保证使命的精确性和应战性。其中一部分使命运用了办法较为简略的挑选题,方便独自进行标准化的自动化测验和评分。而另一部分试验选用更加杂乱的标题办法,测验过程则由程序自动化+人工+AI结合的办法进行。一切测验使命均选用了零样本推理办法进行评价,不供给任何示例、思想引导或者指令型提示。
由于试验自身规划的还比较粗糙,并不具有满足的学术严谨性,用来测验的问题和使命远远无法全面掩盖加密范畴,测验结构也并不老练。因而本文并不列举详细的试验数据,而是侧重共享一些试验中的洞察。
常识/概念
在评价过程中,大言语模型在加密算法、区块链根底常识和DeFi运用等各范畴的根底常识测验中体现超卓。例如在考察对数据可用性概念了解的问答题中,一切模型均给出了精确答案。而评价模型对以太坊交易结构的掌握程度的标题,虽然各模型在回答细节上略有差异,但整体上都包含了正确的要害信息。考察概念的挑选题则更是没有难度,简直一切模型的正确率都在95%以上。
概念性问答彻底难不住大模型。
核算/事务逻辑
可是当触及需求进行详细核算的标题时情况就倒了过来。一道简略的RSA算法核算题就让绝大多数模型堕入困难。这其实不难了解:大言语模型首要经过辨认和仿制练习数据中的办法来运作,而非经过深入了解数学概念的实质。这种局限性在处理笼统数学概念如模运算、指数运算时尤为显着。鉴于加密范畴与数学紧密相关,这意味着直接依托模型进行加密相关的数学核算是不可靠的。
在其他核算标题中,大言语模型的体现相同不尽如人意。例如核算AMM无常损失的简略标题,虽然不触及杂乱数学运算,但18个模型中仅有4个给出了正确答案。而另一道更为根底的核算出块概率标题,竟然一切模型悉数答错了。竟然难倒了一切模型,无一算对。这不只暴露了大言语模型在精确核算方面的缺少,也反映出它们在事务逻辑剖析上存在较大问题。值得注意的是,即便是数学优化模型,在核算类标题中也未能展现出显着优势,其体现令人失望。
可是,数学核算的问题并非无解。假如咱们稍作调整,要求LLMs给出相应的Python代码而非直接核算成果,正确率就会大幅提高。以前述RSA核算题为例,大部分模型给出的Python代码都能顺利履行并得出正确成果。在实践出产环境中,更可以经过供给预设的算法代码来绕过LLMs自行运算的环节,这与人类在面临此类使命时的处理办法类似。而在事务逻辑层面,经过精心规划的提示词引导,也可以有用改善模型的体现。
私钥办理和钱包操作
假如问Agent选用加密钱银的第一个场景是什么,我的答案是付出。加密钱银简直可以被视为AI原生的钱银办法。相较于Agent在传统金融体系中面临的许多妨碍,运用加密技能为自身装备数字身份并经过加密钱包办理资金,是一个再自然不过的挑选。因而,私钥的生成和办理、钱包的各类操作,构成了Agent能否自主运用加密网络的最根本技能要求。
安全生成私钥的核心在于高质量的随机数,这显然是大言语模型并不具有的才能。不过模型对私钥安全的认知是充沛的,在被要求生成私钥时,绝大多数模型都挑选运用代码(如Python的相关库)来引导用户自主生成私钥。即便有模型直接给出了私钥,也明晰声明这仅用于演示意图,并非可直接运用的安全私钥。在这方面,一切大模型都展现出了令人满意的体现。
私钥办理则面临着一些应战,这首要源于技能架构的固有约束,而非模型才能的缺少。运用本地部署的模型时,生成的私钥可被视为相对安全。可是假如运用的是商业云端模型,咱们有必要假定私钥在生成的瞬间就现已暴露给了模型的运营方。但关于方针为独立作业的Agent,具有私钥权限是有必要的,这意味着私钥不能只在用户本地。在这种情况下,仅依托模型自身已缺少以保证私钥的安全性,需求引入可信履行环境或HSM等额定的安全服务。
假如假定Agent现已安全地持有私钥,在此根底上进行各类根本操作时,测验中的各种模型都体现出了杰出的才能。虽然产出的过程和代码常常存在错误,但在适宜的工程架构下,这些问题在很大程度上是可以处理的。可以说从技能层面来看,让Agent自主进行根底的钱包操作现已不存在太多妨碍。
智能合约
智能合约的了解、运用、编写和危险辨认才能是AI Agent在链上国际履行杂乱使命的要害,因而也是试验的要点测验范畴。大言语模型在这一范畴展现出明显潜力,但一起也暴露了一些显着问题。
在测验中简直一切模型都能正确回答根底合约概念,辨认简略的bug。在合约gas优化方面,大多数模型可以辨认要害优化点,并剖析优化可能带来的冲突。可是,当触及深层事务逻辑时,大模型的局限性开始闪现。
以一个token vesting合约为例:一切模型都正确了解了合约功用,大部分模型找出了几个中低危险缝隙。可是,关于一个躲藏在事务逻辑中、可能在特殊情况下导致部分资金被锁死的高危险缝隙,没有任何模型可以自主发现。在多个运用实在合约的测验中,模型的体现都大致相同。
这表明大模型对合约的了解仍停留在办法层面,缺少对深层事务逻辑的了解。不过,在供给额定提示后,部分模型最终可以独立找出上述合约中躲藏较深的缝隙。基于这一体现判断,在杰出的工程规划支持下,大模型已根本具有在智能合约范畴担任co-pilot的才能。可是要独立承当合约审计等重要作业,仍有很长的路要走。
有一点需求说明,试验中代码相关的使命首要针对逻辑简略、代码量在2000行以内的合约。关于更大规划的杂乱项目,在不进行微调或杂乱提示词工程的情况下,我以为显着超出了当时模型的有用处理才能规模,并未列入测验。此外,本次测验仅触及Solidity,未包含Rust、Move等其他智能合约言语。
除了上述测验内容,试验还涵盖包含DeFi场景、DAO及其治理、链上数据剖析、一致机制规划以及Tokenomics等多个方面。大言语模型在这些方面均展现出了必定的才能。鉴于许多测验仍在进行中,且测验办法和结构正在不断优化,本文暂不对这些范畴进行深入探讨。
模型的差异
在一切参加评测的大言语模型中,GPT-4o和Claude 3.5 Sonnet连续了它们在其他范畴的杰出体现,是毫无争议的抢先者。面临根底问题时,这两个模型简直都能给出精确答案;在杂乱场景剖析中,它们更是可以供给深入且论据充沛的见地。甚至在大模型不擅长的核算类使命里也展现出了高胜率,当然这种"高"成功率是相对而言的,仍未到达在出产环境中稳定输出的水平。
在开源模型阵营中,Llama 3.1-405B得益于其巨大的参数规划和先进的模型算法,遥遥抢先于同类。在其他参数规划较小的开源模型中,各模型间并未呈现明显的功能差距。虽然得分高低略有不同,但整体都离及格线很远。
因而假如当时要构建加密相关的AI运用,这些中小参数量的模型不是适宜的挑选。
在咱们的评测中,有两个模型特别引人注目。首先是微软推出的Phi-3 3.8B模型,它是本次参加试验的最小模型,可是它以不到一半的参数量就到达了与8B-12B模型相当的功能水平,在某些特定类别的问题上甚至体现更为超卓。这一成果凸显了模型架构优化和练习策略的重要性,而不只仅是依托于参数规划的增加。
而Cohere公司的Command-R模型成为了一匹令人意外的"黑马"——反向的。Command-R相对其他模型名望不那么大,可是Cohere是专注2B市场的大模型公司,我以为和Agent开发等范畴仍是有相当多的契合点,因而特意列入测验规模。但具有35B参数的Command-R却在大多数测验中垫底,不敌许多10B以下的模型。
这一成果引发了思考:Command-R在发布时主打的是检索增强生成才能,甚至都没发布常规的基准测验成果。这是否意味着它是一把"专用钥匙",只在特定场景下才能开启悉数潜力?
试验约束
在这一系列测验中,咱们对AI在加密范畴的才能有了初步的了解。当然这些测验还远未到达专业水准。数据集的掩盖规模远远不够,答案的量化标准相对粗略,尚缺少精密且更为精确的评分机制,这都会影响评价成果的精确度,不扫除会导致某些模型体现被低估。
在测验办法上试验仅选用了零样本学习(zero-shot learning)的单一办法,并未探究思想链条,少样本学习等能启发模型更大潜力的办法。而在模型参数上,试验均选用了标准模型参数,并未考察不同参数设置对模型体现的影响。这些整体单一的测验办法约束了咱们对模型潜力的全面评价,也未能充沛发掘模型在特定条件下的功能差异。
虽然测验条件相对粗陋,这些试验依然产生了不少有价值的见地,为开发者构建运用供给了参阅。
加密范畴需求自己的Benchmark
在AI范畴,基准(benchmark)扮演着要害人物。现代深度学习技能的快速开展就源于李飞飞教授于2012年完结的ImageNET,这正是一个核算机视觉范畴的标准化基准和数据集。
经过供给一致的评价标准,基准不只为开发者供给明晰的方针和参阅点,还推动了整个职业的技能进步。这解释了为什么每个新发布的大言语模型都会要点发布其在各种基准测验上的成果。这些成果成为了模型才能的"通用言语",使研讨者可以定位突破口,开发者可以挑选最适合特定使命的模型,而用户则可以基于客观数据做出正确挑选。更重要的是,基准测验往往预示着AI运用的未来方向,引导资源投入和研讨焦点。
假如咱们信任AI与加密技能的交叉范畴包含巨大潜力,那么树立专门的加密范畴基准测验就成为一项火急的使命。基准测验的树立可能成为连接AI与加密两大范畴的要害桥梁,催化创新,并为未来运用供给明晰指引。
不过与其他范畴的老练benchmark相比,构建加密范畴的基准测验面临共同应战:加密技能快速演进,职业常识体系尚未固化,多个核心方向缺少一致。作为跨学科范畴,加密涵盖密码学、分布式系统、经济学等,杂乱度远超单一范畴。更具应战性的是,加密基准不只需评价常识,还需考察AI运用加密技能的实践操作才能,这要求规划全新的评价架构。而相关数据集的匮乏进一步增加了难度。
这项使命的杂乱性和重要性决议了它无法由单一个人或团队完结。它需求聚集从用户、开发者、密码学专家、加密研讨者到更多跨学科范畴人士的多方智慧,依托广泛的社区参加和一致。也因而,加密基准需求更广泛的评论,因为这不只是一项技能作业,更是对咱们怎么了解这一新兴技能的深刻反思。
跋文:聊到这里,话题还远没有结束。在接下来的文章中,我将深入探讨构建加密范畴AI基准的详细思路和应战。试验目前也还在进行,正在不断优化测验模型、丰富数据集、完善评测结构,并改进自动化测验工程。秉持开放协作的理念,未来一切相关资源——包含数据集、试验成果、评测结构和自动化测验代码都会作为公共资源开源。
此时快讯
【Layer 1区块链Vega提议关闭Vega Alpha主网和代币VEGA,并启动新项目Nebula】9月3日消息,专注于衍生品交易的Layer1区块链Vega Protocol发起提案提议在未来几个月关闭Vega Alpha主网链和代币VEGA,转而专注于协议软件的开发和推广,并启动新项目Nebula,Nebula计划推出自己的链,运行Vega协议,Nebula将有自己的代币NEB,VEGA代币持有者将有机会将VEGA换成这个新代币,VEGA持有者被稀释至5:1。
Vega将把链上金库重新分配给质押者,并向验证者提供有保证的USDT激励,以保持网络在未来两个月内运行,从而允许用户从VegaDEX提取资金。相关治理投票将于9月6日结束。