来历: Antalpha Labs
导读
人工智能的崛起令人惊叹。从基本的算法,到如ChatGPT和Copilot这样的言语学习模型(LLMs),人工智能已处于技能演进的前沿。跟着这些模型与用户互动并处理大量数据和提示,数据隐私问题变得尤为重要。其间亚马逊和苹果等大公司现已约束员工拜访ChatGPT等公共API,来避免或许因AI交互而导致的数据走漏。此外,能够合理地猜测,相关法规将很快出台,以强制要求一定程度的用户隐私维护。
咱们怎么保证与这些模型的交互、发问和同享的数据保持隐私呢?
-全同态加密(FHE)
简介
在密码学领域,全同态加密是一个开创性的概念。它的魅力在于其具有的一种共同才能:它允许直接对加密的数据进行核算,而不需求先对数据解密,然后完成了对敏感信息的隐私推理。
凭借这种特性能够保证两个重要的事情:数据在处理过程中保持安全,以及对模型知识产权(IP)的彻底维护。
隐私推理与知识产权维护
现在,”隐私 “和 “用户体会 “似乎是鱼和熊掌的联系,二者不可得兼。人们往往为了更好的用户体会,信任第三方去向理他们的信息。咱们信任,这些第三方公司能够在用户隐私与优质的用户服务之间找到一个平衡点,而不必在隐私性更高但短少功能的本地解决计划或牺牲隐私以获得丰富功能的服务之间做出挑选。
全同态加密能够在彻底维护模型知识产权的情况下完成隐私推理。经过对加密数据进行核算,它能够保证提示词彻底保密,一起还能维护大言语模型的知识产权。
传统加密办法 VS FHE
在传统的加密计划中,假如要对加密方式下的数据进行有意义的运算,首先需求对其进行解密。但是解密就会暴露数据明文,这意味着数据将变得软弱,易遭到进犯,哪怕只是一瞬间的解密。
相比之下,全同态加密能够直接对密文进行运算,保证敏感信息在整个运算过程中处于“不可见”的状态。
为什么FHE很重要
全同态加密的重要性不仅限于理论。幻想一下在云核算服务中,能够在不解密数据的情况下进行数据处理,或者医疗数据库能够在不获取敏感患者详细信息的情况下进行分析。全同态加密的潜在运用十分广泛且多样化,包含安全投票体系和对加密数据库进行隐私搜索等。
FHE的数学基础
全同态加密基于容错学习(LWE)问题,这是一种格密码学技能,具有抗量子性。在LWE中,运用随机噪声使数据变得不可读,除非具有密钥。对加密数据进行算术运算是或许的,但这一般会增加噪声水平。假如接连进行过多的运算,任何人都无法读取数据,包含持有密钥的人。这便是部分同态加密(SHE)。
而要将部分同态加密转换为全同态加密,需求一种能下降噪音水平的操作。这种操作被称为 “自举”(Bootstrapping),多种全同态加密计划都采用了自举操作。在本文中,咱们将重点评论环面上的全同态加密计划(Torus FHE),它运用数学环面的代数结构来完成全同态加密。
TFHE的优点
尽管每种全同态加密计划都有自己的优缺点,但在实践场景中,TFHE现在具有更高效的完成。TFHE的另一个重要优势在于其可编程自举(Programmable Bootstrapping,PBS),它将一般的自举操作扩展到包含对单变量函数的核算,例如在机器学习领域中至关重要的激活函数。
TFHE 的一个劣势是在核算中每履行一次算术运算都需求履行一次 PBS 操作,而其他计划则允许在自举操作之间批量履行一些操作。
假定与近似
为了估计运用全同态加密进行大言语模型(LLM)推理所需的时刻,咱们做出一些假定来评估:
-
每个Token所需的算术操作次数大约是模型中参数数量的1–2倍。这是一个下限,由于每个Token都运用了整个模型,咱们将假定这个下限满足挨近实践需求。
-
大言语模型中的每个算术操作都能够映射到TFHE中的一个算术操作。这基本上是两种计划中变量类型大小的说明。咱们假定关于大言语模型来说,INT4变量满足,而且关于TFHE来说是可行的。
-
大言语模型中的每个算术操作都需求映射到全同态加密中的一个算术操作。这意味着咱们不能在未加密的情况下运转模型的一部分。Zama最近的一篇博文考虑了不运用这个假定的FHE推理,其间大部分模型由用户在本地履行,没有任何加密,只要一个小部分(例如单个注意力头)在模型的公司服务器上运用全同态加密运转。咱们以为,这种办法实践上并没有维护模型的知识产权,由于在这种情况下,用户能够只运转缺失的头部,而且只要细微的精度丢失,如此处所示,或者对缺失部分进行相对廉价的训练,以获得与原始模型适当的成果。
-
TFHE中的每个算术操作都需求进行一次PBS(可编程自举)。PBS是TFHE核算的首要瓶颈。
-
现在最先进的TFHE完成是FPT。这是一种FPGA完成,以每35微秒核算一次PBS。
LLM和FHE的应战
跟着最新技能的进展,现在最好的全同态加密完成能够在仅需35微秒的时刻内履行一次算术操作。但是,当考虑到像GPT2这样杂乱的模型时,单个Token需求进行惊人的15亿次操作。这意味着每个Token的处理时刻约为52,000秒。
为了更好地理解,关于言语模型来说,一个Token能够表明一个字符或一个完整的单词等内容。幻想一下与一个言语模型进行交互,其间呼应时刻需求一两个星期!这是不可承受的,这样的推迟明显关于实时通信或模型的任何实践运用都是不可行的。
这显示了在当时的全同态加密技能下,关于大规划的言语模型来说,完成实时推理仍然是一个巨大的应战。尽管全同态加密在数据维护方面具有重要意义,但在需求高度核算密集型的任务中,其性能约束或许使其难以运用于实践场景。关于实时交互和快速呼应的需求,或许需求探索其他的安全核算和隐私维护解决计划。
潜在的解决计划
为了使全同态加密运用到大言语模型中,以下是一个或许的路线图:
-
运用多机器完成并行处理:
-
开始为52,000秒/Token。
-
经过部署10,000个并行机器,咱们将时刻缩短到5秒/Token。请注意,大言语模型的确能够高度并行化,现在的推理一般在数千个或更多的GPU核心上并行履行。
2. 过渡到先进的硬件:
-
从改进后的--开始为5秒/Token
-
切换到GPU或ASIC,咱们能够完成每个Token 0.1秒的处理时刻。尽管GPU能够在速度上提供更直接的收益,但ASIC在速度和功耗方面都能够提供更高的收益,例如之前Blog提到的ZPU便是这样的例子。
正如图所示,运用现有的数据加快技能,经过全同态加密能够完成大言语模型的私有推理。经过在满足大的数据中心中进行大规划但可行的初始投资,能够支撑这一点。但是,这种或许性仍然是微乎极微的,而且关于更大的大言语模型,如Copilot(120亿参数)或GPT3(1750亿参数),仍存在距离需求补偿。
关于Copilot来说,较小的Token吞吐量就满足了,由于它生成的是代码输出,一般比人类言语更简练。假如咱们将吞吐量要求下降8倍,那么Copilot也能到达可行性的方针。
最后的距离能够经过组合更大规划的并行化、更好的完成以及在全同态加密中进行引导的更高效算法来补偿。在Ingonyama,咱们信任算法是弥合这一距离的重要组成部分,咱们的团队现在正专心于相关算法的研讨和开发。
总结
全同态加密的安全性和大言语模型的核算才能的结合能够从头定义人工智能交互,保证功率和隐私两者统筹。尽管存在一些应战,但经过继续的研讨和立异,咱们能够完成与AI模型(如ChatGPT)的交互既具有即时性又具有隐私性的未来。这将为用户提供更高效和安全的体会,并推进人工智能技能在各个领域的广泛运用
此时快讯
【Web3操作协议dappOS已经上线领取奖励】金色财经报道,Web3操作协议dappOS已经上线领取奖励,申领时间将于11月17日结束。
dappOS的大使发推文鼓励互动并获取奖励。参与社区的用户在代币发布之前有机会获得奖励,据说奖励的数量将影响将来的空投份额。代币的正式发布时间尚未确定,但这一活动为社区提供了一个良好的激励,同时也提供了产品使用费用和链上凭证等补偿。