【导读】中风‍后,瘫痪的Ann失语了18年。就在最近,脑机接口和数字化身,竟让她能用面部表情「说话」了。

同一天,Nature双发「脑机接口」重磅研讨,足以改变整个人类!

30岁那年,一次毁灭性的中风,让一位47岁加拿大女人简直完全瘫痪,此后失语18年。

幸运地是,来自加州大学的团队开发了全新脑机接口(BCI),让Ann操控「数字化身」再次开端说话了。

「I think you are wonderful」,当这句话说出口时,关于Ann来说,足足跨越了十多年。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

值得一提的是,这个数字化身中面部表情完成,采用了「最终生还者 2」相同的技能。

具体来讲,研讨人员在Ann的大脑表层下,植入一系列电极。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

当Ann企图说话时,BCI便会拦截大脑信号,将其转化为单词、语音。这儿,AI不是去解码整个单词,而是解码音素。

加州大学的BCI完成了可以以每分钟78个单词的速度说话,远远超越Ann从前带过的设备,即每分14个单词。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

正如论文题目所示,研讨关键完成了「语音解码」和「数字化身操控」,也正是与以往研讨最大的不同。

全新的BCI技能经过面部表情,为数字化身Avatar制造动画,以仿照人类自然沟通的细节。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

论文地址:https://www.nature.com/articles/s41586-023-06443-4

这项打破性的研讨于8月23日在Nature发表。这是初次,直接从大脑信号组成语音和面部动作,标志着脑机接口的一大飞跃。

另一篇登上Nature的研讨,相同是重视将语音神经活动转化为文字的脑际接口。

研讨成果称,瘫痪患者可以以每分62个字的速度进行沟通,比之前的研讨快3.4倍。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

论文地址:https://www.nature.com/articles/s41586-023-06377-x

两项重磅研讨,全都将语音大脑信号转成文本的速度大幅提升,乃至还让虚拟化身做人类「嘴替」。

创世的脑机接口,让人类离机械飞升不远了。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

第一句话出口时,她幸福地笑了

三十而立,关于每个人来说,人生还有许多惊喜需要开启。

关于Ann来说,作为加拿大的一名高中数学老师,正在讲台上教书育人,桃李满天下。

然而,突如其来的一场中风,让她瞬间失掉对身体一切肌肉的操控,乃至无法呼吸。

从此,她再也没有说出一句话。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

脑中风最直接的后果,便是无法操控面部肌肉,导致面瘫,无法说话。

在接下来的5年里,Ann常常辗转难眠,惧怕自己会在睡梦中死去。

经过多年的物理医治,也看到了一些开始成果。

她可以做出有限的面部表情,以及一些头部和颈部运动,尽管如此,她仍旧无法驱动面部说话的肌肉。

为此,她也接受了脑机接口的手术。

不过以往的BCI技能不行先进,只能让Ann进行困难缓慢的沟通,无法将她的大脑信号解码为流利的言语。

Ann悄悄移动头部,经过设备在电脑屏幕上缓慢地打字,「一夜之间,我的全部都被夺走了。」

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

2022年,Ann决定再次做出测验,自愿成为加州大学研讨团队的受试者。

添加一张脸,一个声响

对此,研讨人员记录了Ann企图背诵单词时的大脑信号形式,以练习人工智能算法识别各种语音信号。

值得一提的是,练习的AI是来解码音素——语音的根本要素,而不是整个单词,使其速度和通用性提高了3倍。

为了做到这一点,研讨小组在安的大脑表面植入了一个由253个电极组成薄如纸片的矩形电极。

然后,由一根电缆刺进Ann头部固定的端口,将电极连接到一组核算机上。

这一体系,现在能以每分近80个单词的速度将Ann的测验语音转录成文本,远远超越了她以前的BCI设备的速度。

经过Ann在2005年的婚礼录像,研讨团队利用人工智能重建了一个人共同的语调和口音。

然后,他们利用一家致力于语音生成动画技能公司Speech Graphics开发的软件创立了一个个性化数字化身,可以实时仿照Ann的面部表情。

他可以与Ann企图说话时大脑宣布的信号相匹配,并将这些信号转换成她的化身面部动作。

包含下巴打开和闭合、嘴唇撅起和抿紧、舌头上翘和下垂,以及快乐、悲伤和惊讶的面部动作。

现在,当Ann测验说话时,数字化身就会无缝地制造动画,并说出她想要的话。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

这儿,闻名的冒险游戏「最终生还者 2」「光环:无限」等在出现生动多样的人物面部表情时,相同使用了Speech Graphics的面部捕捉技能。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

Speech Graphics的首席技能官兼联合创始人Michael Berger标明:

创立一个可以实时说话、表情和表达的数字化身,并直接与受试者的大脑相连,显现了人工智能驱动面部的潜力远远超出了视频游戏。

仅康复说话本身就令人形象深入,而面部沟通是人类的固有特性,它让患者再次拥有了这个特殊的才能。

加州大学的这项研讨工作不仅仅是BCI技能打破,更是很多特殊人士的期望。

这项技能打破让个人完成独立,自我表达触手可及,为Ann和很多因瘫痪而失掉言语才能的人,带去了前所不知道的期望。

关于Ann现在13个月大的女儿来说,BCI打破让她听到了,从诞生起,从未聆听过的母亲的声响。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

据介绍,他们开发的下一个BCI版别,是无线的,省去了连接到物理体系的麻烦。

加州大学这项试验领导者Edward Chang已经用了十多年的时刻推进脑机接口技能。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

2021年,他和他的研讨团队开发了一种「言语神经科技辅具」(speech neuroprosthesis),让一名严峻瘫痪的男子可以用完好的语句进行沟通。

这项技能,能捕捉大脑指向声道的信号,并将其转化为文字显现在屏幕上,标志着初次证明了语音-大脑信号可以被解码为完好的单词。

那么,加州大学让Ann「开口说话」的背面技能具体是怎么完成的呢?

技能完成

在这项研讨中,由加州大学旧金山分校神经外科主任Edward Chang博士领导的研讨团队将253针电极阵列植入了Ann的大脑言语操控区。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

这些探头监测并捕获了神经信号,并经过头骨中的电缆端口将它们传输到一组处理器中,在这个核算仓库( computing stack)中有一个机器学习AI。

几周来,Ann与团队协作练习体系的人工智能算法,以识别她的大脑中1000多个单词的神经信号形式。

这需要一遍又一遍地重复1,024个单词的会话词汇中的不同短语,直到核算机识别出与一切根本语音相关的大脑活动形式。

研讨人员没有练习AI识别整个单词,而是创立了一个体系,可以从音素的较小组件中解码单词。音素以与字母构成书面单词相同的方式构成口语。例如,「Hello」包含四个音素:「HH」、「AH」、「L」和「OW」。

使用这种办法,核算机只需要学习39个音素,就可以破译英语中的任何单词。这既提高了体系的准确性,又使速度提高了三倍。

但这只是研讨的一个小序曲,重头戏在AI对Ann意图的解码和映射。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

电极被放置在大脑区域,研讨小组发现这些区域对言语至关重要

研讨团队经过深度学习模型,将检测到的神经信号映射到语音单元、语音特征,以输出文本、组成语音和驱动虚拟人物。

刚刚提到,研讨人员与Speech Graphics公司协作制造了患者的虚拟形象。

SG的技能根据对音频输入的分析,「逆向规划」出面部必要的肌肉骨骼动作,然后将这些数据实时输入游戏引擎,制造成一个无推迟的形象。

由于病人的精神信号可以直接映射到化身上,因而她也可以表达情感、乃至进行非言语沟通。

多模态语音解码体系概述

研讨人员规划了一个语音解码体系,帮助因严峻瘫痪和无法发声的Ann从头与别人进行沟通沟通。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

Ann与团队协作练习AI算法,以识别与音素相关的大脑信号(音素是构成口语的语音亚单元)

研讨人员在Ann的大脑皮层上植入了一个有253个通道的高密度ECoG阵列,特别是覆盖了与言语有关的大脑皮层区域,包含SMC和颞上回。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

简略来说,这些区域与研讨人员的面部、嘴唇、舌头和下巴的动作有关 (1a-c)。

经过该阵列,研讨人员可以检测到这些区域在Ann想要说话时的电信号。

研讨人员注意到当Ann测验移动她的嘴唇、舌头和下巴时,阵列可以捕获到不同的激活信号 (1d)。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

为了研讨怎么从大脑信号中解码言语,研讨人员让Ann在看到屏幕上的语句后测验无声地说出这个语句,即做出发音的动作。

研讨人员从Ann头部的253个ECoG电极捕获到的信号中,提取了两种主要的大脑活动信号:高伽玛活动(70-150赫兹)和低频信号(0.3-17赫兹)。

随后便使用了深度学习模型去学习怎么从这些大脑信号中猜测发音、语音和口腔动作,最终将这些猜测转化为文本、组成语音和虚拟化身的动作。

文本解码

研讨团队期望从大脑中解码文本,特别是在患有发音困难的人测验说话的情况下。

但他们前期的尽力遭遇了解码速度慢和词汇量小的限制。

本研讨中,他们使用了电话解码(phone decoding)的办法,这使他们可以从大词汇量中解码任意短语,并完成接近自然说话的速度。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

为了评价实时功用,当Ann测验默读249个语句时,研讨团队解码了文本。这些语句是从一个包含1024个单词的语句集中随机挑选的,而且在模型练习时并未使用过。为了解码,他们从ECoG信号中提取了特征,并使用了双向循环神经网络(RNN)进行处理。

他们使用了几个规范指标来评价解码功用,包含单词错误率(WER)、电话错误率(PER)、字符错误率(CER)和每分钟单词数(WPM)。

研讨团队观察到,当解码速度为78.3 WPM时,这已经超越了Ann使用其辅助设备的通常通讯速度,而且接近自然说话的速度。

为了评价信号的稳定性,他们进行了一个单独的使命,要求Ann默读NATO的26个代码词或测验进行四种手势动作。成果显现,神经网络的分类器功用十分好,均匀准确率高达96.8%。

最终,为了评价在没有任何单词之间暂停的情况下对预界说语句集的模型功用,他们对两个不同的语句集进行了仿照解码,成果显现关于这些常常被用户使用的有限、预界说的语句,解码速度十分快且准确性十分高。

语音组成

文本解码的另一种办法是直接从记录的神经活动中组成语音,这可认为无法说话的人提供一条更自然、更有表现力的沟通途径。

以前对言语功用完好的人进行的研讨标明,在发声或仿照说话时,可以经过神经活动组成可理解的语音,但这种办法尚未在瘫痪者身上得到验证。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

研讨人员将在音频-视觉使命条件下企图默读时的神经活动直接转化为可听见的语音进行了实时语音组成(图3a)。

为了组成语音,研讨人员将神经活动的时刻窗口传递到一个双向循环神经网络(RNN)中。

在测验之前,研讨人员练习RNN猜测每个时刻过程的100个离散语音单元的概率。

为了创立练习的参阅语音单元序列,研讨人员使用了HuBERT,这是一个自监督的语音标明学习模型,它将连续的语音波形编码为捕获潜在音位和发音标明的离散语音单元的时刻序列。

在练习过程中,研讨人员使用了CTC损失函数,使RNN可以在没有参与者的静默言语测验和参阅波形之间的对齐的情况下,学习从ECoG特征到这些参阅波形中派生的语音单元之间的映射。

在猜测了单元概率后,将每个时刻步的最或许单元传入一个预先练习的单元到语音模型中,该模型首要生成一个梅尔频谱图,然后会实时将该梅尔频谱图组成为听得见的语音波形。

在离线情况下,研讨人员使用了一个在参与者受伤之前的短时刻段内练习的语音转换模型,将解码的语音处理成参与者自己的个性化组成声响。

面部头像解码

研讨人员开发了一种面部化身BCI界面,用于将神经活动解码成发音的语音手势,并在视听使命条件下出现出动态的虚拟面部(图4a)。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

研讨人员为了完成组成面部头像的动态动画,采用了一个被规划来将语音信号转化为面部动作动画的头像动画体系(Speech Graphics)。

研讨者采用了两种办法来为头像制造动画:直接办法和声学办法。直接办法是从神经活动中直接估测发音动作,不经过任何语音中介。

声学办法则用于实时音视频组成,它确保解码的语音音频和头像的动作之间达成低推迟同步。

除了伴随组成语音的发音动作外,完好的头像脑机接口还应该可以显现与语音无关的口面动作和表达情感的动作。

为此,研讨者收集了参与者在履行额外两项使命时的神经数据,一是发音动作使命,二是情感表达使命。

成果显现,参与者可以操控头像BCI来显现发音动作和强烈的情感表达,这揭示了多模态通讯脑机接口康复表达有意义的口面动作的潜力。

发音表征驱动解码

在健康的说话者中,SMC(包含前中心回和后中心回)的神经表征编码了口面肌肉的发音动作。

将电极阵列植入到参与者的SMC中心时,研讨人员估测:即便在瘫痪后,发音的神经标明依然存在,而且推动了语音解码的功用。

为了评价这一点,研讨者拟合了一个线性的时刻感受场编码模型,根据在1024字通用文本使命条件下,文本解码器核算的音素概率来猜测每个电极的HGA。

关于每一个被激活的电极,研讨者核算了每个音素的最大编码权重,然后得到了一个音位调谐空间。在这个空间中,每个电极都有一个与其相关的音素编码权重向量。

中风瘫痪18年  AI让她再次「开口说话」:脑机接口模拟表情  数字化身当嘴替

此时快讯

【观点:等待链上转账总价值显着上升,然后再考虑投资比特币】金色财经报道,分析师Ali Charts在X平台(原推特)中表示,他正在等待链上转账总价值的显着上升,然后再考虑全面投资比特币(BTC)。分析师表示,监控比特币网络的链上活动,特别是以美元转移的硬币的价值,为预测更大的市场上涨趋势提供了有价值的信号。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注