最近,用AI“复活”逝者这件事,着实是火出了圈,从包小柏用AI复活自己女儿,到各种用AI复活明星的视频,我们发现,通过AI技术,让死者“重回人间”似乎成了一件轻而易举的事。
这样的情节,不禁让我想起了《流浪地球 2》中,科学家图恒宇利用量子计算机,“复活”了因车祸去世的女儿丫丫,赐予她数字生命的情节。
但其实,现实中的这些AI“复活”,要远比科幻片中来得廉价、简易,有些甚至已经发展成了一套产业链。
在淘宝上你只需要花10元,就可以重新看到死去亲友的音容笑貌。
不过,这样的技术,最多只能做到“让照片动起来”、“照片开口说话”,而且动作的幅度一般都很小,让人有种“一眼假”、“一眼AI”的感觉。
而稍微高级一点,表现得更加栩栩如生的,用的大都是现在的AI数字人技术,也就是通过收集大量的死者生前的信息,例如照片、视频、文本等,对其声音、形象和语言风格进行建模,来让死者“活过来”。
例如,前段时间,在商汤科技的年会上,人们就用数字人技术,“复活”了已经去世的汤晓鸥教授。
不过,这样的“复活”效果,其实还是基于真人的一个非常浅层的、表象的数字映像,跟真实社会当中的人所拥有的智慧差了老远。
比如像汤晓鸥这段视频,它里面的台词其实是工作人员提前编排好的,既不是来自汤教授本人,也不是来自一个能代表汤教授的AI智能体,只能说是一个样子货。
不过话虽这么说,这AI大模型可是眼看着越来越强大了,凭借大模型技术,是否真的有可能把人脑里的意识和记忆全扫描下来,然后上传到电脑里,从而实现“数字永生”呢?
赛博转生
就目前来说,让人们实现“数字永生”的方式,主要有两种:
一种是物理扫描,也就是将人类大脑构造的全部物理组成扫描下来,再上传到终端;
二是通过文本信息建模,搜集逝者生前所留下的短信、社交账号的留言,或是其他人对他的印象等等,通过这些信息建立一个大致的思维模型。
就第一种情况而言,虽然目前也有一些小规模的初步尝试和模拟实验,但其进展都十分有限。
例如,2018年,英国科学家宣称利用电子显微镜技术对小鼠的小脑进行了亚分子级别的三维扫描,并在蓝光超算中进行了有限的工作模拟。
而在2021年,耶鲁大学、普林斯顿大学和芝加哥大学的科学家们,成功地绘制了包含约130,000个神经元和5300万个突触的成年果蝇大脑连接组。
发现了吗?这些被扫描的对象,不是老鼠就是虫子,都是脑子很小的物种。
除了扫描的规模小,这些实验对神经回路的模拟能力也非常初级,往往只能提供静态的快照,无法捕捉到大脑的动态变化,而且哪个结构对应哪种功能,也是一头雾水。
而仅有的一些对人脑的扫描项目,例如德国海涅大学在2013年进行的实验,也仅仅只能对20微米见方的死者脑组织进行扫描。
而从物理层面扫描人脑,之所以如此困难,简单来说,主要就三点原因:
1、扫描很困难;
2、硬件存储能力不行;
3、计算能力不行;
首先,人脑那玩意儿实在太复杂细腻了,里头有860亿个神经元,要想完完整整把这么多玩意儿的精确到分子级别的结构都扫描出来,可不是件容易的事儿。
就拿现有最先进的透射电子显微镜(TEM)来说,它最高分辨率可以做到0.05纳米,听起来已经很牛逼了。
但问题是,为了通过TEM观察,样本需要切得非常薄,通常在几纳米厚度以内,人脑组织是极其复杂的,要将其制备成适合观察的样本,既需要保留细胞间的精细结构,又要防止在切割过程中造成损伤,这是一个极大的挑战。
并且,TEM啥的,是用高能的电子流来扫描样品的。所以拍出来的图像分辨率特别高。
但这玩意儿就有个大问题,它那电子流只能聚焦在样品的一小块区域,在任何给定时间,都只能照亮并拍下样品的一小部分。
所以想用它把整个大脑都扫描个遍,那可费了老劲了,就跟用放大镜想给整个北京拍全景照一样难。
就算真的解决上述难题了,但你再想想把一个人脑挨个扫描下来得产生多少数据?
860亿个神经元,就算只扫描神经元的大概形状和连接方式,也至少得拍上万亿张3D图像。每张图像数据量虽然能压缩到几十MB,但加起来总量也是几十艾字节级别的。
这里稍微解释下,艾字节(exabytes),是计算机存储容量单位。也常用EB来表示,1EB约等于一百万TB,也就是2的60次方字节。
现在最高端的数据中心级每块硬盘也就20TB的容量。你要存几十艾字节?那得几万亿几十万亿块硬盘啊,占地面积比整个中国都大!
再者,就算把这些数据存下来了,你还得有一个无与伦比的超级计算机系统,才能基于这些数据精确复制出人脑所有神经元的动态反应和交互。
每个神经元细胞内部,都有数以万计的各种离子通道、蛋白质分子,而它们的状态都在不断运动和变化。
如果要模拟全部860亿个神经元,那就等于是在同时解无数个巨大方程组,每个方程组都有上万个未知数和变量。
由于这些算力、硬件层面的种种限制,从物理层面完整复制人脑的设想,虽然理论上是可行的,但在没有找个更高效的方法之前,现阶段暂时实现不了。
那如果退而求其次,采用第二种方式,用文本信息建模,来模拟一个人的思维结构和特征呢?
人脑大模型
与全物理层面的模拟相比,文本建模似乎是一个更实际可行的替代方案,但是在还原度方面,相较前者而言,实在是有些拉胯……
首先,并不是每个人生前都能留下足够数量、质量的文本信息,如果没有足够的文本信息可供学习,训练出模型的发言就会比较“大路货”,即便从感官上也无法给我们“这就是那个人”的感觉。
另外,要还原出这个人在各种特定场景下的行为反应、决策判断等高级认知功能,光用通用的语义关联可就难办了,你得针对具体场景做大量训练,缓解模型偏差。
更关键的是,你怎么保证经过AI建模后的这个系统,真的还能完整继承逝者的“自我意识”,而不只是个简单的模仿机器?
要完整继承一个人的”自我意识”,可不止是学习表面的语言和行为那么简单。
因为自我意识是一种内在的、高级的心智状态,包括自我认知、情绪体验等等,这些隐藏在内心深处的东西,单纯从文字记录是很难捕捉到的。
比如同样是说一个“哦”,有时候是表达同意,有时候是漠不关心,甚至有时候是在生气。
说白了,意识活动太过复杂抽象,不是简单的语言数据就能还原的。
这是仅有表象的“数字皮囊”和真正的“数字生命”之间的关键区别。
就目前来看,在打造数字生命这件事上,物理建模还原度高,但可行性低,文本建模可行性挺高,但还原度又拉胯。
既然二者各有长短,那何不试着将两种方式融合一下?
最近还真出现了个类似的技术,名叫DeWave模型。
这个模型的特点,用一句话来说,就是通过大模型读取你的想法,并直接转化成文本。
今年一月,悉尼科技大学的科研人员,通过大语言模型、EEG(大脑活动检测工具)、脑机接口等技术,开发了一个可自动读取人类想法,并转化成文本的AI大模型——DeWave。
这相当于是AI版的“读心术”了。
DeWave的核心是利用EEG(脑电图)等设备,直接捕捉大脑的神经活动信号,作为物理层面的输入数据源。
然后DeWave会把这些特征向量再次转化,变成一串串的离散编码,这相当于把你的大脑活动给转换成了机器能读懂的一堆特殊密码。
接下来就简单了,DeWave直接把这些”大脑密码”丢进一个训练好的大模型里,经过模型的“翻译”,最终就能将你大脑里的想法,化作人话给生成出来了!
与单纯依赖文本不同,DeWave直接从人脑获取物理信号,所以在还原度上更有优势。
就目前来说,DeWave在ZuCo数据集上的表现,用眼动标记的EEG信号,拿到了41.35的BLEU分数和33.71的ROUGE分数。
这个测试就是为了检验DeWave这种直接读脑的翻译模型的精确度有多高,看它能不能真正做到”读心术”把人脑子里的想法解码出来。
其中BLEU是评估机器翻译整体准确性的指标,分数越高说明还原性越好。
而ROUGE分数则更关注重点和关键信息,要是重点漏了太多,分数就高不了了。
之前类似的技术,例如Wave2Vec,这玩意儿本来是用来识别语音的,后来有人把它改了改,用来识别大脑信号。但是,它在同样的数据集上,BLEU分数只有18.15,ROUGE分数是23.86。
这么一比,DeWave的表现就是甩了前者好几条街。
想象一下,倘若在未来,DeWave这类技术更上了一层楼,任何人要想对自己的思维建模,只需要戴上EEG设备一段时间,记录下自己在各种情况下的思维、想法,之后将其解读和翻译,导入大模型,并进行思维建模,一个完整的“人格拷贝”就诞生了!
而这样的“人格拷贝”,这着实和《赛博朋克2077》中,荒坂公司研究的所谓“灵魂杀手”芯片有些相似,后者就是用来获取和备份人类意识的一种黑科技装置。
不过,这样建模出来的数字生命,也存在着一个问题,就是它是静态的,它只能代表你带上EEG设备的那段时间的水平,而真人是会学习和成长的。如果想让这个思维模型像真人一样,在经历各种人和事之后,思想和心理也跟着变化成长,那人们就必须让其具备“记忆”和“反思”的能力,让其能够通过一次次“前车之鉴”完善自己。
而要做到这点,就要提到另一个关键的技术——SocioMind(数字大脑)。
数字大脑
“人是所有社会关系的总和。”近期,新加坡南洋理工,商汤科技,上海 AI 实验室共同推出的一个项目「Digital Life Project」(简称DLP),可以说忠实地践行了这一思想。
项目里有两个主要部分:
SocioMind:这是一个数字化的“大脑”,用来模拟角色的个性和社交行为。
MoMat-MoGen:这是一个让角色的数字化身体动起来的方法。
其中的SocioMind就是刚才提到的让思维模型学会“前车之鉴”的关键。
简单来说,SocioMind就是一个智能社交系统,能让虚拟角色(数字生命)根据过去的经历和对话,模拟出具有人类特征的社交反应和情感变化。
就像我们在现实中,与各色人等打交道多了,就逐渐学会了为人处事之道,知道如何应对不同的社交场景,SocioMind也在帮助虚拟角色“学习”如何在虚拟世界里,怎么通过一次次的交流,变得更像个真实的人。
具体地说,SocioMind大致是通过如下步骤,让数字生命学会“记忆”和“反思”的。
首先,SocioMind会根据角色的“背景故事”来塑造其个性。相当于是各类RPG游戏里的“创建角色”的环节,这一步决定了“数字人格”各方面的基础值,例如一个乐观的角色可能会积极的态度,一个内向的角色可能会更加谨慎。
之后,SocioMind为每个虚拟角色构建了一个记忆系统,记录角色在互动中的经历,以及基于这些经历产生的想法,相当于是让角色有了个“聊天记录”。
虽然嘛,聊天记录这东西很多系统都有,但SocioMind关键的地方,就在于它不仅会保存这些记录,还能进行深度理解与上下文关联。
通过深度学习和自然语言处理技术(NLP),角色能理解各种信息的含义和背后的情感。
最后,更关键的是,基于这样的深度理解,角色还能通过一系列复杂的算法,衍生出动态的适应和学习机制,而非公式化的机械反应。
举例来说,如果角色A和B吵了架,按照某种公式化的反应,下次A再见到B,一定会对B很反感。
但现实中的人性是多维和复杂的,假设A是一个宽容的角色,她可能刚开始会反感,但随着时间推移,反感就没那么强烈了。
如果A在争论后得到了朋友的安慰,或者A自己反思后,认为争论是不必要的,那么她对B的态度可能会有所缓和。
而SocioMind正是通过创建了一个情绪和社交模型,模拟了这种复杂性、动态性。
这个模型,就像一个不断生长,不断分叉的树枝,这棵树的每个分支代表了角色在社交互动中的一个可能的路径或结果。
而角色每经历一件事,或是做出一个不同的选择,就会导致新的分支生长出来。
随着时间的推移,角色的个性和情感状态就像这棵树的枝叶一样越来越丰富,形成了一个复杂的结构。
与完全模拟人脑神经元交互的方式相比,这种基因社交理论的技术路径,成本要低太多,可行性也要高太多了。
加上前面提到的DeWave技术,人们几乎就有了一套将思想翻译、导入、建模并且让其“活过来”的完整技术路径。
不过,话说回来,比怎么实现“数字生命”更重要的,是实现了数字生命以后,它对人类究竟有什么意义?
这个问题,就目前来说,至少有两个答案。
其一,从浅层的意义来看,这种真正有灵魂,有思想的数字生命,对娱乐业的推动可是大大的。
在电影、游戏、小说等领域,这些没有肉身,不会疲劳的数字生命,可以作为互动角色参与创作,提供更加个性化和另类的体验。
其二,从更深、更远的层次来看,这样的“数字备份”,实际上可以当成人类的“集体智慧库”的组成部分。
中国有句古话:“吾生也有涯,而知也无涯 。以有涯随无涯,殆已!”
一个人的生命,总是有限的,而在这有限的生命里,每个人所能承载和反刍出来知识,也是有限的。
但倘若将来数字生命成真了,在无限寿命的情况下,一个人究竟能学多少知识,又能凝结出多少智慧?
更不用说,在摆脱了生物大脑的限制后,这些数字生命的学习效率有多快。
倘若千万个这样的数字生命汇集到一起,人类是否就能涌现出一种更高级,更强大的智慧了?
Emmm……对于这个问题,只能说,有时候比科技更先撞到南墙的,是人类的想象力。
毕竟,即使数字生命前景再光明,目前人们最先想到的,还是用它搞“复活”业务,从死者身上赚钱。
暂无评论内容