胡说八道之六识与多模态

less than 1 minute read

Published:

川大本科有3学分的《中华文化》必修课,我上的是徐法言的历史篇,主题是宗教。印象很深的一部分是佛教的唯心世界观——世界的基础是人的感知和认识。一方面我和你的感知与认识不同,所以对于我们而言世界是不同的;另一方面倘若我的感官与认识被全方位地蒙蔽,那么我所处的世界就彻头彻尾地是另一个世界了,其影视化表达见《黑客帝国》。

佛教术语“十八界”是以人的认知为中心,对世界一切现象所作的分类。十八等于六乘三,六是“眼、耳、鼻、舌、身、意”,而三是“根、尘、识”,如下表所示:

六根六尘六识
眼根色尘眼识
耳根声尘耳识
鼻根香尘鼻识
舌根味尘舌识
身根触尘身识
意根法尘意识

这一堆都是“概念”,有一部分已经融入日常汉语,如“六根清净”,但是大部分还是看得人云里雾里。解释一下,“根”是指感官本身,是眼睛、耳朵这些产生感知的器官;“尘”是被感知到的所有东西,是眼睛看见的一切画面、耳朵听闻的一切声音;“识”是基于“根”和“尘”所起的“了别”——通过器官、获得感知,对环境(世界)有所识别。举个再通俗的例子,开组会我坐在角落上,我的眼睛即“眼根”,看到投影昏晃、绿植干枯和众生百态是“色尘”,而发现老板很不满意这是“眼识”,更进一步眼识融入意识——得小心点别乱说话。

我联想到计算机领域的一些科研进展,真是特别有意思,适合胡说八道。首先,都有一堆奇奇怪怪的“概念”,例如现在好火的“Agent”——看着这词我认识、不解释又不是我原来认识的意思、解释了又好像逻辑都是通顺的。然后,很符合多模态的发展趋势,各模态先各自编码、而后对齐、再解码。人的眼见耳闻鼻嗅舌尝身觉先是分离的、但又统一至意识、并产生行为。各模态的编码器是“根”、模型接收的所有Token是“尘”、整个编码运算提炼信息的过程是“识”,模型学习到来自各模态数据的知识、统一之后产生模型的“意识”,再与人交互。再者,从BERT到GPT、逐渐轻视编码器而重视解码器,这也很符合逻辑。比认识世界更重要的是改造世界,感知器官只是人体的一小部分、而更大的部分是为了行动而存在的。“世界-意识-行动”这三者是循环的:人做出行动改变世界,进而再度感知和认识世界、增强了意识,于是做出下一步行动;模型生成内容,进而获取反馈、增强了对指令的理解,于是继续生成新的内容。总之人就是模型的世界,人给了什么输入,无论预训练数据、微调监督标签或者Prompt,模型的“世界观”就是什么样子。它再输出生成内容、人机之间产生交互,这个唯心的小世界就“活”了起来。

我再偷换一句概念,佛语“色即是空,空即是色”。佛教中对于有形质的能感触到的东西的统称为“色”,这个解释是可考的、明确的。但是什么是空?找到的各种说法不尽相同,有望文生义者说就是虚空,还有解释为唯心主义、精神领域的看不见摸不着的东西。从来文人狡黠,管用惯用现成的旧词寓以自己的新意,例如优秀文人曹雪芹说空空道人“因空见色,由色生情,传情入色,自色入空”遂改名为情僧。而拙劣文人我说“色即是空,空即是色”这句话的回文结构就是Encoder-Decoder:色是有形质的能感触到的数据、空是看不见摸不着的隐空间,它们是映射关系,数据被编码到隐空间再被解码回数据空间。当训练学习得充分,嵌入表征的效果真的很好,那么这个模型、它悟空了。