胡说八道之六识与多模态

less than 1 minute read

Published: October 29, 2023

川大本科有3学分的《中华文化》必修课，我上的是徐法言的历史篇，主题是宗教。印象很深的一部分是佛教的唯心世界观——世界的基础是人的感知和认识。一方面我和你的感知与认识不同，所以对于我们而言世界是不同的；另一方面倘若我的感官与认识被全方位地蒙蔽，那么我所处的世界就彻头彻尾地是另一个世界了，其影视化表达见《黑客帝国》。

佛教术语“十八界”是以人的认知为中心，对世界一切现象所作的分类。十八等于六乘三，六是“眼、耳、鼻、舌、身、意”，而三是“根、尘、识”，如下表所示：

六根	六尘	六识
眼根	色尘	眼识
耳根	声尘	耳识
鼻根	香尘	鼻识
舌根	味尘	舌识
身根	触尘	身识
意根	法尘	意识

这一堆都是“概念”，有一部分已经融入日常汉语，如“六根清净”，但是大部分还是看得人云里雾里。解释一下，“根”是指感官本身，是眼睛、耳朵这些产生感知的器官；“尘”是被感知到的所有东西，是眼睛看见的一切画面、耳朵听闻的一切声音；“识”是基于“根”和“尘”所起的“了别”——通过器官、获得感知，对环境（世界）有所识别。举个再通俗的例子，开组会我坐在角落上，我的眼睛即“眼根”，看到投影昏晃、绿植干枯和众生百态是“色尘”，而发现老板很不满意这是“眼识”，更进一步眼识融入意识——得小心点别乱说话。

我联想到计算机领域的一些科研进展，真是特别有意思，适合胡说八道。首先，都有一堆奇奇怪怪的“概念”，例如现在好火的“Agent”——看着这词我认识、不解释又不是我原来认识的意思、解释了又好像逻辑都是通顺的。然后，很符合多模态的发展趋势，各模态先各自编码、而后对齐、再解码。人的眼见耳闻鼻嗅舌尝身觉先是分离的、但又统一至意识、并产生行为。各模态的编码器是“根”、模型接收的所有Token是“尘”、整个编码运算提炼信息的过程是“识”，模型学习到来自各模态数据的知识、统一之后产生模型的“意识”，再与人交互。再者，从BERT到GPT、逐渐轻视编码器而重视解码器，这也很符合逻辑。比认识世界更重要的是改造世界，感知器官只是人体的一小部分、而更大的部分是为了行动而存在的。“世界-意识-行动”这三者是循环的：人做出行动改变世界，进而再度感知和认识世界、增强了意识，于是做出下一步行动；模型生成内容，进而获取反馈、增强了对指令的理解，于是继续生成新的内容。总之人就是模型的世界，人给了什么输入，无论预训练数据、微调监督标签或者Prompt，模型的“世界观”就是什么样子。它再输出生成内容、人机之间产生交互，这个唯心的小世界就“活”了起来。

我再偷换一句概念，佛语“色即是空，空即是色”。佛教中对于有形质的能感触到的东西的统称为“色”，这个解释是可考的、明确的。但是什么是空？找到的各种说法不尽相同，有望文生义者说就是虚空，还有解释为唯心主义、精神领域的看不见摸不着的东西。从来文人狡黠，管用惯用现成的旧词寓以自己的新意，例如优秀文人曹雪芹说空空道人“因空见色，由色生情，传情入色，自色入空”遂改名为情僧。而拙劣文人我说“色即是空，空即是色”这句话的回文结构就是Encoder-Decoder：色是有形质的能感触到的数据、空是看不见摸不着的隐空间，它们是映射关系，数据被编码到隐空间再被解码回数据空间。当训练学习得充分，嵌入表征的效果真的很好，那么这个模型、它悟空了。

Share on

Twitter Facebook LinkedIn

Ziran Liang (梁子然)

胡说八道之六识与多模态

Share on

You May Also Enjoy

暑期外出参会有感

My Motivation