Gemini Ultra到底水平如何?
2023年12月7日,谷歌又一次发布了他们的AI产品——Gemini(双子座)。很多媒体都根据谷歌提供的专题页面做了报告。你可以戳此查看Gemini页面。
而咱们这期《科技参考》,主要为了提供一些不一样的信息,帮大家看清这件事。
如果用一句话总结谷歌的Gemini,那就是,它的顶级版本Ultra版性能在处理文本上的能力可能略逊于GPT-4版本的ChatGPT,但它还有多模态输入和输出的功能,这是当前ChatGPT还没有完全上线的功能,不过OpenAI应该很快也要推出多模态功能了。
下面我们来具体说说:
成绩问题
首先是成绩方面。
宣传稿里都说它在32个项目里领先了30项。这个听着很惊人,属于全面超越、遥遥领先。但实际并不是这样。我这里把官网的截图放在文稿中了,你可以对比着看,不看的话只听我说也没问题。
大家要注意谷歌给出的长图里得分的写法。比如,MMLU这个项目的测试,Gemini Ultra得了90.0%的成绩,GPT-4得了86.4%的成绩,确实被超越了。但蓝色发亮的90.0%的成绩下面有一行灰色的小字,写的是“CoT@32”;而GPT-4那边在86.4%的白色字体成绩下面也有一行灰色小字,写的是“5-shot”。
咱们把谷歌提供的60页报告下下来看看,你可以戳此查看谷歌报告。
报告里用非常扭捏的姿态旁敲侧击的解释了CoT@32的意思,那就是,“使用思维链提示方法,从32个结果中挑最好的”。
什么是“思维链提示方法”呢?
咱们就以MMLU这个测试集里的一道具体问题来举例。这个问题是:葡萄糖是如何被运输进入肌肉细胞?A.通过被称为GLUT4的转运蛋白。B.只在胰岛素存在时。C.通过己糖激酶。D.通过单碳酸盐转运蛋白。
没有思维链提示方法的时候,你就只能听天由命,等待大语言模型给出答案了,兴许它就选了B——只有在胰岛素存在时,那可就错了。因为答案是A——通过被称为GLUT4的转运蛋白。其实这个问题还真是有点专业,因为绝大部分人压根就没听说过什么GLUT4。
那么,使用思维链提示词的方法怎么得到答案呢?你要这么一步步引导Gemini。先安排一个人跟Gemini说:“肌肉细胞需要葡萄糖作为能量来源。葡萄糖通过特定的转运蛋白进入细胞”,然后看Gemini给出什么结果。这是第一次,得到一个结果。
咱们假如它回答的是C——通过己糖激酶。这个答案是错的,不行,还得再试试。这次给的提示多一点,这么提示Gemini:“葡萄糖通过特定的转运蛋白进入细胞,其中GLUT4是肌肉和脂肪细胞中葡萄糖的主要转运体”,然后一回车,于是看到Gemini回答A——通过被称为GLUT4的转运蛋白。答案正确!
以上就是思维链提示法的工作原理。之前我们详细讲过大语言模型的工作原理,理解了工作原理,你就能深刻的体会出思维链提示法好在哪儿。
毕竟这个模型最擅长做的就是依照你输入的句子里每个字和前面字的相关度,还有每个字和全部几万个字的相关度,两个相关度综合考量后的情况来推测下一个字。
于是当你真的需要准确度较高的结果,而且又预测到大语言模型会给出一个不疼不痒,或者很宽泛的答案的时候,或者是你隐约的知道答案大致是什么样的时候,或者你大概知道答案应该包含什么词的时候?你怎么才能获得更好的结果呢?就是把关于这个问题你自己已经知道的大致方向,尤其是关键词说出来,然后大语言模型在计算时,就会特地提高你提到的那些词的权重,顺着那个关键词继续往后做词语接龙,答案的准确度就会更高。
比如,你脑子里有个概念——不论什么物质,进出细胞都需要转运蛋白来帮忙,那你即便不知道到底是那种蛋白质、叫什么名字,你也得把“转运蛋白”这个词写出来,这样才能引导大语言模型往你希望的方向接龙。这就是思维链提示法。
MMLU这个测试集涵盖57个学科,从人文社科到理工的各种知识,在选择题的情况下,您要是还使用思维链提示法,甚至在提示中都把选项里唯一可能出现的词都提示出来了,还是从这么提示后考了32次的卷子中选了得分最高的卷子的成绩当结果跟GTP-4比,您这次考试是不是作弊有点做过了头了?
你听到这儿可能就很疑惑了,对啊,都提示到这么夸张的地步了,怎么才得90分啊?!是的。首先,真出现100%这样的成绩,那圈内人士真的要笑掉大牙了。您这个也太假了。其次,这里面还包含了很多人文社科知识,其实真的是见仁见智。
还有一个没说,就是GPT-4得分下面那个“5-shot”是什么意思?就是完全不使用什么思维链提示法,就是同一张卷子做了5次,最后选成绩最好的那次。
在这种情况下,Gemini答对了90.0%的问题,而GPT-4答对了86.4%的问题,你觉得谁强谁弱呢?
其次,我要说的就是,谷歌自己也知道这么搞小伎俩难登大雅之堂,所以就故意隐瞒了这一点。
本来你在一个面对公众的页面放一个什么“CoT@32*”就很让人迷惑,因为普通公众怎么可能知道“CoT@32*”是什么东西。你说表格空间太小,我只能用缩写呈现,那么按照一份报告应有的素质,你也要在表格下面马上把*表示什么告诉大家,哪怕是很小的字。
结果谷歌还确实给出了* 的解释。怎么解释的呢?“有关其他方法的性能详情,请参阅技术报告”(See the technical report for details on performance with other methodologies)。
好嘛,我就是不知道CoT@32* 什么意思,我还是个有素质的人,专门去表格底部找解释,你直接告诉我不就好了?还让我二次跳转。那就很少有人这么做了。再往下翻一屏,看到技术报告的链接了,一点,一份60页的PPT,手机上看就是密密麻麻小蚂蚁的效果。
最后,终于在第七页表格下的小字里翻到了这个解释。
当然,这里也要给Gemini说一句公道话。因为在60页报告里透露出,其实GPT-4也做了思维链提示法32次的成绩,是87.2%,仍然低于Gemini的90.0%。
按理说,大家应该在统一标准下对比。再仔细看表格,假如都采用做5次、选成绩最好的那张试卷,不用CoT@32方法呢?这张表格里也有,GPT-4得分86.4%,Gemini得分83.7%,其实是不如GPT-4的。
上面是关于MMLU成绩上的小伎俩,再说这次线上发布最令人惊讶的那段6分22秒的视频。
这段演示是为了表现Gemini多模态输入输出的效果,演示者是个印度人,主要是手绘,有时候也放一些手势或者物体来展现多模态输入输出,看起来效果极其神奇。
手绘毕竟有个过程,最终是要画一个浴缸里常见的橡皮鸭子。作画前印度人说,告诉我你看见了什么,然后就开始画了。什么都没画的时候,Gemini说,看见一张纸放在桌子上。一开始动笔,Gemini就随着画作的进展说了起来,看见了蜿蜒的线条,曲线光滑流畅,没有棱角,对我来说像一只鸟,鸟在水里游泳,有长长的脖子和喙……哎,就是这样,随着人手画,Gemini就跟着说,没有一丁点延迟。最后,慢慢发现是一个鸭子,而且是浴缸里常见的蓝色的橡皮鸭。
视频后面编排的更精巧一些。
比如,直接在左边放一个硬币,右边放一个曲奇饼干,然后Gemini就开始自动解释,它们都是又圆又扁的。然后把硬币换成橘子,马上就自动说,它们都是食物,橘子比曲奇饼干对身体更有好处。
还有像2分45秒,一开始就是一个拳头在挥动,挥了三下,然后五指张开,然后又握拳挥动了三下,伸出2根手指。就在这时,Gemini说,我知道你在干什么了,你在猜石头剪子布。但这时候,手才开始挥动了三下,出了石头。
很多业内人士看了这样的带剧情脚本的拼接视频,非常不以为然,指责谷歌怎么能用这种有意降低延迟,甚至是直接音配像的方式,提前把多模态的声音播放出来,然后再安排视频出现呢?后来DeepMind的研发副总裁都出来回应,老老实实的把Gemini这个展示多模态输出的视频是怎么一步步通过提示词做出来的告诉了大家。
Gemini的视频是怎么做出来的,你可以戳此查看。
结果仔细一看,根本不是基于视频动作的识别,而是通过多张图片和大段的文字描述输入给Gemini,然后输出成语音。
我觉得,这实际上比第一个成绩上的小伎俩更不堪。
成绩毕竟是真实的,虽然不太愿意让人知道采用了思维链提示的方法,但你如果是一个愿意深挖的人,毕竟还是可以找到成绩背后的小伎俩。
这个视频就不是了。如果不是各界大佬的批评,研发副总裁绝对不会要求这段视频的制作者——创意总监亚历山大·陈(Alexander Chen)把整个过程写成文章公布出来的。
你只看视频,就真的以为Gemini实现了实时的视觉捕捉和交互。就算你心里知道,也能分析出视频存在剪辑,你仍然会认为,这是一个拥有视觉理解能力的AI产品。但其实,它只是一个对图片+文字的理解,这一点甚至都没有超过ChatGPT当前的功能范围。
最后要补充的就是:
页面刚刚上线的时候,为了体现出Gemini在MMLU测试上有90.0%的好成绩,谷歌把人类的水平89.8%、GPT-4 86.4%的成绩都放在一起,用一个非常倾斜的曲线表示90.0%有多么好。但实际上,90.0%只比89.8%好了千分之二,无论如何,曲线也应该是很平的,哪儿有这么倾斜的?被业内技术大佬指出来之后,谷歌马上就把这个图给抹去了。
所以,别看很多媒体跟着喊谷歌复仇了、谷歌突破了,其实Gemini昨天的发布在业界是令人诟病的,它最好的程度就是接近了ChatGPT的水平,但毕竟还没有上线。而ChatGPT已经稳稳当当的接受了一年的考验。
谷歌在AI产品上又一次丢人了。上一次是在今年的2月9日,当时看到ChatGPT那么火爆,着急忙慌的发布了Bard,结果在第一次公开演示时,只有一个表演项目,让Bard把詹姆斯·韦伯望远镜的成果展示给一个九岁的孩子,但生成的结果并不是詹姆斯·韦伯望远镜的照片,而是另一个望远镜拍下来的。
这次看来,谷歌让一堆印度人和创意总监重度参与制作的页面和视频也是着急忙慌下的成果。
在大语言模型,甚至更广义的AI技术领域,谷歌是技术原发地。但在产品落地方面,实在是不堪。希望谷歌后续把Gemini迭代得越来越好吧!
文章摘自卓克的《科技参考3》--得到APP