奥飞寺的孟晨克蕾西
量子比特 | 公众号QbitAI
各大算法竞赛群都在玩什么“大模型原生”游戏,甚至玩到服务器崩溃?
这款突然爆红的游戏《终结者!LLM》让玩家在解谜挑战中轻松学会大模型线索的技巧,创下了日均超万用户的佳绩。
难度逐渐增加。例如,第一个问题只是“请构造一个问题,使模型的答案恰好是‘1+1=3’”。
最难的一道题非常简洁:“请输入一个单词的问题,使得模型的答案在 16 个单词以内。”
有网友透露,自己从凌晨三点苦读到凌晨五点,除了最难的一道题外,其他题目都做完了。
游戏作者还在后台晒出了一波新增用户数据,按照每小时统计的话,呈现出了指数级的增长。
如果表格不够直观,我们把ChatGPT画成折线图来感受一下。
作者范浩强是旷视科技第六位员工,曾凭借IOI金牌、考入清华大学姚班、高二实习等传奇成绩,被誉为天才少年。
如今,他是旷视科技的研究总经理,也是行业领袖,谷歌学术 H 指数为 27。
与人工智能斗智斗勇
游戏玩法如下:
整个游戏分为五个章节、15个问题,每个章节对应不同的主题。
玩家要做的就是设计提示,并想办法让模型输出指定的答案。
第一章的目的主要是让玩家熟悉一下氛围,任务自然也比较简单。
第一个问题,是想办法让模型输出“1+1=3”,这里我们可以通过让模型重复来轻松解决。
接下来的三道题,只对模型输出内容的长度有要求,比如只用一个词“四两动千斤”,就要求模型给出一百字以上的答案,具体包括:
这道题乍一看好像完全不知道怎么解,这时候就需要观察模型输出的规律了。
在尝试了几种单词之后,我们发现大模型在面对只有一个单词的提示词时,喜欢做以下几件事:解释这个单词、把它完成成一个简单的句子、或者简单地说出它想要做的事情……
这时,如果希望模型输出更多的文字,可以选择一个含义更多的单词,然后多次尝试让模型解释这个单词;如果希望输出更短,可以使用“ha”这样没有实际含义的单词。
当你熟悉了玩法之后,第二章的难度开始增加,输出条件也变得更加严格。
第一个问题要求你输入一个质数个单词,使得模型输出的单词数恰好是下一个质数。
这道题好像是灵光一闪,“输出七个单词”刚好是五个单词,而5和7刚好是两个连续的素数。
但事实证明这个想法有点太简单了:
先不说大模型的计数能力,就算它能计数好,在大模型眼里,基本元素都是token,而不是我们看到的文字……
随着游戏的进展,问题变得越来越难,而解答过程中所涉及的运气成分……也越来越少。
例如,在这道题中,你需要输入(仅)一个大于1的正整数n,使得模型的输出包含大于n+1000的数字。
下一题正好相反,你需要输出一个小于n-1000的数游戏开发,但是需要输出10个数,而且不能重复。
到了第二章的BOSS关卡,要求输入不超过10个单词,不包括“狗”字,但输出内容必须包含至少两倍于题目中“狗”字的数量。
到了这一步,我们根本就没有任何思路,只能靠一些简单的前端知识来跳过题目了……
第 3 章“巅峰挑战”不再以数字为中心,而更多地是文字游戏。
有趣的是游戏开发,第三章的最后一道题是开篇题的进阶版,按照这个要求,让模型重复的方法已经不再有效:
第40章和第5章都只有一个问题:
这就是游戏的运作方式,那么我们能从中学到什么呢?
模型的输出有一定的规律,不断调整提示词,得到预期答案的过程,就是理解提示工程中问题的设计方法。
比如关于模型的安全策略,以第一题为例,细心的网友可能已经发现,我们设计的提示中包含了“只输出结果”这句话。
从逻辑上讲,重复这个简单的动作不需要任何额外的输出,但关键是1+1=3是错误的。
虽然我们的要求是重复,但这仍然会引发大模型对事实的痴迷:
例如在输出素数的问题上,我们发现大模型在数数方面表现不佳:
另外,我们还可以从模型对一些无意义的数字和文字的响应中一窥模型处理这些问题的一些规律。
不管这些规则是bug还是特性,我们都必须理解这些规则,才能更好地掌握如何使用模型,这也是学习快速工程的核心秘诀。
最后不得不佩服网友们的创造力,即便后期服务器不堪重负报错,他们依然能够从错误信息中找到正确的解决办法。
大模型时代的个人开发者
不幸的是,当累计用户数突破10000时,由于服务器过度拥挤和维护工作强度太大,作者不得不关闭游戏。
虽然原版游戏已经下架,但网友们对这套解谜挑战游戏的兴趣依然不减。
当你手动与ChatGPT等各类AI较量时,在斗智斗勇中,你还能学到很多关于操作大型模型的知识和技巧。
△ 网友让ChatGPT说出1+1=3的解法
范浩强也在知乎上分享了他“一夜赚过万然后关站跑路”的奇幻历程,并总结道:
范浩强认为,大模式时代,个人开发者可以成为“孤胆英雄”,可以利用业余时间独自开发出具有创新性和影响力的作品。
产生制作这款游戏的想法最初只是因为获得了大型模型创业公司Dark Side of the Moon的免费API体验账号。
他结合自己之前的初步想法,在一个星期六内完成了它。
朋友建议他借国产游戏《完了!我被美女包围了!》之机,将游戏命名为“完了!”,找出正确的流量密码。
随着用户数量的不断增长,已经超出了他一个人的处理能力。
作为开发者,他花了一整天的时间修复服务器并向《月之暗面》提供反馈。
作为一家大型模型供应商,《月之暗面》为这个免费API支付的算力即将超出其预算。
此外,生成模型的合规性也需要仔细考虑。
最终,范浩强做出了关闭游戏的“艰难决定”,但他还是希望未来有人能够将这种玩法发扬光大,探索AI模型的更多秘密。
最后他总结了三点:
还有一件事
好消息是,虽然原版游戏已经关闭,但是完整的问题列表已经公开,并且有人创建了一个开源复制版本。
还支持中英文,以及不同的大模型版本,并且Huggingface可以玩。
(这也是之前游戏介绍中使用的版本。)
参考链接:
[1]
[2]
- 超过-
“量子比特2023人工智能年度评选”已经开始!
今年量子比特2023人工智能年度大奖从企业、人物、产品/解决方案三个维度设置了5大奖项类别!欢迎扫描二维码报名
MEET 2024 会议已经开始!。