文|AI大模型工厂,作者|Ice Latte,编辑|Sena
这个国庆节你是怎么度过的?有人去蓬莱看海,有人打卡北京中轴线,有人逃离北上广去阿勒泰享受原野之风……而随着假期圆满结束当工人们怀着未满足的兴趣回到工作岗位时,我们发现仍有一些人在假期偷偷放大技能来“盘剥”行业:
在底座大型号GLM-4-Plus的带领下,智浦全模型家族全面上线!
智浦近期发布了多款更新机型,其中以大基型GLM-4-Plus的推出为标志。智浦宣布,即日起,全系车型家族将正式登陆开放平台(),其中包括全新大基型车型GLM-4-Plus——智浦迄今为止最强大的车型,也是“骨干”能力是智普全车型家族的基础。
经过梳理,我们发现,除了新的基础车型GLM-4-Plus之外,智浦车型家族囊括了一切。新推出的视频通话API:GLM-4-Plus-VideoCall,是青燕视频通话背后的模型,可以实现视频通话、语音多轮交互等多种跨模态能力。
此前,视频生成模型CogVideoX于7月推出,图像/视频理解模型GLM-4V-Plus于8月推出,Vincent图模型CogView-3-Plus也获得了重要升级。效果接近目前一线的MJ-V6和FLUX。等待。
从单一的文本模态到图像、视频等多种模态,从自然语言到代码,从简单的对话到复杂的智能体交互,从一种工具到多工具自动调度……在模型能力方面,智慧谱还是太强大了综合的。
另外,GLM-4-Plus在性能方面也非常有能力。据业内近期发布的多份权威评测显示,GLM-4-Plus等机型在国际排名中名列前茅的同时,在多个类别中也表现出色,得分甚至超过了o1-preview等国外顶级机型。
GLM-4-Plus的“长板”是什么?
基础模型一直是大型模型厂商实力的最佳体现,是大型模型内力竞争的核心。这是因为,基础模型作为“重基建”,其训练涉及复杂的算法设计、模型训练和优化过程,极其考验厂商的技术积累,需要投入大量的计算资源、存储资源和数据资源。数据资源实现规模化。优点。
同时,基础模型也是构建AI生态、吸引更多开发者和企业的基础,决定了厂商在AI领域的综合实力和影响力。
GLM-4-Plus推出后,在多项评测中都表现出色。在最新的2024年9月版《SuperBench大模型综合能力评估报告》中,评选出24个国内外有代表性的大模型评估。结果表明,国产模型在对齐、智能、数理逻辑等多项评价上表现良好。一切都取得了重大进展。其中GLM-4-Plus排名第三,超越克劳德系列机型,打破了此前国外机型垄断前三名的局面。国产车型中,GLM-4系列继续位居榜首。
值得一提的是,GLM-4-Plus在一些单项上表现尤为出色,甚至超越了o1-preview等:例如在智能代理能力评估中,国产机型首次超越国外机型,GLM-4-Plus排名第一;中文能力方面,GLM-4-Plus以8.58分领先,领先于o1-preview;在语义理解能力评估中,GLM-4-Plus领先o1-mini 1分。
在第三方评测博主远山奈绪的横评评论中,谈到水果热量的计算比较困难,需要合理搭配水果,使总热量刚好在一个范围内。大多数模型并没有真正理解问题并盲目回答。枚举。但GLM-4-Plus完全理解了问题的含义,采用了逐渐累加数字的方法。如果总数超过了范围,它也知道要减少水果的数量。答案非常“人性化”游戏,是第一个在这个问题上获得满分的模型。
但俗话说:“膏药好,能拔脓”。在个人和企业的日常应用中,智能频谱的表现真的那么流畅吗?让我们来测试一下吧!
GLM-4-Plus综合考核:时事热点、语言理解、逻辑推理等花式考试,更多精彩
为此,我们设置了以下考核题,结合当前互联网语境和网友关注的前沿热点,全面考察他们的语言理解、数理逻辑、语言理解、指令跟随、长篇大论等。文本处理等,经济、时事、政治、文学艺术等知识覆盖,以及应对工作、学习、生活等特定场景的能力:
1、时事热点知识综合考察与分析
画风“阴郁”,充满雾气、瀑布、悬崖……近日,抖音博主“勇敢探索哀牢山”的视频在网络上走红,也让哀牢山再次进入公众视野。那么,哀牢山为何被称为生命禁地呢?把这个问题交给GLM-4-Plus,它从地形、气候条件、生态系统和文化心理等角度进行了综合分析。可见其有一定的知识储备,上演了“大模型带你走近科学”。
2. 语言理解与深入分析
说到文学,就离不开语言。后来,在考察语言理解和深入分析的过程中,我们选了一个在网络上非常流行、被国外网友评论区广泛使用的笑话:“鱼片是死鱼片” ;等待红灯等待咖啡因的到来;救火是在死亡之前;我要你控制=我不希望你控制……结果显示GLM-4-Plus没有被绕过,成功获取。汉语博大精深,我们将其一一分解。
在更加考验汉语能力和传统文化底蕴的《红楼梦》判例的隐喻分析,以及《哀江南赋》的词典考查中游戏,GLM-4-Plus也能根据情况有条不紊地拆解分析。逻辑链条,连贯综合输出。
可见GLM-4-Plus对传统文化的熟悉。那么,作为它的“兄弟”,图像/视频理解模型GLM-4V-Plus能否拆解传统文化中的视觉语言呢?恰逢电影《唯绿》上映,我们将宣传视频片段喂给GLM-4V-Plus,并要求其描述视频内容。
结果表明,它不仅可以按时间顺序描述预告片场景,而且可以很好地识别人物、物体等元素。对于画中的“山峦起伏,绿树成荫,山色云雾缭绕,给人一种宁静幽远之感”等细节,GLM-4V-Plus也可以“用古典美的语言”来形容:必需的。
除了拆解视觉语言之外,我们还不断增加难度,问“视频中三人一起跳舞的场景是在哪一秒出现的?” GLM-4V-Plus可以准确理解和感知时间,准确定位事件发生的具体时间点。 。
3. 逻辑推理和数学证明
当然,仅仅精通汉语是不够的。还要擅长逻辑和数学,不能偏科。随后,我们给出了一个包含多个步骤和条件的逻辑推理谜题——“博物馆盗画谜题”,要求GLM-4-Plus一步步推理并给出最终答案。结果表明,GLM-4-Plus 能够在复杂的信息关系中找到正确的逻辑关系,并成功解决逻辑难题。
在勾股定理的证明中,GLM-4-Plus不仅提供了详细的证明步骤,而且还画了图并进行了分析。
最后,最后一个曾经让很多大机型翻车的问题“9.24和9.8哪个更大?”,GLM-4-Plus也通过缓慢的思考想出了正确的答案,没有落入陷阱。
4. 代码理解与应用
在代码理解和应用过程中,我们首先提供了一段代码,并要求GLM-4-Plus理解该代码的功能。智浦得出准确的结论“用于计算用户的平均绩点”;然后,我们要求它写一个测试程序,基本上是小菜一碟,可以解放程序员的双手:
但在实际应用中,根据程序员群体的反馈,大模型代码生成最有价值的地方是协助发现/修复bug并自动继续编写,从而将他们从繁琐的重复工作中解放出来。专注于创造性工作。
正如沙利文和Leopard研究院发布的年度报告《2024年AI代码生成市场观察报告-里程碑》中指出的那样,AI代码生成工具在代码测试和检查、代码注释等方面表现尤为出色。
为此,我们向 GLM-4-Plus 喂了一段有 bug 的代码,并要求其解释并修改。结果表明,GLM-4-Plus准确地找到了bug位置,并进行了详细的解释和修改。预计在未来,他将成为程序员界的“啄木鸟”。
在帮助程序员“完成写了一半的作业”的自动完成链接中,我们向 GLM-4-Plus 提供了一个不完整的 Python 脚本。运行它的目的是根据天气情况向控制台发送提醒信息(例如,如果下雨,则打印“记得带雨伞!”;如果温度超过30摄氏度,则打印“天气热,穿轻便的衣服”)衣服!”等),我请 GLM-4-Plus 帮我完成代码:
结果表明,基本顺利完成了代码,并提供了周到的解释。
最后,对于代码新手来说,也可以基于GLM-4-Plus一键编写自己的代码。例如,您需要使用GLM-4-Plus,使用JavaScript+CSS+HTML编写贪吃蛇游戏,而无需下载软件。可以在网页上检测到并流畅运行——也许随着大模型的热潮,“人人都是程序员”的时代真的到来了。
那么,除了写代码之外,GLM-4-Plus在面对工作和生活中写文章、制定计划等任务时,其完善程度和熟练程度如何呢?
5.工作和生活的伙伴
首先让GLM-4-Plus为我工作,以自媒体博主的身份写一篇《国庆假期后快速调整状态》的文章。从结果来看,结构清晰,文笔成熟。微调后即可编辑。发布了,让我复工第一天就成功钓鱼:
现在你不用再工作了,让我们想想你的下一次旅行吧!在“AI婚纱照”在各大平台热搜之际,我请CogView-3-Plus帮我生成了一张以卢浮宫为背景的婚纱照。可见质感还不错,让人“身已远,心未动”。 ”,已经开始期待下一个长假了。
不仅如此,“双十一”预售热潮也蔓延到了大模特圈!这两天,智浦还从10月1日起在开放平台推出了为期一个月的“国庆特别月”促销活动。还有很多花哨的折扣,比如赠送最高1亿Token,API调用最高1折等等。
这让人感叹大模圈已经提前过了双十一——这是否预示着智浦将率先发起“第二波价格战”?而且,这是一场福利、资源包、降价的“花式乱斗”。
这不禁让人感叹,第二波大机型价格战来得如此容易——此前,在头部厂商应对的第一波价格战中,AI技术的门槛大幅降低,让更多的中小企业陷入困境。 ,初创团队甚至个人开发者可以轻松接入和使用顶级大模型服务,推动大模型在自然语言处理、图像识别、智能客服等各个领域的广泛应用,从而形成更丰富的大模型服务。应用场景和生态系统。