网站导航

棋牌游戏开发 8个月前 144浏览 0评论

文｜AI大模型工厂，作者｜Ice Latte，编辑｜Sena

这个国庆节你是怎么度过的？有人去蓬莱看海，有人打卡北京中轴线，有人逃离北上广去阿勒泰享受原野之风……而随着假期圆满结束当工人们怀着未满足的兴趣回到工作岗位时，我们发现仍有一些人在假期偷偷放大技能来“盘剥”行业：

在底座大型号GLM-4-Plus的带领下，智浦全模型家族全面上线！

智浦近期发布了多款更新机型，其中以大基型GLM-4-Plus的推出为标志。智浦宣布，即日起，全系车型家族将正式登陆开放平台（），其中包括全新大基型车型GLM-4-Plus——智浦迄今为止最强大的车型，也是“骨干”能力是智普全车型家族的基础。

经过梳理，我们发现，除了新的基础车型GLM-4-Plus之外，智浦车型家族囊括了一切。新推出的视频通话API：GLM-4-Plus-VideoCall，是青燕视频通话背后的模型，可以实现视频通话、语音多轮交互等多种跨模态能力。

此前，视频生成模型CogVideoX于7月推出，图像/视频理解模型GLM-4V-Plus于8月推出，Vincent图模型CogView-3-Plus也获得了重要升级。效果接近目前一线的MJ-V6和FLUX。等待。

从单一的文本模态到图像、视频等多种模态，从自然语言到代码，从简单的对话到复杂的智能体交互，从一种工具到多工具自动调度……在模型能力方面，智慧谱还是太强大了综合的。

另外，GLM-4-Plus在性能方面也非常有能力。据业内近期发布的多份权威评测显示，GLM-4-Plus等机型在国际排名中名列前茅的同时，在多个类别中也表现出色，得分甚至超过了o1-preview等国外顶级机型。

GLM-4-Plus的“长板”是什么？

基础模型一直是大型模型厂商实力的最佳体现，是大型模型内力竞争的核心。这是因为，基础模型作为“重基建”，其训练涉及复杂的算法设计、模型训练和优化过程，极其考验厂商的技术积累，需要投入大量的计算资源、存储资源和数据资源。数据资源实现规模化。优点。

同时，基础模型也是构建AI生态、吸引更多开发者和企业的基础，决定了厂商在AI领域的综合实力和影响力。

GLM-4-Plus推出后，在多项评测中都表现出色。在最新的2024年9月版《SuperBench大模型综合能力评估报告》中，评选出24个国内外有代表性的大模型评估。结果表明，国产模型在对齐、智能、数理逻辑等多项评价上表现良好。一切都取得了重大进展。其中GLM-4-Plus排名第三，超越克劳德系列机型，打破了此前国外机型垄断前三名的局面。国产车型中，GLM-4系列继续位居榜首。

值得一提的是，GLM-4-Plus在一些单项上表现尤为出色，甚至超越了o1-preview等：例如在智能代理能力评估中，国产机型首次超越国外机型，GLM-4-Plus排名第一；中文能力方面，GLM-4-Plus以8.58分领先，领先于o1-preview；在语义理解能力评估中，GLM-4-Plus领先o1-mini 1分。

在第三方评测博主远山奈绪的横评评论中，谈到水果热量的计算比较困难，需要合理搭配水果，使总热量刚好在一个范围内。大多数模型并没有真正理解问题并盲目回答。枚举。但GLM-4-Plus完全理解了问题的含义，采用了逐渐累加数字的方法。如果总数超过了范围，它也知道要减少水果的数量。答案非常“人性化”游戏，是第一个在这个问题上获得满分的模型。

但俗话说：“膏药好，能拔脓”。在个人和企业的日常应用中，智能频谱的表现真的那么流畅吗？让我们来测试一下吧！

GLM-4-Plus综合考核：时事热点、语言理解、逻辑推理等花式考试，更多精彩

为此，我们设置了以下考核题，结合当前互联网语境和网友关注的前沿热点，全面考察他们的语言理解、数理逻辑、语言理解、指令跟随、长篇大论等。文本处理等，经济、时事、政治、文学艺术等知识覆盖，以及应对工作、学习、生活等特定场景的能力：

1、时事热点知识综合考察与分析

画风“阴郁”，充满雾气、瀑布、悬崖……近日，抖音博主“勇敢探索哀牢山”的视频在网络上走红，也让哀牢山再次进入公众视野。那么，哀牢山为何被称为生命禁地呢？把这个问题交给GLM-4-Plus，它从地形、气候条件、生态系统和文化心理等角度进行了综合分析。可见其有一定的知识储备，上演了“大模型带你走近科学”。

2. 语言理解与深入分析

说到文学，就离不开语言。后来，在考察语言理解和深入分析的过程中，我们选了一个在网络上非常流行、被国外网友评论区广泛使用的笑话：“鱼片是死鱼片” ；等待红灯等待咖啡因的到来；救火是在死亡之前；我要你控制=我不希望你控制……结果显示GLM-4-Plus没有被绕过，成功获取。汉语博大精深，我们将其一一分解。

在更加考验汉语能力和传统文化底蕴的《红楼梦》判例的隐喻分析，以及《哀江南赋》的词典考查中游戏，GLM-4-Plus也能根据情况有条不紊地拆解分析。逻辑链条，连贯综合输出。

可见GLM-4-Plus对传统文化的熟悉。那么，作为它的“兄弟”，图像/视频理解模型GLM-4V-Plus能否拆解传统文化中的视觉语言呢？恰逢电影《唯绿》上映，我们将宣传视频片段喂给GLM-4V-Plus，并要求其描述视频内容。

结果表明，它不仅可以按时间顺序描述预告片场景，而且可以很好地识别人物、物体等元素。对于画中的“山峦起伏，绿树成荫，山色云雾缭绕，给人一种宁静幽远之感”等细节，GLM-4V-Plus也可以“用古典美的语言”来形容：必需的。

除了拆解视觉语言之外，我们还不断增加难度，问“视频中三人一起跳舞的场景是在哪一秒出现的？” GLM-4V-Plus可以准确理解和感知时间，准确定位事件发生的具体时间点。。

3. 逻辑推理和数学证明

当然，仅仅精通汉语是不够的。还要擅长逻辑和数学，不能偏科。随后，我们给出了一个包含多个步骤和条件的逻辑推理谜题——“博物馆盗画谜题”，要求GLM-4-Plus一步步推理并给出最终答案。结果表明，GLM-4-Plus 能够在复杂的信息关系中找到正确的逻辑关系，并成功解决逻辑难题。

在勾股定理的证明中，GLM-4-Plus不仅提供了详细的证明步骤，而且还画了图并进行了分析。

最后，最后一个曾经让很多大机型翻车的问题“9.24和9.8哪个更大？”，GLM-4-Plus也通过缓慢的思考想出了正确的答案，没有落入陷阱。

4. 代码理解与应用

在代码理解和应用过程中，我们首先提供了一段代码，并要求GLM-4-Plus理解该代码的功能。智浦得出准确的结论“用于计算用户的平均绩点”；然后，我们要求它写一个测试程序，基本上是小菜一碟，可以解放程序员的双手：

但在实际应用中，根据程序员群体的反馈，大模型代码生成最有价值的地方是协助发现/修复bug并自动继续编写，从而将他们从繁琐的重复工作中解放出来。专注于创造性工作。

正如沙利文和Leopard研究院发布的年度报告《2024年AI代码生成市场观察报告-里程碑》中指出的那样，AI代码生成工具在代码测试和检查、代码注释等方面表现尤为出色。

为此，我们向 GLM-4-Plus 喂了一段有 bug 的代码，并要求其解释并修改。结果表明，GLM-4-Plus准确地找到了bug位置，并进行了详细的解释和修改。预计在未来，他将成为程序员界的“啄木鸟”。

在帮助程序员“完成写了一半的作业”的自动完成链接中，我们向 GLM-4-Plus 提供了一个不完整的 Python 脚本。运行它的目的是根据天气情况向控制台发送提醒信息（例如，如果下雨，则打印“记得带雨伞！”；如果温度超过30摄氏度，则打印“天气热，穿轻便的衣服”）衣服！”等），我请 GLM-4-Plus 帮我完成代码：

结果表明，基本顺利完成了代码，并提供了周到的解释。

最后，对于代码新手来说，也可以基于GLM-4-Plus一键编写自己的代码。例如，您需要使用GLM-4-Plus，使用JavaScript+CSS+HTML编写贪吃蛇游戏，而无需下载软件。可以在网页上检测到并流畅运行——也许随着大模型的热潮，“人人都是程序员”的时代真的到来了。

那么，除了写代码之外，GLM-4-Plus在面对工作和生活中写文章、制定计划等任务时，其完善程度和熟练程度如何呢？

5.工作和生活的伙伴

首先让GLM-4-Plus为我工作，以自媒体博主的身份写一篇《国庆假期后快速调整状态》的文章。从结果来看，结构清晰，文笔成熟。微调后即可编辑。发布了，让我复工第一天就成功钓鱼：

现在你不用再工作了，让我们想想你的下一次旅行吧！在“AI婚纱照”在各大平台热搜之际，我请CogView-3-Plus帮我生成了一张以卢浮宫为背景的婚纱照。可见质感还不错，让人“身已远，心未动”。 ”，已经开始期待下一个长假了。

不仅如此，“双十一”预售热潮也蔓延到了大模特圈！这两天，智浦还从10月1日起在开放平台推出了为期一个月的“国庆特别月”促销活动。还有很多花哨的折扣，比如赠送最高1亿Token，API调用最高1折等等。

这让人感叹大模圈已经提前过了双十一——这是否预示着智浦将率先发起“第二波价格战”？而且，这是一场福利、资源包、降价的“花式乱斗”。

这不禁让人感叹，第二波大机型价格战来得如此容易——此前，在头部厂商应对的第一波价格战中，AI技术的门槛大幅降低，让更多的中小企业陷入困境。，初创团队甚至个人开发者可以轻松接入和使用顶级大模型服务，推动大模型在自然语言处理、图像识别、智能客服等各个领域的广泛应用，从而形成更丰富的大模型服务。应用场景和生态系统。

󰄼 赞 0 赏󰄯 分享