首页 > AI教程资讯

地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

文章来源:08ai导航网发布时间:2025-08-21 09:20:44

又是一个文理兼修的优等生,能薅一点是一点。

好消息!好消息!

堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。

这两天,网友们已陆续晒出截图:

作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。

但,次数有限 !

由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。

Thinking 是指启动推理模型。

对此,AI 大神 Andrzej Karpathy 快速体验后,评价说:

「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,

比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。」

Thinking 模式

DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。

DeepSearch 模式

Big Brain 可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。

要体验完整的 Grok3 「三件套」,大伙儿可得破费了。

即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。

一顿操作下来,月费估计要 50 美金。

( 咱还是继续免费薅 DeepSeek 吧 )

就刷榜成绩来说, Grok-3 表现确实不俗。

准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。

数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。

马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!

网友们也迫不及待地开始整活了。

-4-

始终翻不过的山

遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。

看来,思考推理能力对于幽默来说,更像是砒霜?

至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。

要么打太极,而 Grok 3 直面难题后,结论又明显功利主义了。

最离谱的当属 SVG 绘图挑战赛!

让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。

毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。