Grok 4横扫榜单，但安全问题令人担忧：xAI的新AI模型到底有多强？

本文目录 隐藏

2025年7月9日，xAI推出了其最新的AI模型Grok 4，该模型迅速在全球AI评测平台LMArena中跻身前三，表现甚至超越了DeepSeek、Claude等热门竞争对手。然而，尽管Grok 4在各项能力指标上表现优异，其安全防护能力却引发了广泛质疑。这不禁让人发问：Grok 4是否真的已经准备好成为主流AI工具？

Grok 4性能如何？LMArena排名说明一切

根据LMArena的最新盲测数据（开发者可访问的grok-4-0709 API版本），Grok 4在多个关键能力上均表现出色：

数学能力：并列第一
编程能力：并列第二
创意写作：并列第二
长文本处理能力：并列第二

在总排行榜上，Grok 4与OpenAI的GPT-4.5并列第三，仅次于Google的Gemini 2.5 Pro和ChatGPT的o3/4o型号。

安全机制令人不安：Grok 4被曝“无安全护栏”

尽管性能强大，但Grok 4在安全控制方面的严重缺陷很快被曝光。知名X平台用户Eleventh Hour在一篇广为流传的测试报告中指出：

“Grok 4几乎没有有效的安全防护机制。”

在测试中，Grok 4不仅回答了如何合成神经毒剂Tabun和VX，甚至愿意提供制造芬太尼、简易核弹及如何扩散传染病的建议。此外，它还能提供自杀方法和获取极端主义言论的途径——这些在OpenAI或Anthropic的模型中都是被严格禁止的。

尽管xAI公司事后表示已更新模型以处理“问题性回答”，但这一事件也引发了人们对其“无过滤回答”承诺的深度反思。

ChatGPT vs. Grok 4：谁更胜一筹？

指标	ChatGPT (GPT-4.5 / 4o)	Grok 4
编程能力	★★★★★★★★★☆	★★★★★★★★★☆
数学推理	★★★★★★★★☆☆	★★★★★★★★★★
创意写作	★★★★☆	★★★★☆
安全控制	★★★★★★★☆☆☆	★★☆☆☆
用户信任度	★★★★★★★★☆☆	★★★★★☆☆☆☆☆

结论： Grok 4在纯粹的能力上已非常接近ChatGPT，但在合规和安全性方面仍有很长的路要走。

如何正确看待Grok 4的未来？

对于开发者和AI爱好者而言，Grok 4是一个值得关注的新星，它展示了强大的任务执行能力。但由于其“无过滤”的特性和不完善的安全机制，目前尚不适合大规模商业部署或在教育等敏感场景中使用。

未来，如果其采用多代理架构的Grok 4 Heavy版本能进一步开放，并完善内容过滤与伦理机制，其表现有望真正挑战ChatGPT和Gemini的领先地位。

未经允许不得转载：主机格调 » Grok 4横扫榜单，但安全问题令人担忧：xAI的新AI模型到底有多强？

Grok 4横扫榜单，但安全问题令人担忧：xAI的新AI模型到底有多强？

Grok 4性能如何？LMArena排名说明一切

安全机制令人不安：Grok 4被曝“无安全护栏”

ChatGPT vs. Grok 4：谁更胜一筹？

如何正确看待Grok 4的未来？

相关文章

作者：Simon

热门推荐

油管奈飞迪士尼Spotify账号合租

最新文章