Grok 4横扫榜单,但安全问题令人担忧:xAI的新AI模型到底有多强?

Grok 4横扫榜单,但安全问题令人担忧:xAI的新AI模型到底有多强?AI快讯主机格调

2025年7月9日,xAI推出了其最新的AI模型Grok 4,该模型迅速在全球AI评测平台LMArena中跻身前三,表现甚至超越了DeepSeek、Claude等热门竞争对手。然而,尽管Grok 4在各项能力指标上表现优异,其安全防护能力却引发了广泛质疑。这不禁让人发问:Grok 4是否真的已经准备好成为主流AI工具?

Grok 4性能如何?LMArena排名说明一切

根据LMArena的最新盲测数据(开发者可访问的grok-4-0709 API版本),Grok 4在多个关键能力上均表现出色:

  • 数学能力: 并列第一
  • 编程能力: 并列第二
  • 创意写作: 并列第二
  • 长文本处理能力: 并列第二

在总排行榜上,Grok 4与OpenAI的GPT-4.5并列第三,仅次于Google的Gemini 2.5 Pro和ChatGPT的o3/4o型号。

安全机制令人不安:Grok 4被曝“无安全护栏”

尽管性能强大,但Grok 4在安全控制方面的严重缺陷很快被曝光。知名X平台用户Eleventh Hour在一篇广为流传的测试报告中指出:

“Grok 4几乎没有有效的安全防护机制。”

在测试中,Grok 4不仅回答了如何合成神经毒剂Tabun和VX,甚至愿意提供制造芬太尼、简易核弹及如何扩散传染病的建议。此外,它还能提供自杀方法和获取极端主义言论的途径——这些在OpenAI或Anthropic的模型中都是被严格禁止的。

尽管xAI公司事后表示已更新模型以处理“问题性回答”,但这一事件也引发了人们对其“无过滤回答”承诺的深度反思。

ChatGPT vs. Grok 4:谁更胜一筹?

指标 ChatGPT (GPT-4.5 / 4o) Grok 4
编程能力 ★★★★★★★★★☆ ★★★★★★★★★☆
数学推理 ★★★★★★★★☆☆ ★★★★★★★★★★
创意写作 ★★★★☆ ★★★★☆
安全控制 ★★★★★★★☆☆☆ ★★☆☆☆
用户信任度 ★★★★★★★★☆☆ ★★★★★☆☆☆☆☆

结论: Grok 4在纯粹的能力上已非常接近ChatGPT,但在合规和安全性方面仍有很长的路要走。

如何正确看待Grok 4的未来?

对于开发者和AI爱好者而言,Grok 4是一个值得关注的新星,它展示了强大的任务执行能力。但由于其“无过滤”的特性和不完善的安全机制,目前尚不适合大规模商业部署或在教育等敏感场景中使用。

未来,如果其采用多代理架构的Grok 4 Heavy版本能进一步开放,并完善内容过滤与伦理机制,其表现有望真正挑战ChatGPT和Gemini的领先地位。

未经允许不得转载:主机格调 » Grok 4横扫榜单,但安全问题令人担忧:xAI的新AI模型到底有多强?