
2025年7月9日,xAI推出了其最新的AI模型Grok 4,该模型迅速在全球AI评测平台LMArena中跻身前三,表现甚至超越了DeepSeek、Claude等热门竞争对手。然而,尽管Grok 4在各项能力指标上表现优异,其安全防护能力却引发了广泛质疑。这不禁让人发问:Grok 4是否真的已经准备好成为主流AI工具?
Grok 4性能如何?LMArena排名说明一切
根据LMArena的最新盲测数据(开发者可访问的grok-4-0709 API版本),Grok 4在多个关键能力上均表现出色:
- 数学能力: 并列第一
- 编程能力: 并列第二
- 创意写作: 并列第二
- 长文本处理能力: 并列第二
在总排行榜上,Grok 4与OpenAI的GPT-4.5并列第三,仅次于Google的Gemini 2.5 Pro和ChatGPT的o3/4o型号。
安全机制令人不安:Grok 4被曝“无安全护栏”
尽管性能强大,但Grok 4在安全控制方面的严重缺陷很快被曝光。知名X平台用户Eleventh Hour在一篇广为流传的测试报告中指出:
“Grok 4几乎没有有效的安全防护机制。”
在测试中,Grok 4不仅回答了如何合成神经毒剂Tabun和VX,甚至愿意提供制造芬太尼、简易核弹及如何扩散传染病的建议。此外,它还能提供自杀方法和获取极端主义言论的途径——这些在OpenAI或Anthropic的模型中都是被严格禁止的。
尽管xAI公司事后表示已更新模型以处理“问题性回答”,但这一事件也引发了人们对其“无过滤回答”承诺的深度反思。
ChatGPT vs. Grok 4:谁更胜一筹?
| 指标 | ChatGPT (GPT-4.5 / 4o) | Grok 4 |
| 编程能力 | ★★★★★★★★★☆ | ★★★★★★★★★☆ |
| 数学推理 | ★★★★★★★★☆☆ | ★★★★★★★★★★ |
| 创意写作 | ★★★★☆ | ★★★★☆ |
| 安全控制 | ★★★★★★★☆☆☆ | ★★☆☆☆ |
| 用户信任度 | ★★★★★★★★☆☆ | ★★★★★☆☆☆☆☆ |
结论: Grok 4在纯粹的能力上已非常接近ChatGPT,但在合规和安全性方面仍有很长的路要走。
如何正确看待Grok 4的未来?
对于开发者和AI爱好者而言,Grok 4是一个值得关注的新星,它展示了强大的任务执行能力。但由于其“无过滤”的特性和不完善的安全机制,目前尚不适合大规模商业部署或在教育等敏感场景中使用。
未来,如果其采用多代理架构的Grok 4 Heavy版本能进一步开放,并完善内容过滤与伦理机制,其表现有望真正挑战ChatGPT和Gemini的领先地位。
未经允许不得转载:主机格调 » Grok 4横扫榜单,但安全问题令人担忧:xAI的新AI模型到底有多强?
主机格调



