谷歌最新的视频生成AI模型Veo 3,在五月底发布后便引爆了创作热潮。它首次允许用户生成声音和对话,被誉为走出了“视频生成的默片时代”。然而,用户们很快发现,这个强大的工具存在一个令人费解且成本高昂的缺陷:它常常会不受控制地生成毫无意义的乱码字幕。
创作者的困境:高昂的试错成本
这个“字幕门”问题在于,即使用户在提示词中明确要求“不要添加任何字幕”,这种情况依然会频繁发生。想要去掉这些乱码字幕并非易事,用户不得不采取各种昂贵的方法,比如重新生成视频(这会消耗更多AI积分)、使用外部工具移除,或裁剪视频。
广告创意总监莫娜·韦斯(Mona Weiss)表示,高达40%的对话场景输出会带有这种乱码,导致视频完全无法使用。当她向谷歌申请退还浪费的积分时,却遭到了变相拒绝。
“你为了得到一个满意的场景而不断烧钱,结果却发现根本用不了。”
——广告创意总监 Mona Weiss
技术探源:乱码字幕从何而来?
为什么Veo 3会固执地添加这些字幕?为什么在谷歌发布修复程序一个多月后,问题依旧存在?答案很可能在于模型的训练数据和提示词的局限性。
- 训练数据“污染”: 专家推测,Veo 3的训练数据包含了海量的YouTube、TikTok等平台的视频,其中许多视频本身就带有硬编码的嵌入式字幕。模型在学习时,可能错误地认为“字幕是视频的正常组成部分”,从而在生成时进行模仿。
- “负向提示词”的挑战: 石溪大学的助理教授图辛·查克拉巴蒂(Tuhin Chakrabarty)指出,告诉生成式AI模型**“不要做什么”(负向提示词),通常远不如告诉它“要做什么”(正向提示词)**有效。模型很难精确理解“无”的概念。
要彻底解决这个问题,谷歌可能需要重新检查并标记其海量的训练数据,这是一项极其耗时耗力的工作。
商业考量:抢跑的代价?
麻省理工学院的艺术总监卡特琳娜·西泽克(Katerina Cizek)认为,这个问题恰恰反映了谷歌在AI竞赛中的焦虑。
“谷歌需要一场胜利。他们需要率先推出一个能生成口型同步音频的工具。因此,这比修复字幕问题更为重要。”
——麻省理工学院开放纪录片实验室艺术总监 Katerina Cizek
为了在与OpenAI的Sora等对手的竞争中抢占先机,谷歌可能在产品未完全打磨成熟前就急于将其推向市场,而“字幕门”正是这种“抢跑”策略的代价之一。
未经允许不得转载:主机格调 » 谷歌Veo 3 AI的“字幕门”:为何这款先进的视频模型会生成恼人的乱码?
主机格调



