根據《Business Insider》報導,OpenAI 的影片生成 AI 工具 Sora 正在經歷一場「太美又太蠢」的生存危機。這個在 2024 年初發表時驚艷全球的技術 demo,一年多後仍然無法找到可行的商業化路徑——而它的核心問題,恰恰暴露了整個生成式 AI 產業從「展示品」到「產品」之間那道巨大的鴻溝。

「太美」的部分

Sora 在視覺品質上確實令人驚嘆。它能根據文字描述生成高度逼真的短影片——光影、材質、鏡頭運動、甚至臉部表情的細節,在最好的案例中已接近電影級的品質。OpenAI 在發表時展示的 demo 影片(一位女性走過東京街頭、兩隻金毛在雪地裡玩耍)在社群媒體上獲得了上億次觀看。

問題是,那些 demo 是經過精心挑選的「最佳結果」。

「太蠢」的部分

在實際使用中,Sora 暴露了幾個根本性的缺陷。物理邏輯混亂:人物走路時腳可能穿過地面、杯子裡的液體不遵守重力、物體在轉場時突然消失或變形。時序一致性不足:一段 30 秒的影片中,角色的衣服顏色可能在不同鏡頭之間改變、背景的建築物位置會移動。指令遵循度低:使用者要求「一隻貓跳上桌子然後喝水」,Sora 可能生成「一隻貓在桌子旁邊然後液體出現在空中」。

這些問題對一般消費者來說是「有趣的瑕疵」,但對專業影片製作者——Sora 最有可能的付費用戶群——來說,這些是完全無法接受的硬傷。一個導演不可能接受「主角的衣服在第三秒突然變色」的鏡頭。

Demo 與產品之間的鴻溝

Sora 的困境不是技術不夠好——它是「好的不夠可靠」。在生成 10 段影片中,可能有 1 到 2 段品質驚人,但其餘 8 段都有程度不一的瑕疵。對展示來說,你只需要那 1 到 2 段好的;但對商業產品來說,使用者期望的是「每一次都能用」。

根據 The Information 此前的報導,OpenAI 曾考慮將 Sora 定位為好萊塢的製片工具,但在與多家電影公司的合作測試中,回饋普遍是「視覺很棒,但無法用於正式製作」。

生成式 AI 的普遍困境

Sora 面對的問題不是獨有的。文字生成的 ChatGPT 也面臨「幻覺」(hallucination)問題;圖片生成的 DALL-E 和 Midjourney 也有手指數量錯誤的老毛病。但在文字和圖片領域,這些瑕疵的成本較低——改一段文字或修一張圖很快。影片不一樣——一旦生成結果有缺陷,幾乎只能重新生成,沒有「局部修改」的選項。

生成式 AI 從「令人驚嘆」到「可以信賴」的距離,在影片領域特別遠。Sora 的故事可能不是「死亡」,而是提前到來的現實校正。


📰 本文資料來源

  • Business Insider:〈Farewell, Sora. You were too beautiful and too stupid for this world.〉
  • 背景參考:The Information Sora 商業化進展報導