我的AI新創付錢請人拍「倒垃圾」的影片——這是怎麼回事？

本文摘要

根據《Business Insider》報導，一家AI新創公司的商業模式是付費讓一般人拍攝自己執行日常家務（如倒垃圾、洗碗、整理房間）的第一人稱視角影片。這些影片被用來訓練能在真實環境中操作的機器人——因為讓機器人學會「在不整潔的真實世界中做家務」，需要大量的人類示範數據。

根據《Business Insider》報導，一家 AI 新創公司正在做一件聽起來很奇怪的事：付錢請普通人拍攝自己倒垃圾的影片。

不是惡作劇、不是行為藝術——這是一門價值數百萬美元的生意。而且它可能決定了你未來家裡的機器人管家有多聰明。

為什麼需要「倒垃圾」的影片？

要訓練一台能在你家廚房工作的機器人，你需要的不是更好的 AI 演算法——你需要的是數據。大量的、來自真實環境的、人類執行日常動作的數據。

ChatGPT 和 Claude 可以用互聯網上的數兆字文字來訓練。但機器人學習「怎麼在一個堆滿東西的廚房裡打開垃圾桶蓋、把垃圾袋拎出來、不被桌角絆倒、然後走到門口」——這種數據在網路上幾乎不存在。

YouTube 上有數百萬個烹飪教學影片，但幾乎沒有影片是從「第一人稱視角拍攝一個人在真實（不是攝影棚佈置的）廚房裡做家務」。而這正是機器人最需要學習的——如何在不完美的、凌亂的、不標準的真實世界中操作。

這家新創公司（報導中提及了其創辦人和融資資訊）的做法是：在線上平台上招募一般人。給他們一份「任務清單」——倒垃圾、洗碗、整理桌面、開關門窗、搬箱子等日常家務。參與者用手機或穿戴式攝影機從第一人稱視角錄製自己執行這些任務的過程。每段有效影片的報酬從幾美元到幾十美元不等。

收集到的影片被用來訓練「模仿學習」（imitation learning）模型——AI 觀看人類的動作，學習「當你看到這個畫面時，應該把手（或機器手臂）移動到哪裡」。

你可能會問：為什麼不在電腦模擬環境中訓練？很多機器人公司確實這麼做——在虛擬的 3D 環境中讓 AI 反覆練習。但模擬器的問題是「真實差距」（reality gap）：虛擬環境太乾淨、太標準化、太可預測了。在模擬器裡學會做事的機器人，放到真實的、亂七八糟的人類家庭中，表現通常會大幅下降。

真實家庭中的變數無窮無盡：桌面上有多少東西？垃圾桶是什麼形狀？地板是滑的還是有地毯的？燈光從哪個方向來？這些在模擬器中很難完整覆蓋——但在真實人類拍攝的影片中，它們自然而然就存在了。

根據產業分析，家用機器人市場預計在 2030 年達到約 350 億美元。但目前市面上的「家用機器人」多數只能做掃地和拖地——能執行更複雜家務（洗碗、整理、烹飪）的機器人仍在研究階段。

數據的品質和數量是最大的瓶頸之一。這家新創公司在做的，本質上是為整個家用機器人產業建立「訓練數據的基礎設施」——就像 ImageNet 資料庫在 2010 年代為電腦視覺革命奠定了基礎一樣。

你拍的那段「倒垃圾」影片，某天可能會教你家的機器人幫你做同樣的事。

📰 本文資料來源

Business Insider:〈My AI startup pays people to film themselves taking out the trash — and it's building the future of home robotics〉