根據《GIGAZINE》報導,傳統動畫搜尋技術在快速定位畫面片段上仍存在技術瓶頸。然而,開源專案「SentrySearch」近期公開其語意搜尋技術,透過先進的AI模型,實現以自然語言關鍵字,即時精準定位動畫中的特定場景,為影像處理技術帶來突破性進展。

SentrySearch 的核心技術在於語意搜尋(Semantic Search),與一般僅依賴關鍵字匹配的動畫搜尋方式不同,它會深入理解用戶查詢語句的語意,從整部影片中找出最符合語境的畫面。開發團隊首先將影片依據指定時間間隔(預設為30秒)進行切割,並利用 Google Gemini Embedding API 或開源模型 Qwen3-VL-Embedding,對每一小段畫面進行向量化處理與索引。

這種處理方式省去了傳統中間步驟,如字幕文字轉換或語音辨識,直接對原始影片內容進行 AI 解析。根據開發團隊公開的說明,1小時長度的影片僅需 2.84 美元的 Google Gemini 處理成本(Qwen3-VL-Embedding 則完全免費),即可完成完整的索引建置。更驚人的是,影片搜尋過程可於1秒內完成。

在實際應用中,搜尋範圍若跨越兩個分割片段,搜尋結果可能出現斷裂。開發者建議未來可透過更先進的「場景檢測(Scene Detection)」技術,進一步提升搜尋準確率。此外,SentrySearch 已提供 YouTube 範例,展示「有載貨自行車的車子突然切入」這樣的語意搜尋結果。

此技術對新聞剪輯、廣告創作、影視研究等領域具有深遠影響。用戶無需手動翻閱數小時影片,即可快速找到目標畫面,大幅提高內容處理效率。目前 SentrySearch 專案已開放 GitHub,讓開發者與研究者自由參與,並持續優化演算法。

報導中也提及其他相關 AI 影像處理技術,包括「CorridorKey」解決綠幕特效問題、「LTX-2.3」本地運作的影片生成工具,以及「Self-Flow」多模態生成模型。這些技術共同推動了 AI 在影像處理領域的快速演進。

📰 本文資料來源 • GIGAZINE