根據《Impress Watch》報導,理光近日推出一款具備高精度圖文理解能力的多模態大規模語言模型「Qwen3-VL-Ricoh-32B-20260227」,專為企業處理複雜文件與暗默知識而設計。此模型基於阿里巴巴雲端的「Qwen3.0-VL」開發,並在經濟產業省與NEDO支持的「GENIAC」計畫下完成。

此模型的最大特點,在於具備處理圖表、照片等多種資料格式的「多模態」能力,並結合強化推理功能,讓企業能更有效處理圖文並茂的文件。理光指出,企業內部常見的文件不僅有文字,還包含大量圖表與圖像,傳統的純文字搜尋功能往往無法滿足使用者的實際需求,而此模型的問世,正補足這項痛點。

根據報導,「Qwen3-VL-Ricoh-32B-20260227」能在多階段推理的幫助下,理解跨頁圖表、複雜流程圖與科學文件等高難度資料。例如,面對「中央大徑孔的直徑與公差是多少」的問題,該模型能讀取圖紙上的文字與表格數據,並正確整合後回應「中央大徑孔的尺寸是Φ32.0 ±0.25mm」。此外,模型還能根據流程圖進行邏輯推論,並以自然語言回答複雜問題。

理光表示,此模型已達到與「Gemini2.5-Pro」等國際商用AI相同水準的處理能力。同時,為了便利日本企業使用,模型的思考過程已轉為日文,讓企業用戶能更清楚了解回答的邏輯與根據,從而提升信任度。

除了公開「Qwen3-VL-Ricoh-32B-20260227」模型外,理光也將推出專門用於評估推理能力的「獨家開發評估工具」,未來將逐步提供企業用戶使用。此外,該模型在參數規模上也進行壓縮優化,使得企業能將其部署於內部伺服器,實現資料私有化與安全性。

理光強調,此模型將整合至「Hi.DEEN」平台及「LLM企業級解決方案」中,推動企業內部知識的AI化與重用。透過此模型,企業能將傳統上難以數位化的知識(例如圖表與流程圖)轉化為AI可處理的數據,進一步提升業務效率與創新能力。

📰 本文資料來源 • Impress Watch