
2025年11月02日 23:49 環球市場播報
AI實驗室Andon Labs最近進行的一項評估顯示,搭載頂級大模型的掃地機器人在簡單家務任務中表現糟糕,成功率遠低于人類。實驗要求機器人執行「把黃油遞給人」的多步驟指令,包括跨房間定位、區分包裝、尋找移動位置的人類、完成交付幷返回充電。結果顯示,Gemini 2.5 Pro 的成功率僅 40%,Claude Opus 4.1 為 37%,GPT-5 爲 30%,明顯落後于人類的表現。
研究指出,大模型在空間推理、環境理解、長期任務規劃等方面依然存在明顯短板。
研究團隊强調,娛樂之外也有嚴肅隱患:某些機器人可被誘導泄露機密文件,部分機型無法識別樓梯風險而從高處跌落,暴露當前大型語言模型(LLM)與機器結合的安全漏洞。
在資本大舉押注機器人時代的當下,這項研究提醒人們:强大的文本生成能力不代表能穩定、安全地在物理世界執行任務,AI機器人距離真正進入家庭仍有大量工程與安全問題需要解决。
責任編輯:黃康
Post Views:
11







