-
日期: 2025-05-20 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
基於AI研究、機器人以及實際制造等過往經驗,Adam Karvonen在零件制造任務上,測評了頂尖模型的表現。
包括OpenAI o3、Gemini 2.5 Pro等頂尖LLM,全部失敗,沒有一個讓他滿意!
更不要提經驗豐富的工人老師傅了。
基於此,他認為,在未來一段時間內,AI將自動化大量白領工作,而藍領工作不受影響。
也就是說,自動化在全行業裡並不會均勻發生。
盡管還不知道這種不均衡會持續多久,但他認為局部自動化幾乎已成定局。
這與Anthropic的首席執行官Dario Amodei的預測截然不同。
Dario曾公開表示:幾乎所有工作會同時被自動化,從而把每個人都“放在同一條船上”
但Adam Karvonen做過機械師,還從事過機器人相關工作。
Adam Karvonen
Dario Amodei
Dario曾公開表示:幾乎所有工作會同時被自動化,從而把每個人都“放在同一條船上”
但Adam Karvonen做過機械師,還從事過機器人相關工作。
此外,他從事過軟件開發,現在是MATS學者項目的機器學習研究人員。
可以說,他是研究AI對藍領工人影響的上佳人選。
零件制造:物理+視覺雙重挑戰
評估很簡單:制定一個詳細的計劃,使用3軸CNC銑床和2軸CNC車床來加工一個零件,如下圖所示。
測試中要加工的零件
盡管這並不簡單,但在典型的原型制造或工作車間環境中,大多數技師會將執行這一任務視為常規工作,涉及標准的車削和銑削技術,但需要多個加工步驟。
CNC銑床和車床零件加工示意圖
盡管這個零件很簡單,即便是像o1-Pro或Gemini 2.5 Pro這樣的前沿模型也經常犯下重大錯誤。
這些錯誤可以分為兩類:視覺能力和物理推理能力。
視覺錯誤
大多數模型的視覺能力非常差:在過去的兩年裡,在視覺能力上,Anthropic和OpenAI的模型沒有任何實質性的進步。
它們總是錯過一些顯而易見的特征。
哪怕只是這個零件做出合理的描述,Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o或o1-Pro也做不到。
如果沒有視覺能力,創建制造計劃幾乎是完全不可能的。
有趣的是,在像MMMU之類的視覺推理基准測試中,許多模型得分高於或接近人類專家的水平。
MMMU基准的測試科目和示例
然而,容易衡量的東西,往往與現實世界的實用性沒有直接關聯。
當看到Gemini 2.5在視覺能力上有了重大進展時,他感到非常驚訝。
它能捕捉到的一些細節確實令人印象深刻。
然而,這種視覺改進主要揭示了更深層次的未解決問題。
對比一下Adam Karvonen和Gemini 2.5 Pro對加工零件的描述
Adam Karvonen的描述
Gemini 2.5 Pro的描述
這是一根細長的黃銅圓柱體,兩端帶有不同直徑的台階和螺紋。該部件長2英寸,直徑為0.187英寸,因此長度與直徑的比例超過了10:1。
材料:黃銅(可能是C360自由切削黃銅,便於加工)形狀:主要為圓柱形,具有多個不同直徑的部分,兩端帶有螺紋,中央部分有銑削平面,平面上有兩個螺紋孔,且有一個橫向穿過螺紋部分的孔。大致尺寸:長度約為2英寸,最大直徑約為3/16英寸(0.1875英寸)。螺紋看起來比較細(可能是#6-32或M4規格)。螺紋孔較小(可能是#2-56或M2.5規格)。橫向孔較小(約1/16英寸或1.5mm)。確切的尺寸需要從圖紙中獲取,但我們可以根據這些估算的尺寸進行分析。
物理推理錯誤
以前,很難將視覺誤解與更深層次的物理推理問題區分開來。
現在,即便從准確的視覺解釋出發,Gemini 2.5仍然會產生充滿實際錯誤的加工計劃。
典型錯誤包括:忽視剛性和振動;物理上不可能的工件夾持。
忽視剛性和振動。
這個零件相對於其直徑來說長而細。
如果用標准技術來加工它,這很可能導致零件在加工時發生變形,或在切削工具上快速振動(稱為“振刀”現象)。
剛入行的技師都能立刻意識到,剛性對於像這樣的長細零件至關重要。
當專門詢問振刀問題時,Gemini錯誤地使用尾座等教科書解決方案,反而加劇了像在這根長細黃銅零件中彎曲問題。
尾座是機械加工中常用的裝置
物理上不可能的工件夾持。
Gemini通常提出一些無法實現的工件夾持和操作順序。
最常見的建議是將零件夾在夾具中(特別是卡盤塊),加工一些特征,然後旋轉夾具以加工其他特征。
然而,這在物理上是不可能的,因為夾具會擋住這些新特征。
CNC工件夾持方法
Adam Karvonen的總體印象是:“就像是在復述教科書知識,但根本不懂他們在說什麼”。
這些模型非常樂於提供教科書上的知識,但在重要的實際細節上,完全錯誤。
這與他收到的制造業及建築行業的反饋一致:目前的LLM,在他們工作的核心、動手操作部分,幾乎完全無用。
這項評估僅僅是皮毛
生成文本計劃,只是工作中最簡單的部分。
實際的加工,涉及管理每個高層步驟背後的許多細節。
僅僅選擇一個切削工具就需要考慮刀尖半徑、刀柄碰撞間隙、刀具剛性、塗層、切削速度/進給速率等多個因素。
而且往往存在取舍與權衡,例如間隙與剛性之間的平衡。
許多因素,本質上是空間問題,而這些問題利用文本是無法完全評估的。
如果模型在這些可描述的方面表現如此糟糕,那麼它們對基礎物理現實的理解可能會更糟。
事實上,真正的關鍵是克服眾多難題,每個難題都比前一個更加困難:
基本的物理合理性:不僅僅是看清零件,模型還必須提出物理上可行的操作和設置。這涉及基本的空間推理,以確保例如工具訪問不會被夾具阻擋。
融入物理知識:成功的加工需要理解現實世界的物理和潛在知識。這通常要實操獲得經驗,但現有的數據集無法做到這一點。
工藝優化:在步驟1-3中處理細節是正確加工零件的前提。正如馬斯克所說,高效制造比制造原型要困難10-100倍。這才是工作中真正具有挑戰性的部分。
基本的物理合理性:不僅僅是看清零件,模型還必須提出物理上可行的操作和設置。這涉及基本的空間推理,以確保例如工具訪問不會被夾具阻擋。
融入物理知識:成功的加工需要理解現實世界的物理和潛在知識。這通常要實操獲得經驗,但現有的數據集無法做到這一點。
工藝優化:在步驟1-3中處理細節是正確加工零件的前提。正如馬斯克所說,高效制造比制造原型要困難10-100倍。這才是工作中真正具有挑戰性的部分。
步驟2到4可能難以通過模擬生成的合成數據來解決。
與Adam Karvonen交流過的技師,幾乎都認為:工程師理解教科書公式和CAD,但不理解現實制造中的約束。
而模擬環境,似乎很可能會創造出具有相同缺陷的AI。
為什麼LLM表現不佳?
缺乏數據,是LLM在物理任務中表現不佳的最明顯的原因。
像加工這樣的問題,依賴於大量的隱性知識和通過經驗學到的無數微妙細節。這些細節通常並不會被記錄下來。
這並不是因為專家故意隱瞞秘密——而是因為記錄這種細致入微的現實世界知識既不現實也不高效。
軟件工程師,很少記錄每一行代碼背後的所有推理。
類似地,加工技師也不會記錄每次設置零件時的所有考慮因素。
導師手把手教學,比通過教科書學習或死記硬背程序更加快捷高效。
這與軟件工程或法律等領域有著顯著的區別。
盡管軟件工程師或律師可能不會明確記錄每個推理步驟,但他們會生成像代碼、版本控制歷史和合同這樣的制品,這些都包含了非常豐富詳細的信息。
而在物理任務中,雖然同樣存在相應的詳細信息,但這些信息嵌入在3D世界,通常非常難以有效數字化。
因此,LLM在回顧某些教科書知識時表現出色,但這遠遠不夠。
改進物理任務可能很困難
從經驗來看,頂尖模型目前在這些任務上表現不佳。
這只是暫時的障礙,很快就能克服嗎?
這很難確定,但Adam Karvonen有一些推測性的理由來解釋為什麼未來的進展可能會很困難,也可能比預期的更容易。
一個顯然的解釋是,LLM在物理任務上表現不佳,是因為目前沒人投入足夠的精力。
然而,改進對物理世界的理解可能非常難。
提升編碼能力的路徑依賴於大量的訓練數據和清晰的獎勵信號,支持強化學習和合成數據的使用。
然而,這種方法在物理任務中並不適用。
為什麼改進可能很困難
缺乏可驗證的獎勵:為復雜物理任務定義獎勵信號非常困難。
零件的缺陷可能表現為幾年後稍微增加的故障率,或者是多年後錯誤應用防水塗層造成的腐爛。
注塑產品中的裂縫
反饋回路可能很長,而且結果很難通過自動化方式衡量。
緩慢、昂貴且危險的試錯法:通過強化學習或生成合成數據的學習,可能非常困難。
一次錯誤很容易導致數十萬甚至更多的損失。
與運行有漏洞的代碼不同,使用重型機械或從事建築施工時的錯誤可能帶來嚴重後果。
制造業獲得經驗通常需要使用昂貴且有限的資源,而不僅僅是幾個GPU小時。
為什麼改進可能比預期容易
自動化AI研究員:AI在編碼和AI研究方面正在取得重大進展。
人類可能很快就會迎來AI研究員。
也許這種自動化的AI研究員,能夠通過創建更高效的算法或大量的模擬數據,輕松解決這些挑戰。
合成數據:有些明顯的方法還沒有得到充分探索。
例如,模擬可以被用來創建大量數據,盡管模擬與現實之間會存在差距。
以特定的制造工藝(如CNC加工)為例,計算機輔助制造(CAM)軟件可以准確地模擬大多數操作。
然而,制造過程中有很多多樣化的工藝,許多工藝沒有很好的模擬解決方案。
總體來說,雖然改進物理任務處理能力存在諸多挑戰,但隨著技術的發展,自動化AI研究員的出現以及合成數據的廣泛使用,未來可能會取得意想不到的進展。
自動化不均衡的影響
如果這一趨勢持續下去,人類將要面臨新階段,其中遠程工作會經歷顯著的自動化,而熟練的體力工作則在很大程度上不受AI影響。
這一“自動化差距窗口”可能持續一段未知的時間,並帶來潛在的影響:
1. 加劇緊張局勢
自動化與非自動化行業之間可能很容易出現重大階級沖突,尤其是因為這兩個群體之間還存在其他潛在的差異。
白領工人更有可能面臨職位替代,而他們通常收入更高,並且擁有更為自由的政治信仰。
這些差異可能加劇緊張局勢,並導致自動化行業群體的重大經濟痛苦。
2. 公眾對AI的反對
這可能導致公眾反對進一步的AI研究。
像藍領工人這樣的群體,現在已經有了自動化可以迅速發生的證據,他們可能不希望被AI取代。這可能會阻礙進一步的AI發展展,並延長不平衡的存在。
3. 體力勞動瓶頸
如果大多數知識工作被自動化,像制造業這樣的體力勞動能力可能會成為技術進步或國防的瓶頸。
像中國這樣的國家,憑借其更強大的工業基礎,可能會獲得顯著的戰略優勢。
但這存在許多不確定性。- 新聞來源於其它媒體,內容不代表本站立場!
- 強推6部頂級美劇,每部只有一季真是太可惜了
- 百度李彥宏:蘿卜快跑全球已部署超 1000 輛無人車
- 加拿大鵝股價瘋漲 稱關稅影響極小
- 20年來加國暑期就業從未如此糟糕
-
- 公寓市場正在放緩 買家都去哪了?
- 振龍電器 各類熱銷家電 種類齊全
- 大溫這司機收$1576罰單 同時酒駕
- 剛上任引爭議 稱加房地產危機根源
- 刷屏了!巨大的雙彩虹橫跨大溫哥華
- 獨一無二!加國玻璃蝴蝶銀幣太美了
-
- 振龍電器 各類熱銷家電 種類齊全
- 拜登確診這癌晚期 為啥沒有早發現
- 拿自己人開刀!蔡奇:堅決整治黨內吃喝風
- 碳稅取消 加國4月通脹率或至1.6%
- 罷免總統:國民黨迎合北京的一場鬧劇
- 離譜!新能源汽車維修成了高危職業
-
- 比他哥更慘!辛瓦爾弟弟被鑽地彈送入地獄
- 環游全國 從存款40萬幹到負債70萬
- 德國外長:北京應承擔烏克蘭戰爭和平責任
- 俄需要達成怎樣的特別軍事行動結果?普京回應
- 赴美旅行新規:手機被查 這些人正被重點盯上
- 印度國防智庫:中國直接參與了印巴沖突
-
目前還沒有人發表評論, 大家都在期待您的高見