11年,從虧6億到賺6000萬!DeepMind不止那隻會下棋的狗



新智元報道

來源:網路

編輯:小鹹魚

【新智元導讀】AI研究實驗室DeepMind收購併開源了MuJoCo,多關節動力學(MuJoCo)可以為DeepMind的機器人研究提供新的動力。這篇文章將追溯DeepMind是如何一直在機器人領域努力突破極限的。

DeepMind 終於逆襲了!

這家總部位於倫敦的AI研究公司在過去幾年虧損數億美元后,有史以來第一次實現了盈利!


DeepMind收購MuJoCo

在2020年,DeepMind實現了5960萬美元的利潤。

而僅在一年前的2019年,DeepMind交出的還是一份高達6.49億美元(約42億人民幣)的虧損賬單。


作為一家人工智慧初創公司,DeepMind成立十幾年來,研發了不少明星產品,比如AlphaGo,AlphaFold2,不斷光環加身。但光環背後,它的商業化之路一直走得有點艱辛。


近期,DeepMind在宣佈史上首次實現盈利之後,第一次開始出手收購。

10月19號,DeepMind宣佈,將機器人模擬器平臺MuJoCo收購,並準備將其作為一個預編譯的開源庫釋出,免費提供給研究人員。


DeepMind表示,預計將在2022年釋出MuJoCo的程式碼庫,並在Apache 2.0許可下將其作為開源軟體「繼續改進」。

「我們的機器人團隊一直在使用MuJoCo作為各種專案的模擬平臺。我們致力於開發和維護MuJoCo。MuJoCo作為一個免費的、開源的、社羣驅動的專案,具有一流的能力。我們目前正在努力為MuJoCo的全面開源做準備。」DeepMind表示。


DeepMind創始人Demis Hassabis表示,公司的初衷就是用人工智慧推動科學發展,造福於人類。

DeepMind在機器人領域的進展

此次收購MuJoCo,並將其作為開源平臺開放給所有研究人員,並不是DeepMind第一次在機器人領域作出貢獻。

所以,DeepMind是如何一直在機器人領域努力突破極限的呢?

深度強化學習訓練機器人

2016年,DeepMind的研究人員展示了深度強化學習如何訓練真正的物理機器人。

延伸閱讀  共享汽車,難尋蹤跡

研究表明,基於deep Q-functions的強化學習演算法可以擴充套件到複雜的三維操作任務,並有效地學習深度神經網路策略。

DeepMind進一步表明,通過在非同步共享策略更新的多個機器人之間進行演算法並行化,可以進一步減少訓練機器人的時間。


所提出的方法可以在模擬中學習各種3D操作技能和開門技能(通常被認為是在機器人訓練中比較複雜的任務),而無需手動設計行為表示。

產生靈活的行為

2018年,DeepMind發表了三篇主要論文,展示了機器人可以實現靈活自然的行為,來適應和解決任務。


科學家用各種模擬身體訓練agent,讓他們在不同的地形上跳躍、轉身和蹲伏。結果表明,agent在沒有收到具體指示的情況下學會了這些技能。

另一篇論文展示了一種訓練策略網路的方法,該網路模擬人類行為的動作捕捉資料,以預先學習諸如行走、從地面起身、轉彎和跑步等技能。


然後,這些行為經過調整,可以改變用途,並解決其他任務,如爬樓梯和通過有牆壁的走廊。

第三篇論文提出了一個基於最先進的生成模型的神經網路體系結構。

這項研究展示了這種架構如何能夠學習不同行為之間的關係,並模仿向agent展示的特定動作。


經過訓練後,這些系統可以編碼一個觀察到的動作,並創造一個新的動作。

擴充套件資料驅動的機器人技術

DeepMind研究了一個資料驅動的機器人框架,該框架使用大量的機器人體驗資料集,然後使用學習獎勵函式將其擴充套件到幾個任務。

該框架可用於在真實機器人平臺上完成三種不同的物體操縱任務。


科學家們使用人類註釋作為監督,讓agent學習獎勵功能,並用任務不可知(task-agnostic)的記錄經驗來演示任務。這有助於agent處理現實世界中無法直接獲得獎勵訊號的任務。

基於學習到的獎勵和從不同任務中獲得的大量經驗資料集,使用批量強化學習離線學習機器人策略,這種方法可以訓練agent執行具有挑戰性的操作任務,如堆疊剛性物體。

堆疊的新基準

最近,DeepMind推出了RGB堆疊,作為基於視覺的機器人操作任務的新基準。

在這裡,機器人必須學會如何抓住不同的物體,並使它們相互平衡。這不同於以前的工作,因為所用物體非常多樣,為驗證結果的準確性也需要進行各種經驗評估。

結果表明,使用模擬和真實世界資料的組合可以學習複雜的多物件操作。


這個實驗為新物體的概括提出一個強有力的基線,也被認為是DeepMind在製造通用機器人方面的一個重大進步。

DeepMind現在將致力於讓機器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準已經與構建真實機器人的RGB堆疊環境、RGB物件的模型和3D列印資訊的設計一起開源。

延伸閱讀  韓國半導體9月出口額增長28.2%,創今年單月之最、歷年第二高

MuJoCo

最後,來聊聊這次DeepMind收購的MuJoCo。

MuJoCo(Multi-Joint Dynamics with Contact)是一款物理引擎模擬器,可促進機器人學、生物力學、圖形、動畫等需要快速準確模擬的領域的研發。


MuJoCo由Emo Todorov為Roboti LLC開發,是第一批全功能模擬器之一,從零開始設計,通過觸點進行基於模型的優化。

在DeepMind被收購之前,2015年至2021年間,MuJoCo一直是一款商業產品,也就意味著需要收費,而且並不便宜。


MuJoCo有助於提升計算密集型技術,如最佳控制、系統識別、物理一致狀態估計和自動化機構設計,然後將其應用於具有豐富接觸行為的複雜動態系統。


MuJoCo還有一些應用,比如,在物理機器人、遊戲和互動式科學部署之前,經常會在MuJoCo上測試和驗證控制方案。

機器人研究的未來

今年,DeepMind的競爭對手OpenAI,在機器人領域投入多年的研究、資源和努力後,最終決定解散其機器人研究團隊,將重點轉移到資料更容易獲得的領域。


在機器人研發行業,也有幾家基於機器人技術的公司已經關門或者正在嚴重虧損。在這種情況下,機器人儘管是一個看似利潤豐厚的行業,但卻沒有買家。

不過,有谷歌的真金白銀的支援,再加上從不讓人失望的DeepMind的研發實力和研究機器人的決心,機器人領域的未來還是非常值得期待的。

參考資料:

DeepMind’s Progress Over The Years In Robotics

https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments

延伸閱讀  Win11 hosts檔案在哪裡?Win11 hosts檔案的位置

https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco

Scroll to Top