奧推網

選單
科技

特斯拉披露自研Dojo超算專案新進展 測試效能強到一度讓電網跳閘

稿源:cnBeta

作為特斯拉自行定製的超算平臺,Doji 旨在為該公司的人工智慧(AI)/ 機器學習(ML)應用提供支撐。尤其是利用其自動駕駛車隊採集的影片資料,以展開相關訓練。此前這家電動汽車巨頭已經擁有一臺基於 NVIDIA GPU 的大型超算,但 Dojo 已用上特斯拉的自研晶片和全套基礎設施。

Electrek 預計,這臺定製超算可提升特斯拉使用影片資料訓練神經網路的能力,相關計算機視覺技術可為其自動駕駛工作提供至關重要的支撐。

事實上,早在去年的 AI Day 活動期間,特斯拉就已表示在抓緊打造 Dojo 超算。在每套晶片+訓練塊的基礎上,該公司還致力於構建一套完整的 Dojo 機櫃(或 Exapod 叢集)。

時隔一年,特斯拉在週五的 AI Day 活動期間,公佈了 Dojo 專案取得的最新進展。

該公司證實,其現已能夠透過一個 Dojo 塊(tile)取代六張 GPU、且更具成本優勢。

更確切地說,該公司已成功地從一套“晶片+訓練塊”、發展到了現在的“系統托盤”/ 完整機櫃。

每個托盤包含了六個這樣的計算塊,且效能相當於 3~4 個滿載的超算機架。

目前該公司正在將主機介面整合到系統托盤上,以構建一套完整的大型主機元件,以將這些系統托盤安裝到一個 Dojo 機櫃中。

不過在將幾個機櫃組合成 Dojo Exapod 所需的基礎設施之前,該公司仍需對其展開更多研發測試。

Dojo 首席系統工程師 Bill Chang 補充道 —— 為應對前所未有的散熱和功率密度,他們必須重新審視資料中心基礎設施的各個方面,以開發定製的高效能散熱與電力系統。

尷尬的是,今年早些時候的基礎設施測試,還對當地電網的變電造成了巨大的衝擊。最終在導致電網跳閘並被政府致電“問候”之前,他們已將功耗推升到超過 2 兆瓦。

最後,特斯拉分享了 Dojo Exapod 的關鍵規格資料 —— 1。1 EFLOP @ BF16 / CPP8 效能、1。3 TB SRAM、以及 13 TB 的高頻寬 DRAM 。

如果一切順利,該公司計劃在 2023 年 1 季度擁有首個完整的 Exapod 叢集(目前計劃在帕羅奧托擁有 7 個),同時試圖藉助該活動招募到更多人才。