AI 創業公司MosaicML 近日發布了其語言模型MPT-30B,單從參數來看,這個模型具有300 億參數,放在如今動則上千億參數的模型領域中並沒有什麼突出的地方。但這個新模型的訓練成本卻只有其他模型的零頭,有望擴大模型在更廣泛領域的運用。
MosaicML 的首席執行官兼聯合創始人Naveen Rao 表示,MPT-30B 的訓練成本為70 萬美元,遠低於訓練GPT-3 所需的數千萬美元。此外,MPT-30B 模型的質量超過了OpenAI 在2020 年發布的初版GPT-3。由於MPT-30B 的成本較低,體積較小,它也可以更快速地被訓練,並部署在本地硬件設備上。
MosaicML 使用了Alibi 和FlashAttention 技術來優化模型,可以實現更長的文本長度和對GPU 計算的高利用率。 MosaicML 也是少數幾個能夠使用Nvidia H100 GPU 的實驗室,相比以往,這使得每GPU 的吞吐量增加了2.4 倍以上,帶來更快的完成時間。
300 億參數這是一個在大模型領域經常看到的數字,300 億參數為什麼這麼特殊呢? MosaicML 首席科學家Frankle 則解釋道,首先300 億參數能夠確保它可以在本地硬件上輕鬆運行,同時保持質量與GPT-3 差不多或略優於它。
其次任何超過300 億參數限制的模型都需要將模型分解成多個平行段,通常也需要更加昂貴的多GPU 設置。
除了讓AI 技術更容易獲得之外,MosaicML 還專注於提高數據質量,以提高模型性能。他們目前正在開發工具,幫助用戶在預訓練過程中分層加入特定領域的數據。這確保了多樣化和高質量的數據組合。將模型擴展到300 億參數只是MosaicML 的第一步,接下來他們將以降低成本為前提,推出更大的、更高質量的模型。
開發者可以從Hugging Face 下載並使用開源的MPT-30B 基礎模型,開發者還可以在自己的硬件上用自己的數據對模型進行微調。
#MosaicML #推出300 #億參數模型訓練成本70 #萬 #科技資訊
You may also like
No related posts.
近期文章
- SHOPIFY REBELLON vs BOOM ESPORT [BO2] – TIMADO, YOPAJ 對上 JACKKY, MAC – ESL ONE BANGKOK 2024 DOTA 2
- Dota2 – Team Spirit VS Shopify Rebellion – ESL One 曼谷
- 德國滑雪選手如何打造 Shopify?
- 2024 年 12 月 2 款必銷產品🚀(Shopify 得獎者)
- Shopify Rebellon vs 獵鷹隊 [BO2] – TIMADO, YOPAJ 對 SKITER, AMMAR – ESL ONE BANGKOK 2024 DOTA 2
- 添加這些直銷產品並觀察您的銷售爆炸式增長#dropshipping #shopify
- 我如何在 19 歲時開始在 30 天內從巴基斯坦開始 Shopify Dropshipping 從 0 美元到 1000 美元
- 我打破了 Shopify 應用程式商店世界紀錄!
- 如何在 Shopify 上傳/更改封面主頁圖片
發佈留言