馬斯克打臉OpenAI!全球最大模型Grok1開源,高達3140億參數震撼世界|鈦媒體AGI
分類: 最新資訊
竅門詞典
編輯 : 竅門大全
發布 : 03-18
閱讀 :122
馬斯克參加紐約時報活動(來源:視頻截圖)就在剛剛,馬斯克(Elon Musk)真的實現了他的承諾——把大模型Grok-1開源了。鈦媒體App獲悉,北京時間3月18日早上,“硅谷鋼鐵俠”、億萬富翁馬斯克旗下 AI 初創公司 xAI 宣布,其研發的大模型Grok-1正式對外開源開放,用戶可直接通過磁鏈下載基本模型權重和網絡架構信息。xAI表示,Grok-1 是一個由 xAI 2023 年 10 月使用基于 JAX 和 Rust 的自定義訓練堆棧、從頭開始??訓練的3140億參數的混合專家(MOE)模型,遠超OpenAI的GPT模型。而此次開源的模型是是 Grok-1 預訓練階段的原始基礎模型,沒有針對任何特定應用(例如對話)進行微調。對此,英偉達科學家Jimfan評價稱,這是有史以來最大的開放大型語言模型,由世界級團隊訓練,通過磁力鏈接發布。Apache 2.0。 314B,專家混合(8 個活躍中的 2 個)。就連活動參數僅(86B)就超過了最大的Llama。迫不及待地想看到基準測試結果以及人們用它構建的內容。langchain的Andrew Kean Gao評論認為,“Grok是有史以來最大的開源大模型,是llama2尺寸的4倍?!盋hatGPT則和馬斯克在評論區互相嘲諷。馬斯克隨后發推文表示,“告訴我們更多有關 OpenAI 的‘開放’部分的信息”。他直言,xAI 這個平臺“已經是迄今為止最透明和最求真的平臺(說實話,門檻并不高)”。截至發稿前,Grok上線GitHub后狂攬了6000星,586個Fork。據悉,2023年7月,特斯拉CEO馬斯克宣布成立一家新的人工智能公司xAI,新公司使命是“了解宇宙的真實本質”,目標是打造OpenAI的競爭對手。作為OpenAI 創始人之一,也是最新的OpenAI批評者,馬斯克此前已表示,OpenAI已偏離了其預期目的,成為了一個以利潤為導向的實體。他直言,OpenAI 最初是作為一個非營利性開源組織創建的,目的是抗衡谷歌。但此后它變成了微軟控制下的一家閉源、以利潤為導向的公司?!癘penAI 已經成為一家利潤最大化的公司……這根本不是他的初衷?!瘪R斯克還譴責 OpenAI 遭到微軟的控制。他表示,世界需要一個替代GPT的 AI 技術選擇。去年11月,馬斯克正式發布xAI 旗下首個大模型和應用成果方案Grok,并將Grok AI 助手內置在社交平臺X上。馬斯克曾表示,“在某些方面,它是目前存在的最好的(AI 技術)?!碑敃r馬斯克表示,調優之后的Grok大模型具有330億個參數,性能基準上接近Llama 2 -70B,在HumanEval編碼任務、MMLU 基準上的結果分別為63.2%、73%。今年2月,馬斯克向美國舊金山高等法院提起訴訟,起訴OpenAI和公司聯合創始人、CEO奧特曼(Sam Altman),公司總裁Greg Brockman以及 OpenAI 的若干實體,控告OpenAI團隊違約、出爾反爾(“允諾禁反言”)、不正當競爭等。馬斯克在46頁、1.4萬字訴訟文件中聲稱,OpenAI違背初衷,背叛了OpenAI這家 AI 公司成立時達成的一項協議,即開發技術的目的是“造福人類”而非利潤。他認為,OpenAI最近與微軟的密切關系損害了該公司最初對開放、開源通用人工智能(AGI)領域的貢獻,他要求OpenAI開放技術并尋求償還他提供的資金。3月初,OpenAI“反擊”稱,“當創始團隊討論以營利為目的的結構以進一步實現使命時,馬斯克希望我們與特斯拉合并,否則他想要完全控制。馬斯克離開了 OpenAI,表示需要有一個與 Google/DeepMind 相關的競爭對手,而他將自己做這件事。他說他會支持我們找到自己的道路。”而且該公司駁回馬斯克的所有主張,并稱為事情發展到這一步感到遺憾。馬斯克則直接回應,OpenAI并不開源,Grok要直接開源(Open)。如今,Grok-1 正式開源,其擁有3140億參數,具備先進MOE架構,遠超GPT-3.5、llama2等,是迄今為止參數量最大的開源大語言模型。xAI稱,這個版本包含了Grok-1在2023年10月完成預訓練階段時的基礎模型數據。根據Apache 2.0許可協議,向公眾開放模型的權重和架構。以下是鈦媒體App梳理的關鍵信息:該基礎模型通過大量文本數據訓練而成,未專門針對任何具體任務進行優化。3140億參數構成的混合專家模型,其中25%的參數能夠針對特定的數據單元(Token)激活。而xAI團隊利用定制的訓練技術棧,在JAX和Rust的基礎上,從零開始構建了此模型,完成時間為2023年10月。模型參數數量高達3140億,具備混合專家模型(Mixture of Experts, MoE)8架構,每一個數據單元(Token)由2位專家處理,共64個處理層,用于處理查詢的有48個注意力機制單元(attention heads),用于處理鍵(key)/值(value)的有8個注意力機制單元,嵌入向量(embeddings)的維度為6,144,采用旋轉式嵌入表示( RoPE) ,使用SentencePiece分詞系統處理,包含131,072種數據單元,支持激活數據分布計算(activation sharding)和8位數字精度量化(8-bit quantization)最大序列長度為8,192個數據單元,以處理更長的上下文信息紐約時報點評道,開源Gork背后的原始代碼,是這個世界上最富有的人控制AI未來戰斗的升級。Meta CEO扎克伯格剛剛也對Grok做出了評價:“并沒有給人留下真正深刻的印象,3140億參數太多了,你需要一堆H100,不過我已經買下了”。值得一提的是,近期南加州大學的論文稱,OpenAI發布的GPT-3.5-turbo 的參數規模也在7B(70億)左右,除非是MoE 架構可能不同,并估計 gpt-3.5-turbo 的嵌入大小為 4096,稱花費不到 1000 美元就把最新版 gpt-3.5-turbo 模型的機密給挖了出來。有網友形容,馬斯克對于模型技術這么大方,中國企業終于有福了。3月17日,北京師范大學新聞傳播學院教授、北京師范大學傳播創新與未來媒體實驗平臺主任 喻國明在一場演講中表示,別人一開源中國 AI 模型就使用是不正確的做法,對于安全性有所影響,必須國內要解決數據開源的規則問題。同時,大模型算力不足下,中國不應該“一窩蜂”做300多個大模型,而是應該做一些垂直行業、邊緣計算的小模型,從而解決實際應用問題。“模型的價值不在于數據、算法、算力的大小,而在于能否為人創造真正的價值大小,并且在價值鏈條中扮演關鍵角色。價值的最終實現,取決于大模型與小模型之間的融合與協同。”喻國明表示。(本文首發鈦媒體App,作者|林志佳)