在很長一段時間內,占據大模型評測榜單最前列的大多是一些閉源模型,直到Meta再次發布了最新的開源模型。就在近日,Meta和OpenAI打響了硅谷 AI 大模型保衛戰。
美國當地時間7月23日,Meta正式發布Llama 3.1。其包含8B、70B 和405B三個規模,最大上下文提升到了128k。Llama是目前開源領域中用戶最多、性能最強的大型模型系列之一。
Meta 表示,他們將通過提供更多與模型協同工作的組件(包括參考系統),繼續將 Llama 打造成一個系統,并希望為開發人員提供工具,幫助他們創建自己的定制智能體和新智能體行為。
此外,Meta 也將通過新的安全和保障工具(包括 Llama Guard 3 和 Prompt Guard)幫助開發者負責任地進行開發。Meta 在在官方博客中寫道,“迄今為止,開源大語言模型在功能和性能方面大多落后于封閉的同類產品。如今,我們迎來了一個由開源引領的新時代。我們將公開發布 Meta Llama 3.1 405B,我們相信它是世界上規模最大、功能最強的開放基礎模型。”
與之前的 Llama 版本相比,Llama 3.1提高了用于訓練前和訓練后的數據的數量和質量。這些改進包括為訓練前數據開發更仔細的預處理和管理流程、開發更嚴格的質量保證以及訓練后數據的過濾方法。
另外,為了支持 405B 規模模型的大規模生產推理,團隊還將模型從 16 位 (BF16) 量化為 8 位 (FP8) 數字,有效降低了所需的計算要求并允許模型在單個服務器節點內運行。
在其他場景中,Llama 3.1 405B進行了與人工評估的比較,Llama 3.1 405B在常識、可操作性、數學、工具使用和多語言翻譯等一系列任務中,其總體表現優于GPT-4o和Claude 3.5 Sonnet。
作為最新版本的一部分,他們推出了 8B 和 70B 模型的升級版本。這兩個版本支持多種語言,相比于同樣參數大小的模型性能表現也更好。上下文長度大大增加,達到 128K,工具使用 SOTA,整體推理能力更強。
這使得 Llama 3.1 系列模型能夠支持高級用例,如長文本摘要、多語言對話智能體和編碼助手。值得一提的是,Meta 還修改了許可證,允許開發人員使用 Llama 模型(包括 405B 模型)的輸出結果來改進其他模型,并在 llama.meta.com 和 Hugging Face 上向社區提供這些模型的下載。
作為 Meta 迄今為止最大的模型,在超過 15 萬億個 token 上訓練 Llama 3.1 405B 是一項重大挑戰。為了在合理的時間內完成如此大規模的訓練運行并取得這樣的結果,Meta 對整個訓練堆棧進行了大幅優化,并將模型訓練推送到 1.6 萬多個 H100 GPU 上,使 405B 成為第一個以如此規模訓練的 Llama 模型。
為了解決這個問題,Meta 在設計時選擇了保持模型開發過程的可擴展性和直接性(straightforward)。為了最大限度地提高訓練的穩定性,他們選擇了標準的僅解碼器 transformer 模型架構,并作了較小的調整,而沒有采用混合專家模型。
他們采用了迭代后訓練程序,每一輪都使用監督微調和直接偏好優化。這使得他們能夠為每一輪訓練創建最高質量的合成數據,并提高每種能力的性能。與以前版本的 Llama 相比,Meta 改進了預訓練和后訓練所用數據的數量和質量。
這些改進包括為預訓練數據開發了更細致的預處理和整理管道,為后訓練數據開發了更嚴格的質量保證和過濾方法。正如語言模型的縮放規律所預期的那樣,Llama 3.1 405B 優于使用相同程序訓練的較小模型。他們還利用 Llama 3.1 405B 提高了小型模型的后期訓練質量。為了支持 Llama 3.1 405B 的大規模生產推理,他們將模型從 16 位(BF16)量化為 8 位(FP8)數值,有效降低了所需的計算要求,使模型可以在單個服務器節點內運行。
Meta 在官方博客中寫道,與封閉的模型不同,Llama 模型權重可供下載。
開發人員可以完全根據自己的需求和應用定制模型,在新的數據集上進行訓練,并進行額外的微調。
這使得更廣泛的開發者社區和全世界都能更充分地發揮生成式人工智能的能力。開發人員可以根據自己的應用進行完全定制,并在任何環境中運行,包括預置環境、云環境,甚至是筆記本電腦上的本地環境,而無需與 Meta 共享數據。
Meta 也表示,雖然很多人可能會認為封閉模型更具成本效益,但根據 Artificial Analysis 的測試,Llama 模型的單位 token 成本在業內最低。正如 Mark Zuckerberg 所指出的那樣,開源將確保全世界更多的人能夠享受到人工智能帶來的好處和機會,確保權力不會集中在少數人手中,確保這項技術能夠在全社會范圍內得到更均衡、更安全的部署。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://www.hztianpu.com/yun/131141.html
2024年4月18日,Meta AI正式宣布推出開源大模型Llama3,這標志著開源大型語言模型(LLM)領域的又一重大突破。Llama3以其卓越的性能和廣泛的應用前景,或將推動人工智能技術快速邁進新紀元。為方便AI應用企業及個人AI開發者快速體驗Llama3的超高性能,近期優刻得GPU云主機上線Llama3-8B-Instruct-Chinese鏡像,一鍵配置,快速部署模型開發環境。為客戶提供開...
在人工智能領域,自然語言處理技術一直備受關注。就在昨日,今年備受關注的國內AI公司北京智譜AI發布了第四代 GLM 系列開源模型:GLM-4-9B。這是一個集成了先進自然語言處理技術的創新平臺,它憑借清華大學KEG實驗室提出的GLM模型結構,為智能體功能的發展帶來了新的突破的同時所有大模型全部保持開源,一系列商業化成果、技術突破讓人眼前一亮。讓我們一起揭開GLM-4的神秘面紗,探索其在代碼執行、聯...
摘要:同時該版本在安全性和等關鍵功能上作出了改進年月日,發布。盡管谷歌這些年來是的主要貢獻者,但現在其他技術人員在這個項目上的貢獻量已經幾乎和谷歌持平了。這些舉動都在表明云計算市場的戰火將繼續蔓延,已經成為兵家必爭之地。年月日,宣布推出。Kubernetes 在過去幾年中一直是云計算領域最著名的開源項目之一。 2018 年,Kubernetes 度過了自己的 4 歲生日。從 2014 年開源...
閱讀 11148·2025-12-17 13:33
閱讀 12131·2025-12-16 16:27
閱讀 3586·2025-05-12 19:38
閱讀 4421·2025-04-29 17:46
閱讀 15046·2025-03-21 11:44
閱讀 2263·2025-02-19 18:27
閱讀 2216·2025-02-19 18:21
閱讀 2281·2025-02-19 13:50