4月24日,蘋(píng)果開(kāi)源了大語(yǔ)言模型OpenELM。這與微軟剛開(kāi)源的Phi-3 Mini類似,是一款專門(mén)針對(duì)手機(jī)等移動(dòng)設(shè)備的模型。
以下是一些重點(diǎn)信息的摘要:
1. 開(kāi)源OpenELM: 蘋(píng)果公司開(kāi)源了一個(gè)名為OpenELM的大語(yǔ)言模型,這與微軟開(kāi)源的Phi-3 Mini類似,是專為移動(dòng)設(shè)備設(shè)計(jì)的模型。
2. 模型參數(shù): OpenELM提供了四種不同參數(shù)規(guī)模的模型,分別是2.7億、4.5億、11億和30億參數(shù)。
3. 功能: 該模型能夠執(zhí)行生成文本、代碼、翻譯、總結(jié)摘要等功能。
4. 預(yù)訓(xùn)練數(shù)據(jù): 盡管最小的模型只有2.7億參數(shù),但蘋(píng)果使用了1.8萬(wàn)億tokens的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這是其小參數(shù)下仍能表現(xiàn)出色的原因之一。
5. 深度神經(jīng)網(wǎng)絡(luò)庫(kù)CoreNet: 蘋(píng)果同時(shí)開(kāi)源了用于訓(xùn)練OpenELM的深度神經(jīng)網(wǎng)絡(luò)庫(kù)CoreNet,該庫(kù)在開(kāi)源后不久就在GitHub上獲得了超過(guò)1100個(gè)星標(biāo)。
6. 蘋(píng)果的開(kāi)源策略: 蘋(píng)果通常在手機(jī)領(lǐng)域采取閉源策略,但此次開(kāi)源可能是為了吸引用戶,未來(lái)可能會(huì)推出閉源產(chǎn)品實(shí)現(xiàn)商業(yè)化。
7. 技術(shù)貢獻(xiàn): 蘋(píng)果不僅發(fā)布了模型權(quán)重和推理代碼,還發(fā)布了完整的訓(xùn)練和評(píng)估框架,包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、微調(diào)和評(píng)估流程,以及多個(gè)預(yù)訓(xùn)練檢查點(diǎn)和訓(xùn)練日志。
8. OpenELM架構(gòu): OpenELM的架構(gòu),包括其技術(shù)創(chuàng)新點(diǎn),如無(wú)編碼器的transformer架構(gòu)、層級(jí)縮放策略、不使用全連接層中的可學(xué)習(xí)偏置參數(shù)等。
9. 訓(xùn)練流程與數(shù)據(jù)集: 蘋(píng)果使用CoreNet作為訓(xùn)練框架,Adam優(yōu)化算法,以及動(dòng)態(tài)分詞和數(shù)據(jù)過(guò)濾的方法。
開(kāi)源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com
CoreNet地址:https://github.com/apple/corenet?ref=maginative.com
論文地址:https://arxiv.org/abs/2404.14619