免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

重磅，Meta開源“次世代”大模型Llama 2，扎克伯格：免費(fèi)可商用

用戶投稿 ? 2023年7月19日 18:14 ? 熱點(diǎn)

今日凌晨，就在我們還在睡夢(mèng)中時(shí)，大洋彼岸的meta干了一件大事:發(fā)布免費(fèi)可商用版本Llama2。

Llama2是Llama1大模型的延續(xù)，在數(shù)據(jù)質(zhì)量、訓(xùn)練技術(shù)、能力評(píng)估、安全訓(xùn)練和負(fù)責(zé)任的發(fā)布方面有實(shí)質(zhì)性的技術(shù)進(jìn)步。

在研究共享意愿歷史最低，監(jiān)管困境歷史最高點(diǎn)的當(dāng)今AI時(shí)代，meta這一步無疑為大模型生態(tài)系統(tǒng)帶來了重大進(jìn)展。

從技術(shù)報(bào)告上看，Llama2的基礎(chǔ)模型比GPT3更強(qiáng)，而微調(diào)后聊天模型則能ChatGPT匹敵。相信后續(xù)Llama2將幫助企業(yè)實(shí)現(xiàn)更多的定制化和降低成本的產(chǎn)品。

以下是扎克伯格在Facebook上發(fā)布的關(guān)于Llama2的“宣言”，更是將其稱之為大模型的次世代的產(chǎn)品:

我們正在與微軟合作，推出Llama2，這是我們開源大語言模型的下一代產(chǎn)品。Llama2將免費(fèi)提供給研究者和商業(yè)使用者。

meta一直投身于開源事業(yè)，從領(lǐng)先的機(jī)器學(xué)習(xí)框架PyTorch，到像Segment Anything，ImageBind和Dino這樣的模型，再到作為Open Compute Project部分的AI基礎(chǔ)設(shè)施。我們一直在推進(jìn)整個(gè)行業(yè)的進(jìn)步，構(gòu)建更好的產(chǎn)品。

開源推動(dòng)了創(chuàng)新，因?yàn)樗尭嗟拈_發(fā)者能夠使用新技術(shù)。同時(shí)，軟件開源，意味著更多的人可以審查它，識(shí)別并修復(fù)可能的問題，從而提高了安全性。我相信如果生態(tài)系統(tǒng)更加開放，將會(huì)釋放更多的進(jìn)步，這就是我們?yōu)槭裁匆_源Llama2。

今天，我們發(fā)布了預(yù)訓(xùn)練和微調(diào)的模型Llama2，參數(shù)分別為70億，130億和700億。Llama2比Llama1預(yù)訓(xùn)練的數(shù)據(jù)多40%，并對(duì)其架構(gòu)進(jìn)行了改進(jìn)。對(duì)于微調(diào)模型，我們收集了超百萬的人類注釋樣本，并應(yīng)用了有監(jiān)督的微調(diào)和RLHF，在安全性和質(zhì)量方面是領(lǐng)先的。

你可以直接下載這些模型，或者通過Azure以及微軟的安全和內(nèi)容工具訪問這些模型。我們還提供一個(gè)優(yōu)化版本，支持Windows本地運(yùn)行。

我非常期待看到你們的創(chuàng)新成果!

對(duì)于Llama2的出現(xiàn)和發(fā)布，深度學(xué)習(xí)三巨頭之一的Yann LeCun表示，這將改變大模型的市場(chǎng)格局。

有網(wǎng)友很快就向meta發(fā)送了申請(qǐng)，并在幾個(gè)小時(shí)內(nèi)獲得了許可，已經(jīng)在應(yīng)用了:

OpenLLM大模型排行榜對(duì)Llama2進(jìn)行了關(guān)于“Eleuther AI Language Model evaluation Harness” 中的4個(gè)關(guān)鍵基準(zhǔn)的評(píng)估:

其中，Llama-2-70b獲得了平均分、科學(xué)問題ARC、常識(shí)推理HellaSwag等指標(biāo)的第一名;文本多任務(wù)準(zhǔn)確性MMLU指標(biāo)被基于Llama-30B 的微調(diào)模型Platypus-30B超過;生成問題答案真實(shí)性TruthfulQA （MC）指標(biāo)位列第8名。

論文地址:

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

項(xiàng)目地址:

https://github.com/facebookresearch/llama

Llama2的一些關(guān)鍵點(diǎn)aw的優(yōu)勢(shì)在哪?

meta發(fā)布了多個(gè)模型，包括7億，13億，34億，70億參數(shù)的Llama基礎(chǔ)模型，以及同等規(guī)模的Llama變體。meta將預(yù)訓(xùn)練語料庫的大小增加了40%，將模型的上下文長(zhǎng)度增加了一倍，并采用了分組查詢注意力機(jī)制（grouped-query attention）。

具體而言，有以下幾個(gè)關(guān)鍵點(diǎn):

能力:廣泛測(cè)試后，在非編碼方面，確定這是第一個(gè)能達(dá)到ChatGPT水平的開源模型。

代碼/數(shù)學(xué)/推理:論文中關(guān)于代碼數(shù)據(jù)的討論較少，但有一個(gè)模型在某些評(píng)價(jià)中超越了其他模型。

多輪一致性:采用了新的方法，Ghost Attention （GAtt），以改善模型的多輪對(duì)話一致性。

獎(jiǎng)勵(lì)模型:為避免安全性和有用性的權(quán)衡，采用了兩個(gè)獎(jiǎng)勵(lì)模型。

RLHF過程:采用了兩階段的RLHF方法，強(qiáng)調(diào)了RLHF對(duì)模型寫作能力的重要影響。

安全性/傷害評(píng)估:進(jìn)行了詳盡的安全評(píng)估，并采用了特定的方法以增強(qiáng)模型的安全性。

許可證:模型可供商業(yè)使用，但有一定的用戶數(shù)量限制，也即日活大于7億的產(chǎn)品需要單獨(dú)申請(qǐng)商用權(quán)限。

Llama2的技術(shù)細(xì)節(jié)

Huggingface科學(xué)家Nathan Lambert在一篇博客也對(duì)Llama2的技術(shù)報(bào)告進(jìn)行了解析。

這個(gè)模型（Llama2）與原始的Llama在結(jié)構(gòu)上相似，主要的改變?cè)谟跀?shù)據(jù)和訓(xùn)練過程，以及增加了上下文長(zhǎng)度和分組查詢注意力(GQA)，且在聊天功能的應(yīng)用性和推理速度方面有所提高。

訓(xùn)練語料庫來自公開資源，不包含meta的產(chǎn)品或服務(wù)的數(shù)據(jù)。模型在2萬億個(gè)數(shù)據(jù)標(biāo)記（Token）上訓(xùn)練，以提高性能并減少錯(cuò)誤，并盡力刪除含有大量私人信息的數(shù)據(jù)。

論文大部分關(guān)于評(píng)估和微調(diào)，而非創(chuàng)建基礎(chǔ)模型。

論文接著遵循RLHF流程，訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型并使用強(qiáng)化學(xué)習(xí)（RL）進(jìn)行優(yōu)化。

此外，技術(shù)報(bào)告也證實(shí)了一點(diǎn)，獎(jiǎng)勵(lì)模型是RLHF的關(guān)鍵，也是模型的關(guān)鍵。為了得到一個(gè)好的獎(jiǎng)勵(lì)模型，meta收集了大量偏好數(shù)據(jù)，這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過了開源社區(qū)正在使用的數(shù)據(jù)。

meta收集二元對(duì)比數(shù)據(jù)，而非其他更復(fù)雜類型的反饋。這類似于1-8的Likert量表，但更側(cè)重于質(zhì)性評(píng)價(jià)如“顯著優(yōu)于、優(yōu)于、稍優(yōu)于或差不多/不確定”。

他們使用多輪次偏好，模型的響應(yīng)來自不同的模型訓(xùn)練階段;meta的關(guān)注點(diǎn)更在于有用性和安全性，而不是誠實(shí)度（honesty），在每個(gè)數(shù)據(jù)供應(yīng)商的數(shù)據(jù)收集階段使用不同的指令。

此外，在數(shù)據(jù)收集過程中，團(tuán)隊(duì)添加了額外的安全元數(shù)據(jù)，顯示每一輪模型的哪些響應(yīng)是安全的。在建模階段，他們排除了所有“選擇的響應(yīng)不安全而其他響應(yīng)安全”的例子，因?yàn)樗麄冋J(rèn)為更安全的響應(yīng)會(huì)更受人類喜歡。

獎(jiǎng)勵(lì)模型

研究人員訓(xùn)練了兩個(gè)獎(jiǎng)勵(lì)模型，一個(gè)專注于有益性，另一個(gè)專注于安全性。這些模型基于語言模型構(gòu)建，用線性回歸層替換了原模型頭部。他們始終使用最新的聊天模型，目的是為了減少在RLHF訓(xùn)練中的分布不匹配。

一些關(guān)鍵的技術(shù)細(xì)節(jié)包括:

起始獎(jiǎng)勵(lì)模型基于開源數(shù)據(jù)訓(xùn)練，并用于生成早期供應(yīng)商數(shù)據(jù)。

他們保留了一些Anthropic的無害數(shù)據(jù)（占他們自己的90%），但沒有給出具體原因。

他們只訓(xùn)練一個(gè)epoch，防止獎(jiǎng)勵(lì)模型過擬合。

獎(jiǎng)勵(lì)模型的平均準(zhǔn)確率在65-70%范圍內(nèi)，但在”顯著不同”的標(biāo)簽上，準(zhǔn)確率達(dá)到80-90%。

其他有趣的發(fā)現(xiàn):

在獎(jiǎng)勵(lì)模型的損失函數(shù)中添加了一個(gè)margin項(xiàng)（與偏好的置信度成比例），以提高有益性。

隨著模型的訓(xùn)練和改進(jìn)，數(shù)據(jù)對(duì)模型輸出的一致性評(píng)價(jià)越來越高

訓(xùn)練的獎(jiǎng)勵(lì)模型在評(píng)估中表現(xiàn)優(yōu)于使用GPT-4生成的獎(jiǎng)勵(lì)模型提示。

圖表顯示，獎(jiǎng)勵(lì)模型的準(zhǔn)確性隨著時(shí)間的推移有所提高。值得注意的是，盡管OpenAssistant獎(jiǎng)勵(lì)模型可能沒有得到高度認(rèn)可，但是GPT-4作為獎(jiǎng)勵(lì)模型的性能表現(xiàn)為其他模型提供了基準(zhǔn)。

meta在討論微調(diào)結(jié)果時(shí)提到，獎(jiǎng)勵(lì)模型的準(zhǔn)確性是Llama2-Chat性能的關(guān)鍵指標(biāo)。這符合人們對(duì)RLHF會(huì)充分利用獎(jiǎng)勵(lì)模型知識(shí)的理解。

RLHF和微調(diào)

meta通過使用RLHF方法來提升模型性能，如下圖所示使用最優(yōu)秀的獎(jiǎng)勵(lì)模型來評(píng)估各種模型，以此展示RLHF如何將生成的文本推向更高的獎(jiǎng)勵(lì)。meta迭代訓(xùn)練了5個(gè)RLHF版本，每個(gè)版本的數(shù)據(jù)分布都有所改進(jìn)。

meta指出，第三方的SFT（有監(jiān)督微調(diào)）數(shù)據(jù)多樣性和質(zhì)量往往不足以滿足對(duì)話式指令的LLM對(duì)齊需求。meta通過篩選第三方數(shù)據(jù)集中的高質(zhì)量示例，顯著提高了結(jié)果。他們也強(qiáng)調(diào)了注釋數(shù)據(jù)的數(shù)量對(duì)于再現(xiàn)性的重要性。

meta觀察到，不同的注釋平臺(tái)和供應(yīng)商可能會(huì)導(dǎo)致模型性能的顯著差異，因此在使用供應(yīng)商獲取注釋時(shí)，數(shù)據(jù)檢查仍然非常重要。他們的做法是通過對(duì)比人類注釋和模型生成的樣本來驗(yàn)證數(shù)據(jù)質(zhì)量。

在數(shù)據(jù)質(zhì)量確立之后，meta開始關(guān)注強(qiáng)化學(xué)習(xí)（RL）部分。他們發(fā)現(xiàn)，即使有熟練的注釋員，每個(gè)人的寫作風(fēng)格也會(huì)有很大的差異。一個(gè)在SFT注釋上進(jìn)行微調(diào)的模型會(huì)學(xué)習(xí)這種多樣性，但同時(shí)也會(huì)學(xué)習(xí)到一些糟糕的注釋。他們指出，模型的性能是由技巧最好的注釋者的寫作能力來限制的。

meta確實(shí)承認(rèn)，這個(gè)過程需要大量的計(jì)算和注釋資源。在整個(gè)RLHF階段，獎(jiǎng)勵(lì)建模數(shù)據(jù)對(duì)于模型改進(jìn)至關(guān)重要。

結(jié)論是，有效的RLHF需要一個(gè)中等大小的團(tuán)隊(duì)。雖然一個(gè)1-3人的團(tuán)隊(duì)可以發(fā)布一個(gè)好的指令模型，但實(shí)行RLHF可能需要至少6-10人。這個(gè)數(shù)字會(huì)隨著時(shí)間的推移而減小，但這種類型的工作需要與外部公司簽訂合同和保持緊密的聯(lián)系，這總是會(huì)耗費(fèi)一些時(shí)間。

此外，meta對(duì)比了方法間的基本差異以及它們的使用時(shí)機(jī):

拒絕抽樣（RS）進(jìn)行更廣泛的搜索(每個(gè)提示生成更多的數(shù)據(jù))，而PPO則對(duì)獎(jiǎng)勵(lì)模型進(jìn)行更多的更新。

最終方法之間的差異并不顯著（與WebGPT的發(fā)現(xiàn)相似）。

在RLHFV4中，僅使用了拒絕抽樣，然后在最后一步中使用PPO和拒絕抽樣進(jìn)行微調(diào)（在一些評(píng)估中，PPO有輕微的優(yōu)勢(shì)）。

評(píng)估

論文以多種方式評(píng)估他們的模型。在自動(dòng)化基準(zhǔn)測(cè)試中，例如Open LLM Leaderboard（MMLU，ARC等）的首字母縮略詞，Llama2在所有規(guī)模上都比其他任何開源模型要好得多。

模型在諸如MMLU這樣的不那么顯眼的基準(zhǔn)測(cè)試中也得分更高，這是因?yàn)樗麄兊拇罅繑?shù)據(jù)工作和RLHF的調(diào)整。然而，他們的模型在與閉源模型的比較中并未表現(xiàn)出色。

此外，論文還深入研究了當(dāng)前流行的評(píng)估技術(shù)，人類注釋者和LLM-as-a-judge由于其普遍性和可用性而受到歡迎。盡管人類評(píng)估可能受到一些限制和主觀性的影響，但結(jié)果顯示了meta在開源領(lǐng)域的主導(dǎo)地位。

他們采用了模型作為評(píng)判的技術(shù)，并用Elo圖展示了RLHF這個(gè)隨時(shí)間變化的概念，這與Anthropic的AI工作類似。在性能上，他們的模型在RLHFv3之后超過了ChatGPT，這可以在圖中看到PPO方法提供了一定的提升:

這篇論文進(jìn)行了多項(xiàng)評(píng)估以展示其一般性能力，包括建立獎(jiǎng)勵(lì)模型。獎(jiǎng)勵(lì)模型的測(cè)試亮點(diǎn):

調(diào)整獎(jiǎng)勵(lì)模型分?jǐn)?shù)以適應(yīng)人類評(píng)價(jià)者的偏好評(píng)估，盡管誤差范圍較大。

與在開源數(shù)據(jù)集上訓(xùn)練的獎(jiǎng)勵(lì)模型進(jìn)行比較，以展示開源領(lǐng)域的可能實(shí)現(xiàn)。

人類/模型評(píng)估的亮點(diǎn):

在ChatGPT和Llama-2-Chat的輸出上評(píng)估模型，避免模型因風(fēng)格偏好而提高自身結(jié)果。

利用評(píng)價(jià)者間可靠性度量，如Gwet的AC1/2，這些統(tǒng)計(jì)工具為此項(xiàng)工作專門設(shè)計(jì)。

承認(rèn)人類評(píng)估的限制，包括大型評(píng)估提示集未覆蓋所有實(shí)際應(yīng)用，缺少對(duì)編碼/推理的評(píng)估，只評(píng)估最后的對(duì)話輪次。

最后，附上Llama2的在線測(cè)試地址:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI?continueFlag=749dd0fc30bb1d0718aaa9576af51980

參考文獻(xiàn)

Llama 2 was just announced, so I built an app for everyone to test it out, for free! ?
Built with @replit and @replicatehq .
I really like this model so far, especially for reasoning.
Thanks @ylecun pic.twitter.com/mIU6JmFBST
— Pietro Schirano (@skirano) July 18, 2023

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

https://www.interconnects.ai/p/llama-2-from-meta?utm_source=profile&utm_medium=reader2

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場(chǎng)，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

更強(qiáng)的Llama 2開源，可直接商用：一夜之間，大模型格局變了

上一篇 2023年7月19日 18:14

英偉達(dá)加速人工智能初創(chuàng)公司投資接近與云服務(wù)公司 Lambda Labs 達(dá)成股權(quán)交易

下一篇 2023年7月19日 18:14

猶如迎面而來的光束里微微的塵是什么歌
最近一段時(shí)間經(jīng)?？梢凿痰姜q如迎面而來的光束里這句歌詞，不少小伙伴都想知道歌名，那么微微的塵是猶如迎面而來的光束里微微的塵是什么歌？下面小編為大家?guī)愍q如迎面而來的光束里微微的塵歌名…
2023年5月6日
0
安卓14終于更新：更更更絲滑了
安卓系統(tǒng)迎來大更新，谷歌推送了Android 14 Beta3版本，新版本在穩(wěn)定性和流暢性方面有更好的表現(xiàn)。目前Pixel4a及之后的Pixel機(jī)型都可以更新到這個(gè)版本。按照官方…
2023年6月8日
0
連花清咳片可以治療新冠咳嗽嗎？
隨著當(dāng)前疫情防控工作的優(yōu)化調(diào)整,多地允許新冠病毒陽性患者居家治療,居家備好新冠治療用藥成為大家關(guān)注的話題。近日榮獲中國家庭常備藥(祛痰止咳藥)上榜品牌的連花清咳片,是很多家庭的常備…
2022年12月26日
0
(刷機(jī))ilove3d–48P–2nd (已是最終完美)(刷機(jī)包+源碼文件+說明+工具)(轉(zhuǎn)載)
　　【刷機(jī)】ilove3d–48P–2nd (已是最終完美)(刷機(jī)包+源碼文件+說明+工具) 　　3D已經(jīng)說了很多~~所以我也沒什么說的~~ 　　至于功能嘛…
2022年5月26日
0
李靜又想動(dòng)口不動(dòng)手，被戴軍當(dāng)場(chǎng)懟回去了
李靜在《青春旅社》里給人的感覺，好像總是在擺老資格，很能說卻不怎么做。之前重新選店長(zhǎng)后，挑選店員的時(shí)候，李小璐和王源都沒有先挑她，最后李小璐選了她，李靜問李小璐給安排什么活，李小璐…
2022年5月28日
0
鐘南山提出8條個(gè)人防護(hù)建議(鐘南山提出8條個(gè)人防護(hù)建議心得體會(huì))
最近一段時(shí)間隨著多地陸續(xù)放開，大家都非常關(guān)注新冠預(yù)防和治療相關(guān)信息，感染新冠后要怎么做？什么情況要去醫(yī)院？需要囤藥嗎？對(duì)此鐘南山在全國高?？挂叽笾v堂上提出8條個(gè)人防護(hù)建議，那么具體…
2022年12月20日
0
沖進(jìn)球場(chǎng)擁抱梅西的球迷被拘留，不是冤枉的！
先表明我的觀點(diǎn)：不支持！也許是因?yàn)槲夷昙o(jì)大了，思想保守，腦子里規(guī)矩太多了。雖然我承認(rèn)這名球迷是真脾氣，但他愛足球，愛梅西，是真愛，被保安抬走后，臉上還洋溢著滿足和幸福，但這種自由…
2023年7月6日
0
蘋果員工需1400余年：才能掙得CEO庫克年薪
快科技11月26日消息，近日，市場(chǎng)調(diào)查機(jī)構(gòu)Switch on Business發(fā)布了企業(yè)CEO與員工薪酬差距報(bào)告，報(bào)告顯示蘋果CEO庫克的年薪為員工平均年薪的1446.6倍。什么…
2023年11月27日
0
請(qǐng)問醬紫是什么意思
簡(jiǎn)要回答醬紫是個(gè)網(wǎng)絡(luò)流行用語，意思是“這樣子”，網(wǎng)絡(luò)當(dāng)中的“醬紫”開始是個(gè)錯(cuò)別字，只是使用的人多了，該詞匯也就流行起來了。在網(wǎng)絡(luò)上，經(jīng)常會(huì)聽到網(wǎng)友提起醬紫這兩個(gè)字，究竟醬紫是什…
2022年12月2日
0
吳宗憲大女兒吳姍儒確診新冠工作緊急喊停
　　據(jù)韓媒報(bào)道稱，吳宗憲的大女兒吳姍儒確診新冠肺炎，近期工作全部緊急喊停。　　臺(tái)媒公開吳姍儒確診新冠的消息之后，吳姍儒身邊的工作人員也證實(shí)了此事，并且表示吳姍儒最近的工作都暫停了…
2022年5月9日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<dfn id="cmkv3"></dfn>