亚洲av成人无遮挡网站在线观看,日本国产免费自拍,国产欧美日韩久久va

【導(dǎo)讀】前幾天公布的LLM排行榜引發(fā)業(yè)內(nèi)人士廣泛討論，新模型Falcon在性能上真的能打過LLaMA嗎？符堯?qū)崪y來了！

前段時(shí)間，初出茅廬的獵鷹（Falcon）在LLM排行榜碾壓LLaMA，在整個(gè)社區(qū)激起千層浪。

但是，獵鷹真的比LLaMA好嗎？

簡短回答：可能不是。

符堯團(tuán)隊(duì)對(duì)模型做了更深入的測評(píng)：

「我們在MMLU上復(fù)現(xiàn)了LLaMA 65B的評(píng)估，得到了61.4的分?jǐn)?shù)，接近官方分?jǐn)?shù)（63.4），遠(yuǎn)高于其在Open LLM Leaderboard上的分?jǐn)?shù)（48.8），而且明顯高于獵鷹（52.7）?！?/p>

沒有花哨的提示工程，沒有花哨的解碼，一切都是默認(rèn)設(shè)置。

目前，Github上已經(jīng)公開了代碼和測試方法。

對(duì)于獵鷹超越LLaMA存疑，LeCun表態(tài)，測試腳本的問題...

LLaMA真·實(shí)力

目前在OpenLLM排行榜上，F(xiàn)alcon位列第一，超過了LLaMA，得到了包括Thomas Wolf在內(nèi)的研究人員的力薦。

然而，有些人對(duì)此表示疑慮。

先是一位網(wǎng)友質(zhì)疑，LLaMA這些數(shù)字從哪來，看起來與論文數(shù)字不一致...

隨后，OpenAI科學(xué)家Andrej Karpathy也對(duì)LLaMA 65B為什么在Open LLM排行榜上的分?jǐn)?shù)明顯低于官方（48.8 v.s. 63.4）表示關(guān)注。

并發(fā)文，到目前為止，我一直避免在推特上發(fā)表關(guān)于獵鷹的文章，因?yàn)檫@一點(diǎn)，不確定。

為了弄清楚這個(gè)問題，符堯和團(tuán)隊(duì)成員決定對(duì)LLaMA 65B進(jìn)行一次公開的測試，結(jié)果得到61.4分。

在測試中，研究者沒有使用任何特殊機(jī)制，LLaMA 65B就能拿到這個(gè)分?jǐn)?shù)。

這一結(jié)果恰恰證明了，如果想要模型實(shí)現(xiàn)接近GPT-3.5的水平，最好是在LLaMA 65B上使用RLHF。

根據(jù)就是，近來符堯團(tuán)隊(duì)發(fā)表的一篇Chain-of-Thought Hub論文的發(fā)現(xiàn)。

當(dāng)然，符堯表示，他們這一測評(píng)并非想要引起LLaMA和Falcon之間的爭端，畢竟這些都是偉大的開源模型，都為這個(gè)領(lǐng)域做出了重大的貢獻(xiàn)！

另外，F(xiàn)alcon還有更加方便的使用許可，這也讓它有很大的發(fā)展?jié)摿Α?/p>

對(duì)于這一最新測評(píng)，網(wǎng)友BlancheMinerva指出，公平的比較應(yīng)該在默認(rèn)設(shè)置下運(yùn)行獵鷹（Falcon）在MMLU上。

對(duì)此，符堯稱這是正確的，并正進(jìn)行這項(xiàng)工作，預(yù)計(jì)在一天后可以得到結(jié)果。

不管最終的結(jié)果怎樣，要知道GPT-4這座山峰才是開源社區(qū)真正想要追求的目標(biāo)。

OpenLLM排行榜問題

來自Meta的研究人員稱贊，符堯很好地再現(xiàn)了LLaMa的結(jié)果，并指出了OpenLLM排行榜的問題。

與此同時(shí)，他還分享了關(guān)于OpenLLM排行榜的一些問題。

首先，MMLU的結(jié)果：LLaMa 65B MMLU結(jié)果在排行榜上是15分，但對(duì)7B模型來說是一樣的。13B、30B模型也存在較小的性能差距。

OpenLLM真的需要在公布哪個(gè)模型是最好的之前看看這個(gè)。

基準(zhǔn)：這些基準(zhǔn)是如何選擇的？

ARC 25 shot和Hellaswag 10 shot似乎與LLM并不特別相關(guān)。如果能在其中加入一些生成式基準(zhǔn)就更好了。雖然生成式基準(zhǔn)有其局限性，但它們?nèi)匀皇怯杏玫摹?/p>

單一平均分：將結(jié)果減少到單一分?jǐn)?shù)總是很吸引人的，平均分是最容易的。

但在這種情況下，4個(gè)基準(zhǔn)的平均值真的有用嗎？在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎？

在LLM快速迭代的世界里，開發(fā)這樣一個(gè)排行榜肯定有一定的價(jià)值。

還有來自谷歌研究人員Lucas Beyer也發(fā)表了自己的觀點(diǎn)，

瘋狂的是，NLP研究人員對(duì)同一個(gè)基準(zhǔn)有不同的理解，因此導(dǎo)致了完全不同的結(jié)果。同時(shí)，每當(dāng)我的同事實(shí)現(xiàn)一個(gè)指標(biāo)時(shí)，我都會(huì)立即問他們是否真的檢查將官方代碼的完美重現(xiàn)，如果沒有，就放棄他們的結(jié)果。

另外，他還表示，據(jù)我所知，無論模型如何，它實(shí)際上都不會(huì)重現(xiàn)原始基準(zhǔn)測試的結(jié)果。

網(wǎng)友附和道，這就是LLM基準(zhǔn)的現(xiàn)實(shí)...

Falcon——開源、可商用、性能強(qiáng)

說到Falcon，其實(shí)值得我們再好好回顧一下。

按LeCun的說法，大模型時(shí)代，開源最重要。

而在Meta的LLaMA代碼遭泄之后，各路開發(fā)者都開始躍躍欲試。

Falcon正是由阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所（TII）開發(fā)的一支奇兵。

剛發(fā)布時(shí)從性能上看，F(xiàn)alcon比LLaMA的表現(xiàn)更好。

目前，「Falcon」有三個(gè)版本——1B、7B和40B。

TII表示，F(xiàn)alcon迄今為止最強(qiáng)大的開源語言模型。其最大的版本，F(xiàn)alcon 40B，擁有400億參數(shù)，相對(duì)于擁有650億參數(shù)的LLaMA來說，規(guī)模上還是小了一點(diǎn)。

不過，此前TII曾表示，別看咱Falcon規(guī)模雖小，性能卻很能打。

先進(jìn)技術(shù)研究委員會(huì)(ATRC)秘書長Faisal Al Bannai認(rèn)為，「Falcon」的發(fā)布將打破LLM的獲取方式，并讓研究人員和創(chuàng)業(yè)者能夠以此提出最具創(chuàng)新性的使用案例。

FalconLM的兩個(gè)版本，F(xiàn)alcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名，而Meta的LLaMA則位于第三。

而前文所講的有關(guān)排行榜的問題也正是這個(gè)。

盡管「Falcon」的論文目前還沒公開發(fā)布，但Falcon 40B已經(jīng)在經(jīng)過精心篩選的1萬億token網(wǎng)絡(luò)數(shù)據(jù)集的上進(jìn)行了大量訓(xùn)練。

研究人員曾透露，「Falcon」在訓(xùn)練過程非常重視在大規(guī)模數(shù)據(jù)上實(shí)現(xiàn)高性能的重要性。

我們都知道的是，LLM對(duì)訓(xùn)練數(shù)據(jù)的質(zhì)量非常敏感，這就是為什么研究人員會(huì)花大量的精力構(gòu)建一個(gè)能夠在數(shù)萬個(gè)CPU核心上進(jìn)行高效處理的數(shù)據(jù)管道。

目的就是，在過濾和去重的基礎(chǔ)上從網(wǎng)絡(luò)中提取高質(zhì)量的內(nèi)容。

目前，TII已經(jīng)發(fā)布了精煉的網(wǎng)絡(luò)數(shù)據(jù)集，這是一個(gè)經(jīng)過精心過濾和去重的數(shù)據(jù)集。實(shí)踐證明，非常有效。

僅用這個(gè)數(shù)據(jù)集訓(xùn)練的模型可以和其它LLM打個(gè)平手，甚至在性能上超過他們。這展示出了「Falcon」卓越的質(zhì)量和影響力。

此外，F(xiàn)alcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語，并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發(fā)布后，第二個(gè)真正開源的模型。

另外，還有一點(diǎn)非常重要——Falcon是目前唯一的可以免費(fèi)商用的開源模型。

在早期，TII要求，商業(yè)用途使用Falcon，如果產(chǎn)生了超過100萬美元以上的可歸因收入，將會(huì)收取10%的「使用稅」。

可是財(cái)大氣粗的中東土豪們沒過多長時(shí)間就取消了這個(gè)限制。

至少到目前為止，所有對(duì)Falcon的商業(yè)化使用和微調(diào)都不會(huì)收取任何費(fèi)用。

土豪們表示，現(xiàn)在暫時(shí)不需要通過這個(gè)模型掙錢。

而且，TII還在全球征集商用化方案。

對(duì)于有潛力的科研和商業(yè)化方案，他們還會(huì)提供更多的「訓(xùn)練算力支持」，或者提供進(jìn)一步的商業(yè)化機(jī)會(huì)。

這簡直就是在說：只要項(xiàng)目好，模型免費(fèi)用！算力管夠！錢不夠我們還能給你湊！

對(duì)于初創(chuàng)企業(yè)來說，這簡直就是來自中東土豪的「AI大模型創(chuàng)業(yè)一站式解決方案」。

根據(jù)開發(fā)團(tuán)隊(duì)稱，F(xiàn)alconLM 競爭優(yōu)勢的一個(gè)重要方面是訓(xùn)練數(shù)據(jù)的選擇。

研究團(tuán)隊(duì)開發(fā)了一個(gè)從公共爬網(wǎng)數(shù)據(jù)集中提取高質(zhì)量數(shù)據(jù)并刪除重復(fù)數(shù)據(jù)的流程。

在徹底清理多余重復(fù)內(nèi)容后，保留了 5 萬億的token——足以訓(xùn)練強(qiáng)大的語言模型。

40B的Falcon LM使用1萬億個(gè)token進(jìn)行訓(xùn)練， 7B版本的模型訓(xùn)練token達(dá)到 1.5 萬億。

（研究團(tuán)隊(duì)的目標(biāo)是使用RefinedWeb數(shù)據(jù)集從Common Crawl中僅過濾出質(zhì)量最高的原始數(shù)據(jù)）

此外，F(xiàn)alcon的訓(xùn)練成本相對(duì)來說更加可控。

TII稱，與GPT-3相比，F(xiàn)alcon在只使用75%的訓(xùn)練計(jì)算預(yù)算的情況下，就實(shí)現(xiàn)了顯著的性能提升。

而且在推斷（Inference）時(shí)只需要只需要20%的計(jì)算時(shí)間，成功實(shí)現(xiàn)了計(jì)算資源的高效利用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3121

瀏覽量
48663
代碼

代碼

+關(guān)注

關(guān)注
30

文章
4727

瀏覽量
68248
GitHub

GitHub

+關(guān)注

關(guān)注
3

文章
465

瀏覽量
16361

原文標(biāo)題：擊敗LLaMA？史上最強(qiáng)「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉(zhuǎn)贊

文章出處：【微信號(hào)：AI智勝未來，微信公眾號(hào)：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

Llama 3 的未來發(fā)展趨勢

在科技迅猛發(fā)展的今天，人工智能和機(jī)器學(xué)習(xí)已經(jīng)成為推動(dòng)社會(huì)進(jìn)步的重要力量。Llama 3，作為一個(gè)劃時(shí)代的產(chǎn)品，正以其獨(dú)特的設(shè)計(jì)理念和卓越的性能，預(yù)示著未來科技的新方向。一、Llama 3的核心

發(fā)表于 10-27 14:44 ?297次閱讀

如何使用 Llama 3 進(jìn)行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進(jìn)行文本生成，可以通過以下幾種方式實(shí)現(xiàn)，取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API

發(fā)表于 10-27 14:21 ?199次閱讀

Llama 3 語言模型應(yīng)用

在人工智能領(lǐng)域，語言模型的發(fā)展一直是研究的熱點(diǎn)。隨著技術(shù)的不斷進(jìn)步，我們見證了從簡單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。一、Llama 3 語言模型的核心功能上下文理解：Llama 3 能夠

發(fā)表于 10-27 14:15 ?214次閱讀

調(diào)用云數(shù)據(jù)庫更新排行榜單

籍）。互動(dòng)設(shè)計(jì) 點(diǎn)贊和評(píng)論：用戶可以對(duì)排行榜中的項(xiàng)目進(jìn)行點(diǎn)贊或評(píng)論。投票機(jī)制：用戶可以參與投票，影響排行榜的排名。潛在價(jià)值提升用戶的參與感和互動(dòng)性。增強(qiáng)社交平臺(tái)的內(nèi)容活躍度，

發(fā)表于 09-03 16:03

Meta Llama 3.1系列模型可在Google Cloud上使用

我們很高興宣布，Llama 3.1 系列模型已添加到 Vertex AI Model Garden，這包括全新的 405B，即 Meta 迄今為止功能最強(qiáng)大、用途最廣泛的模型。這些模型的添加，表明

發(fā)表于 08-02 15:42 ?341次閱讀

如何將Llama3.1模型部署在英特爾酷睿Ultra處理器

本文從搭建環(huán)境開始，一步一步幫助讀者實(shí)現(xiàn)只用五行代碼便可將Llama3.1模型部署在英特爾酷睿 Ultra 處理器上。

發(fā)表于 07-26 09:51 ?1910次閱讀

如何將<b class='flag-5'>Llama</b>3.1模型部署在英特爾酷睿Ultra處理器

PerfXCloud平臺(tái)成功接入Meta Llama3.1

近日，Meta對(duì)外宣布推出迄今為止最強(qiáng)大的開源模型——Llama3.1 405B，同時(shí)還發(fā)布了全新優(yōu)化升級(jí)的70B和8B版本，技術(shù)革新的浪潮再次洶涌來襲！在此，我們滿懷欣喜地向您宣告，PerfXCloud平臺(tái)現(xiàn)已成功接入Llama

發(fā)表于 07-25 10:26 ?576次閱讀

Llama 3 王者歸來，Airbox 率先支持部署

模型。無論是在代碼生成、復(fù)雜推理，還是在遵循指令和可視化想法方面，Llama3都實(shí)現(xiàn)了全面領(lǐng)先。該模型在以下五個(gè)基準(zhǔn)測試中均表現(xiàn)出色：MMLU（學(xué)科知識(shí)理解）GP

發(fā)表于 04-22 08:33 ?575次閱讀

百度智能云國內(nèi)首家支持Llama3全系列訓(xùn)練推理！

4月18日，Meta 正式發(fā)布 Llama 3，包括8B 和 70B 參數(shù)的大模型，官方號(hào)稱有史以來最強(qiáng)大的開源大模型。

發(fā)表于 04-20 09:20 ?364次閱讀

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platforms（META.US）推出了開源AI大模型“Llama”的最新升級(jí)版本“Llama

發(fā)表于 04-19 17:00 ?791次閱讀

中穎電子入選Fabless 100排行榜TOP10微控制器公司榜單

中穎電子入選 AspenCore 2024中國IC設(shè)計(jì)Fabless 100排行榜TOP10微控制器公司榜單

發(fā)表于 04-01 14:12 ?504次閱讀

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 發(fā)布的 LLaMA 2，是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本，并且具有商業(yè)許可證。

發(fā)表于 02-21 16:00 ?916次閱讀

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優(yōu)秀的模型”。這一更新標(biāo)志著Meta在AI代碼生成領(lǐng)域的持續(xù)創(chuàng)新和進(jìn)步。

發(fā)表于 01-30 18:21 ?1360次閱讀

Meta推出“性能最優(yōu)”代碼生成AI模型Code Llama 70B

據(jù)悉，Code Llama工具于去年8月份上線，面向公眾開放且完全免費(fèi)。此次更新的Code Llama 70B不僅能處理更多復(fù)雜查詢，其在HumanEval基準(zhǔn)測試中的準(zhǔn)確率高達(dá)53%，超越GPT-3.5的48.1%，然而與OpenAI公布的GPT-4準(zhǔn)確率（67%）仍有

發(fā)表于 01-30 10:36 ?718次閱讀

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

/ggerganov/llama.cpp 首先需要訪問外網(wǎng)速度較快的網(wǎng)絡(luò)環(huán)境，打開終端，cd到一個(gè)空間較為充足的分區(qū)目錄中，執(zhí)行以下命令拉取代碼~ git clone https://github.com/ggerganov/llama

發(fā)表于 12-22 10:18

搜索歷史

擊敗LLaMA？史上最強(qiáng)「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉(zhuǎn)贊

評(píng)論

Llama 3 的未來發(fā)展趨勢

如何使用 Llama 3 進(jìn)行文本生成

Llama 3 語言模型應(yīng)用

調(diào)用云數(shù)據(jù)庫更新排行榜單

Meta Llama 3.1系列模型可在Google Cloud上使用

如何將Llama3.1模型部署在英特爾酷睿Ultra處理器

PerfXCloud平臺(tái)成功接入Meta Llama3.1

Llama 3 王者歸來，Airbox 率先支持部署

百度智能云國內(nèi)首家支持Llama3全系列訓(xùn)練推理！

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

中穎電子入選Fabless 100排行榜TOP10微控制器公司榜單

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta推出最新版AI代碼生成模型Code Llama70B

Meta推出“性能最優(yōu)”代碼生成AI模型Code Llama 70B

【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

搜索歷史

擊敗LLaMA？史上最強(qiáng)「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉(zhuǎn)贊

評(píng)論

擊敗LLaMA？史上最強(qiáng)「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉(zhuǎn)贊