免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      誰在“吊打”ChatGPT?

      本文轉(zhuǎn)載自:定焦(ID:dingjiaoone),作者:黎明,編輯:方展博。獵云網(wǎng)已獲授權(quán)。

      AI行業(yè)的“百模大戰(zhàn)”已經(jīng)打了大半年。從上半年的火熱,到下半年的漸冷,勝負難分。

      GPT成了國內(nèi)廠商的靶子。幾乎每家在發(fā)布大模型時,都要把GPT拉出來對比一波,而且他們總能找到一個指標把GPT超越——比如,中文能力。測評類的榜單太多了。從英文的MMLU,到中文的SuperCLUE,再到借鑒游戲排位賽機制的ChatbotArena,各種大模型榜單讓人眼花繚亂。

      很多時候,榜單上的排名成為廠商對外宣傳的工具。但奇怪的是,用戶在體驗后發(fā)現(xiàn),號稱超越ChatGPT的一些大模型產(chǎn)品,實際表現(xiàn)不盡如人意。各種不同的統(tǒng)計排名口徑,更是讓人感到迷惑。以至于“第一”太多,榜單都快不夠用了。

      比如最近,昆侖萬維開源「天工」系列大模型,號稱多榜超越Llama 2;李開復(fù)的零一萬物公司發(fā)布開源大模型“Yi”,“問鼎”全球多項榜單;vivo發(fā)布自研AI“藍心”大模型,是國內(nèi)“首家”開源7B大模型的手機廠商。

      如此之多的大模型,跑馬圈地這半年,大家做得怎么樣?我們又該如何評價孰優(yōu)孰劣?

      “刷榜”,大模型公開的秘密

      就像當(dāng)年手機廠商流行跑分打榜,現(xiàn)在的大模型廠商,也熱衷于沖上各種榜單。

      大模型相關(guān)的榜單很多,學(xué)術(shù)圈、產(chǎn)業(yè)界、媒體智庫、開源社區(qū),都在今年推出了各種各樣的評測榜單。這其中,國內(nèi)廠商常常引用的是SuperCLUE和C-Eval,這倆都由國人自己推出。

      5月6日科大訊飛發(fā)布星火認知大模型,三天后SuperCLUE發(fā)布榜單,星火排在國產(chǎn)第一;6月13日360集團發(fā)布360智腦大模型,六天后SuperCLUE更新榜單,360成了第一。再后來的7月、8月、9月、10月榜單,拿下國產(chǎn)第一的分別是百度、百川智能、商湯、vivo?!暗琼敗薄皧Z冠”“國內(nèi)第一”,出現(xiàn)在這些廠商的宣傳中。

      有好事者發(fā)現(xiàn),科大訊飛在5月9日“奪冠”時,SuperCLUE官網(wǎng)顯示的顧問成員中,排在最前面的那位,頭銜是哈工大訊飛聯(lián)合實驗室(HFL)資深級研究員。發(fā)榜第二天,這位專家的信息被官網(wǎng)刪除了。

      當(dāng)時,SuperCLUE只用了幾百道題進行測試,被人質(zhì)疑不夠客觀。而在國外,早就有一個叫做SuperGLUE的權(quán)威榜單,二者名稱相似度極高,讓人傻傻分不清楚。

      后來,SuperCLUE對測評標準和題目數(shù)量進行了完善,日漸成為國內(nèi)知名度較高的測評榜。大模型測評領(lǐng)域的業(yè)內(nèi)人士趙小躍對「定焦」說,一些測評機構(gòu)有題庫,用接入各家廠商API的方式來測試,但其實測一遍之后,廠商就知道測過什么題,除非下輪測試換題,否則廠商可以用定向爆破的方式得高分。在他看來,一套題只要測過一家模型,題目就廢了,因為模型可以通過API獲取題目,題目的可重復(fù)性為零。

      這是模型評測最有挑戰(zhàn)的一件事情。

      C-Eval榜單剛推出時,業(yè)內(nèi)是認可的。它由上海交通大學(xué)、清華大學(xué)、愛丁堡大學(xué)共同完成,有13948道題目。但很快,大家就發(fā)現(xiàn),一些原本知名度不高的大模型,突然沖到了榜首,甚至把GPT4踩在腳下使勁摩擦。

      在9月初的榜單中,云天勵飛大模型總分排第一,360排第八,GPT4居然排第十。再后來,拿過榜單第一的還有度小滿金融大模型、作業(yè)幫銀河大模型,業(yè)內(nèi)公認最強的GPT4被它們無情甩在了身后。

      成績墊底,到底是GPT錯了還是榜錯了?顯然,榜單有問題,因為它遭遇了“不健康的刷榜”。C-Eval團隊在官網(wǎng)發(fā)出聲明,承認評測方式有局限性,同時指出了刷榜得高分的一些方法,比如:從GPT-4的預(yù)測結(jié)果蒸餾,找人工標注然后蒸餾,在網(wǎng)上找到原題加入訓(xùn)練集中微調(diào)模型。這三種方法,前兩種可以視為間接作弊,第三種相當(dāng)于直接作弊。

      大模型從業(yè)者李健對「定焦」說,間接作弊,就是知道考試大概的類型,然后花較多精力把可能的題目都找出來或叫專業(yè)的人造出來,答案也給出來,用這樣的數(shù)據(jù)訓(xùn)練模型。

      他指出,業(yè)內(nèi)現(xiàn)在常用的手段是,讓GPT4來“造答案”,然后得到訓(xùn)練數(shù)據(jù)。李健分析,直接作弊,就是知道考試題目,然后稍微改改,得到新的很多份題目,之后直接拿來訓(xùn)練模型?!霸谇宄駟稳蝿?wù)的情況下,很多類型的任務(wù),很容易刷榜?!彼f。這樣得到的分數(shù)是沒有意義的?!爸苯幼鞅谆緦μ嵘P偷姆夯芰Γㄅe一反三)沒用,間接作弊有點像做題家,對提升學(xué)生真實的素質(zhì)弊大于利?!睘榱俗尅坝脩糁斏骺创韵掳駟巍?,C-Eval團隊不得不將榜單拆分成兩個,一個是模型已公開的,一個是未公開的。

      結(jié)果,那些得分高的基本全是未公開的大模型。而這些模型的真實表現(xiàn),人們是無法體驗的。

      復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授邱錫鵬說,C-Eval本身質(zhì)量還挺高,但被刷榜后導(dǎo)致學(xué)術(shù)價值不大了。現(xiàn)在很多企業(yè)去刷榜,但又不公開數(shù)據(jù),也不具體說怎么做,這是一種不公平的競爭。

      多位大模型從業(yè)者對「定焦」說,刷榜在大模型行業(yè)很常見。躍盟科技創(chuàng)始人王冉對「定焦」打了一個比方:“先射完箭再畫靶子”。他認為今天的某些測評手段,是有一些大模型公司為了表現(xiàn)自己牛而專門設(shè)計的。盛景嘉成董事總經(jīng)理劉迪認為,有答案或者評分標準,就有人能鉆空子。單靠數(shù)據(jù)集和問題集的評判方式,很難評出大模型在應(yīng)用層面的好壞?!耙粋€丹一個煉法,哪個對癥還得吃下去看?!彼麑Α付ń埂拐f。

      考試拿第一,不是好學(xué)生?

      大模型評測,作為評估大模型綜合實力的一個手段,還有參考價值嗎?

      趙小躍認為,在核心的通用能力上,比如語言理解、邏輯推理等,學(xué)術(shù)數(shù)據(jù)集的榜單測評能反映七八成。這其中最大的問題是,開源的榜單結(jié)果跟大家用大語言模型的場景之間有鴻溝。“測評只能反映模型某一部分的能力,大家其實都是從不同的維度盲人摸象,很難知道它的能力邊界在哪里?!彼f。

      對于大語言模型,首先在語言上,分為英文和中文兩大語種。國外大模型的訓(xùn)練語料以英文為主,所以英文很強,但中文不一定比國內(nèi)大模型強。這也是為什么國內(nèi)很多大模型,都在“超越ChatGPT”之前加一個“中文能力”的定語。

      其次在考察科目上,評測數(shù)據(jù)集通常會設(shè)置很多個方面,從百科知識到角色扮演,從上下文對話到閑聊。但這些能力只能單一評價,然后得分加總。這跟評價一個人很像。任何一道考卷,都只能測試出這個人某方面的能力。即便是全套試卷的成績,也不等同于這個人的能力。就像ChatGPT的榜單排名不一定能比過國內(nèi)的一些大模型,但使用體驗上就是更好。

      王冉認為,如果將大模型比作一個人的大腦,如何評測一個人的大腦好用,如果只給他做題,其實是充滿偏見的?!按竽P偷臏y評不應(yīng)該用考試來做,而應(yīng)該用應(yīng)用來做。”

      人工智能公司開放傳神(OpenCSG)創(chuàng)始人、CEO陳冉認為,通用性的評測,看綜合得分,沒有一個大模型超過GPT4,但是在特定領(lǐng)域,可能有些指標GPT4得分不一定高。問題在于,有些廠商拿特定領(lǐng)域的得分,去宣傳整體超過了GPT4?!斑@就是以偏概全,我覺得有些廠商在對外宣傳時,還是要對生態(tài)公司給到正確的指引,具體哪個指標在哪個領(lǐng)域得分高,要說清楚?!?/p>

      他對「定焦」表示。而一旦測評成績進入排名賽,有了功利的成分,有些廠商就會有刷榜的動機?!皬乃竦慕嵌?,不太能保證中小廠不會把這部分數(shù)據(jù)拿去訓(xùn)練,這是大家對公開數(shù)據(jù)集最大的顧慮?!壁w小躍說。綜合多位業(yè)內(nèi)人士的觀點,目前國內(nèi)還沒有一個特別好的數(shù)據(jù)集,能綜合反映大模型的能力,各方都在探索。李健在今年做了“CLiB中文大模型能力評測榜單”,為了避免泄題,他盡量參考業(yè)界好的方案,自己出題。

      “主要是業(yè)界和學(xué)術(shù)界的榜單,不太讓人滿意,公開程度不高,都是各說各話。”還有一些非商業(yè)性質(zhì)的機構(gòu)相信,測評榜單最大的意義在于,從模型演化的角度,能夠幫助廠商監(jiān)控模型生產(chǎn)過程中能力的變化,糾正訓(xùn)練模型的方法,有針對性提高模型能力。

      比如OpenCompass,它是Meta官方推薦的開源大模型評測框架,利用分布式技術(shù)支持上百個數(shù)據(jù)集的評測,提供了大模型評測的所有技術(shù)細節(jié),同時給大家提供了統(tǒng)一的測試基準,方便各家模型在公平公正的情況下開展對比。

      開源:先賺吆喝再賺錢

      對大模型做出全面評價是困難的。除了打榜的方式,有一些廠商通過開源,獲得了巨大的關(guān)注。

      開源是一種經(jīng)營策略,需要對自家產(chǎn)品足夠自信。相比之下,敢于放開注冊讓公眾體驗的閉源大模型,要比那些無法體驗的強,開源大模型則又往前邁了一步。第一個被大范圍使用、好評度最高的開源大語言模型,是由Meta在今年2月推出的Llama。

      當(dāng)時全球科技公司都盯著OpenAI,試圖追趕閉源的ChatGPT。但開源讓Meta坐上了牌桌,吸引了大量開發(fā)者,一時名聲大噪。國內(nèi)公司很快跟上,搶抓第一波關(guān)注度。智譜AI、智源研究院、百川智能,是動作最快的三家。

      在Llama開源之后,號稱全面對標OpenAI、有著清華背景的智譜AI,迅速在國內(nèi)第一個開源了自己的大模型ChatGLM-6B。這個時間點非常早,當(dāng)時國內(nèi)廠商的大模型都還沒發(fā)布,百度文心一言兩天后才推出,而王小川的百川智能公司還沒成立。三個月后的6月9日,跟智譜AI有著很深淵源的智源研究院,宣布開源“悟道·天鷹”Aquila。它比智譜AI更進一步——可商用,于是拿下“國內(nèi)首個開源可商用語言大模型”的頭銜。是否支持商用,是判斷模型能力的一個關(guān)鍵指標。GPT 3.5的水平,通常被認為是大模型商用的標準線。

      不過,智源是一個非營利機構(gòu),它更多的用意是為公用發(fā)展提供技術(shù)支持。智源主動開源之后,開源大模型的軍備競賽正式打響。這其中值得一提的是百川智能。作為一家今年4月才成立的初創(chuàng)公司,百川獲得的關(guān)注度甚至超過很多互聯(lián)網(wǎng)大廠。從時間上來看,百川是智源之后第一家開源的創(chuàng)業(yè)公司,且第一個宣布可免費商用。

      它開源不可商用的版本時,比智譜AI早九天;后來開源免費可商用的版本時,又比智譜AI早三天。時間點很重要。當(dāng)時Llama1只被允許用作研究,但市場有傳聞可商用的Llama 2即將開源。百川不僅搶在Llama 2之前,還卡在智譜AI之前宣布了免費可商用,贏得了巨大的關(guān)注度,一周之內(nèi)下載量破百萬。

      趙小躍認為,百川在那個時間發(fā)布一個開源模型,作為自己的第一槍,是一個很對的決策。“賺了一波吆喝。”支持商用的Llama 2比百川和智譜AI晚了一周,即便如此,它還是在全球引發(fā)巨震。在同等參數(shù)規(guī)模下,Llama 2能力超過所有的開源大模型,是目前全球公認的開源大模型的代表。

      因為Llama的帶動,國內(nèi)廠商踩上了開源熱潮的風(fēng)口。它們急著秀肌肉,爭奪大眾注意力。但從技術(shù)角度,尚不能說明它們就跑在了前面。有觀點認為,開源模型雖多,但大多數(shù)都是從Llama派生出來。簡單來說,就是用了Llama作為基模型,然后選用其它不同的訓(xùn)練方法微調(diào)。因為Llama原生在中文方面相對較弱,給了國產(chǎn)開源大模型宣傳的發(fā)力點。

      6月中旬百川開源第一版Baichuan-7B時,公司只成立剛兩個月。當(dāng)時有人質(zhì)疑其模型架構(gòu)跟Llama很相似?!敖柚呀?jīng)開源的技術(shù)和方案,百川是站在了巨人的肩膀上。”一位大模型創(chuàng)業(yè)者評價。本質(zhì)上,開源也是一種商業(yè)模式。賺完吆喝后,廠商的目的還是賺錢。

      陳冉向「定焦」舉了個例子,開源就像一些化妝品品牌推出試用裝,免費給用戶用,但不會透露配方和成分。用戶試用完如果覺得好想繼續(xù)用,就得付費買商業(yè)版。另外它可能透露配方,如果有廠商想基于這個配方去創(chuàng)造一個新的產(chǎn)品,就需要交授權(quán)費。

      百川在9月下旬推出了兩款閉源大模型,API接口對外開放,進入ToB領(lǐng)域,開啟商業(yè)化進程。“它已經(jīng)通過開源賺了一波吆喝,接下來一定會推閉源大模型做商業(yè)化,它最先進的模型是一定不會開源的?!壁w小躍說。

      大家都沒有護城河?

      “百模大戰(zhàn)”發(fā)展到今天,各家廠商通過各種方式博取關(guān)注度,那么誰做到了真正的領(lǐng)先?

      趙小躍認為,從主觀感受層面來看,國內(nèi)的大模型,無論是開源還是閉源,本質(zhì)上沒有核心的技術(shù)代差。因為無論是模型大小,還是數(shù)據(jù)質(zhì)量,大家都沒有飛躍式的突破。

      “在GPT3.5的指引下,國內(nèi)廠商只要模型容量達到一定地步,再配合一批高質(zhì)量數(shù)據(jù),大家都不會太差?!钡鶪PT4相比,技術(shù)代差是存在的?!耙驗殚]源,大家不知道GPT4背后真正的技術(shù)方案是什么,如何把這么大的模型用專家結(jié)構(gòu)訓(xùn)練出來,目前大家還都在探索?!?/p>

      在陳冉看來,國內(nèi)的大語言模型完全原創(chuàng)的較少,有些是在transformer架構(gòu)上做了一個整體調(diào)優(yōu),本質(zhì)是在算子上做了調(diào)優(yōu),而沒有本質(zhì)上的改變。還有一些走開源路線的廠商,更多是在中文方面深入研究。大家都有自己的大模型,但本質(zhì)上沒有顯著的區(qū)別,這就是當(dāng)前國內(nèi)大模型行業(yè)的特點。

      某種程度上,這是由行業(yè)階段決定的。國內(nèi)的互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、高??蒲袡C構(gòu),真正開始投入大量人力物力做大模型,也就在今年。行業(yè)的技術(shù)路線也還在摸索中,沒有哪家公司建立起護城河。相比純技術(shù)實力方面的比拼,算力和數(shù)據(jù)層面的比拼更能出效果。

      “大家更多的精力是花在數(shù)據(jù)和語料上,誰能花錢獲得高質(zhì)量的語料,同時有足夠的算力,誰就能訓(xùn)練出一個相對好一點的模型?!标惾秸f。

      開源讓局面變得更加不可控。去年底ChatGPT亮相后,全球冒出來上百個大模型,但今年Meta開源Llama 2之后,很多模型還沒有投入市場就已經(jīng)過時。就連谷歌的工程師都在內(nèi)部直言稱,谷歌和OpenAI都沒有護城河。大模型更新迭代太快了?!敖裉炷阃瞥鲆粋€大模型,花錢打了榜,有很多人用,可能明天就有個新的模型迅速替代掉?!标惾秸f。

      多位業(yè)內(nèi)人士對「定焦」表示,大模型之間真正顯著的區(qū)別,會在具體的用戶場景或B端的業(yè)務(wù)中體現(xiàn)?!艾F(xiàn)實世界里我們評價某個人是專家,是因為他在特定領(lǐng)域很厲害。大模型也一樣,要在領(lǐng)域里建立共識,專業(yè)性一定要放到具體的場景里去體現(xiàn)?!?/p>

      王冉說。核心的通用能力是基礎(chǔ),廠商會根據(jù)自己所在的領(lǐng)域,差異化發(fā)展。“比如我們跟醫(yī)院和律所接觸,他們其實更關(guān)心的是醫(yī)療或法律方面的能力。”趙小躍說。對于互聯(lián)網(wǎng)巨頭而言,需要考量的因素相對更多。

      除了要對外“接單”,巨頭們已經(jīng)開始在內(nèi)部進行大模型的應(yīng)用端部署。比如騰訊的廣告、游戲、社交、會議等業(yè)務(wù),接入了混元大模型,百度搜索、文庫、百家號等產(chǎn)品早已接入文心大模型,阿里把AI作為各大業(yè)務(wù)板塊的驅(qū)動力。大模型對巨頭內(nèi)部的正面影響究竟有多大,會更難量化評估。

      綜合來看,國內(nèi)大模型還處在起跑的混沌階段,一切都在快速變化中。做出一個大模型的技術(shù)壁壘不高,但要做好并真的解決問題,還有很長的路要走。

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年11月9日 12:06
      下一篇 2023年11月9日 15:01

      相關(guān)推薦

      • 我耀打十個——吉利銀河星耀8 天生耀強 全民眾測 全面開啟-烏魯木齊站 完美收官!

        6 月 28 日,吉利銀河星耀 8天生耀強 全民眾測活動在烏魯木齊激情啟幕。本次活動以「我耀打十個」為主題,將露營燒烤的愜意生活方式與硬核性能體驗深度融合,通過靜態(tài)品鑒、全路況試駕…

        2025年7月1日
      • 中國科幻出?!皣谊牎碧硇聠T,原創(chuàng)機甲新游《解限機》即將公測

        在剛剛過去的全球游戲玩家盛宴——2025年夏日游戲節(jié)(Summer game fest 2025)上,來自全球的40多家世界頂尖游戲廠商亮相,并紛紛發(fā)布重磅新品。而在眾多令人眼花繚…

        2025年6月9日
      • 2025世界機器人大賽WHALESBOT(原ENJOY AI)全面開賽

        君且看,結(jié)廬在山野,鄉(xiāng)村人煙稀。少壯出門去,老大尚別離。進了城門,荒了家門,見了老板,淡了爹娘。離別家鄉(xiāng)歲月多,鄉(xiāng)愁只有長相憶。惟有老驥伏櫪,留守故里。

        2025年5月28日
      • 手機怎么進水_手機進水怎么辦

          其實手機的防水技術(shù)很早就有了,黑白屏的功能機時代,防水手機往往會采用手機主板內(nèi)部封膠技術(shù),使每個元件都用白膠或黒膠封裝起來,起到絕緣效果,這也就達到了防水目的。我們除了做好內(nèi)部…

        2024年1月24日
      • 手機連接電視_手機連接電視安裝應(yīng)用

          很多用戶在問蘋果的手機怎么連接至電視,由于手機系統(tǒng)不同所以在連接方法上與安卓系統(tǒng)手機是不一樣的。下面我就將詳細的連接操作方法教給大家。       操作方法:   首先需要確定…

        2024年1月24日
      • 手機碎屏_手機碎屏保障服務(wù)是什么

          手機屏幕碎了,不用換屏! 教你20分鐘自動修復(fù)!修復(fù)完后屏幕特別堅固,錘子都砸不爛?。?!如此神奇技能,快快拿走?。。?!   iphone 6不小心掉地上了,腎疼!      碎…

        2024年1月24日
      • 手機遙控空調(diào)_手機遙控空調(diào)app

             很榮幸,每天北海有二十萬人在閱讀北海百事通文章底部已經(jīng)開通評論功能,坐等神評論   小百說,三伏天的來臨,大家又開始刷屏吐槽這熱爆的天氣了……. …

        2024年1月24日
      • 手機回收的_手機回收的注意事項

        手機回收站位置因品牌和操作系統(tǒng)而異,通常在文件管理或應(yīng)用列表中,可以在設(shè)置或文件管理應(yīng)用中查找回收站存放已刪除的文件,可恢復(fù),也可清空除回收站外,第三方應(yīng)用可幫助恢復(fù)誤刪文件,但并…

        2024年1月24日
      • oppo手機a_oppo手機a2多少錢

        OPPO手機系列檔次主要有R系列Find系列Ace系列A系列,以及新近的 Reno系列每個系列都有其獨特的特點和定位,滿足了不同消費者的需求1 R系列R系列是OPPO的中端機型,主…

        2024年1月24日
      • 手機定位蘋果 手機定位蘋果和安卓

          蘋果手機如何衛(wèi)星定位對方位置?現(xiàn)在不少用戶都是果粉,對其功能可以說是非常了解的。今天我們就來看看蘋果手機如何衛(wèi)星定位對方位置。   方法一:   前提:需要知道對方的iClou…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時間:周一至周五,10:30-18:30,節(jié)假日休息