0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓(xùn)練數(shù)據(jù)陷難題

新火種 ? 來源:新火種 ? 作者:新火種 ? 2023-12-20 09:09 ? 次閱讀

作者:一號(hào)

編輯:小迪

谷歌過于心急,Gemini推出不到半月,就遭遇兩次“危機(jī)”。

美東時(shí)間12月6日,谷歌推出了迄今為止規(guī)模最大,能力最強(qiáng)的大模型Gemini。其原生多模態(tài)的能力,通過一條約6分鐘的演示視頻,展現(xiàn)得淋漓盡致,讓人不得不感慨它的強(qiáng)大,就連馬斯克都評(píng)論說,“(Gemini)令人印象深刻”。

谷歌在AI領(lǐng)域的成就有目共睹,盡管之前推出的Bard表現(xiàn)不盡人意,讓谷歌市值一夜蒸發(fā)了1000億美元。但經(jīng)過一年沉淀,加上和DeepMind聯(lián)合研發(fā),所以Gemini(雙子星)可是被寄予了厚望。

但是,Gemini發(fā)布后僅一天,就有人指控谷歌“造假”。除了在數(shù)據(jù)對(duì)比上沒有使用相同條件,演示視頻效果也是經(jīng)過剪輯的。逼得谷歌不得不給出文檔承認(rèn)視頻是經(jīng)過加工的。

12月14日,視頻“造假”事件還沒降溫,谷歌就宣布對(duì)外免費(fèi)開放Gemini Pro的API。讓不少人高興得奔走相告。因?yàn)橄噍^于GPT-4收費(fèi)版才能擁有的視覺模型,Gemini Pro可以直接給平民AI玩家體驗(yàn)AI視覺能力的機(jī)會(huì)。

但就在API開放后不久,就有用戶發(fā)現(xiàn),在Poe上使用Gemini Pro時(shí),如果用簡(jiǎn)體中文連續(xù)詢問“你好”和“你是誰”這兩個(gè)問題時(shí),Gemini Pro會(huì)直接說出“我是百度文心大模型”這樣的回答,給網(wǎng)友都看“呆”了。

谷歌Gemini被百度文心一眼“奪舍”了?

微博大V闌夕就發(fā)博展示了這樣的效果,就連進(jìn)一步詢問“你的創(chuàng)始人是誰”時(shí),它也很干脆地回答:李彥宏。

wKgZomWBqMqAfHd-AAQRnmzppkY379.jpg

難道Gemini被百度“奪舍”了?不少人懷疑這是因?yàn)椴┲髟趯?duì)話前面設(shè)置了提示詞,讓Gemini扮演文心一言,但這位博主強(qiáng)調(diào),沒有任何前置對(duì)話。

wKgaomWBqMuAEsG6AAFYsarFxxM625.jpg

本著求真的態(tài)度,我們也去Poe上試用了一下,結(jié)果真的可以復(fù)現(xiàn)。

wKgZomWBqMuAAcdgAAP589GT9k0828.jpg

會(huì)不會(huì)是Poe平臺(tái)上的接口用錯(cuò)了?不過Poe平臺(tái)可不是什么野雞套殼網(wǎng)站,它是美版知乎Quora推出的AI聊天機(jī)器人平臺(tái),你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提問Gemini,它就會(huì)立刻恢復(fù)正常。并且單就從“作案動(dòng)機(jī)”上來講,Poe也沒有必要這么做。

除此之外,還有用戶在谷歌自己的Vertex AI平臺(tái)上,使用中文對(duì)話,也出現(xiàn)了這種情況。因此,Poe的接口使用出錯(cuò),這個(gè)可能基本可以被排除,問題應(yīng)該出在Gemini本身。

wKgaomWBqMyAODq1AACIPl0BLUc359.jpg

使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練已不新鮮

這樣看下來,要么就是谷歌使用了百度文心一言的語料進(jìn)行訓(xùn)練,要么就是它所使用的語料已經(jīng)被AI“污染”了。

其實(shí)大模型訓(xùn)練使用其他大模型生成的語料這件事情已經(jīng)不是第一次發(fā)生,并且谷歌還是有“前科”的。在上一代Bard時(shí),谷歌就曾被曝出使用ChatGPT的數(shù)據(jù)進(jìn)行訓(xùn)練,并且根據(jù)The Information報(bào)道,這件事情還造成了Jacob Devlin從谷歌離職。

就在上周末,字節(jié)跳動(dòng)也被OpenAI禁止使用API接口,原因也是因?yàn)檎f字節(jié)在使用GPT訓(xùn)練自己的AI,違反了使用條例。

wKgZomWBqMyAPJd4AAJ1abXz8sA239.jpg

如果按照現(xiàn)在每個(gè)模型堆“訓(xùn)練數(shù)據(jù)量”的操作來看,互聯(lián)網(wǎng)上的人類原生的數(shù)據(jù)很快就會(huì)用完,并且各個(gè)模型之間也將會(huì)很相似。因此,獲取一些未被別人拿去訓(xùn)練的數(shù)據(jù),是模型之間保持差異化的一種方法。因此,有些AI公司會(huì)向一些擁有專屬數(shù)據(jù)的公司購(gòu)買數(shù)據(jù)。例如OpenAI就曾表示愿意每年支付高達(dá)八位數(shù)的費(fèi)用,用以獲取彭博社自有的歷史和持續(xù)的金融文件數(shù)據(jù)訪問權(quán)限。

wKgaomWBqM2AIpbBAAMBO88ElR0114.jpg

另一個(gè)思路,就是選擇使用AI合成的數(shù)據(jù)來進(jìn)行訓(xùn)練。香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)的幾名研究院就曾嘗試過使用高質(zhì)量AI合成圖片,來提升圖像分類模型的性能,結(jié)果發(fā)現(xiàn)效果還不錯(cuò),甚至比真實(shí)數(shù)據(jù)訓(xùn)練還要好。

AI生成的內(nèi)容正在“污染”互聯(lián)網(wǎng)

而從另一方面來看,AI生成的內(nèi)容污染互聯(lián)網(wǎng)也是一個(gè)不得不重視的問題了。尤其是生成式AI大爆發(fā)的今年。在文字、圖像、視頻還有音頻等領(lǐng)域,AI生成的內(nèi)容都正在“污染”互聯(lián)網(wǎng)上數(shù)據(jù)內(nèi)容。

就在上個(gè)月,一些網(wǎng)友發(fā)現(xiàn),在谷歌搜索上輸入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索結(jié)果,前幾張圖片都是有AI生成的,而并非真實(shí)照片,并且這是一位以彈奏尤克里里而聞名的音樂家,但圖片里的他卻在彈吉他。

在文字方面也是,隨著百家號(hào)等媒體平臺(tái)上出現(xiàn)的AI幫寫等功能,AI生成的文章已經(jīng)開始在互聯(lián)網(wǎng)上“蔓延”,這讓普通人在互聯(lián)網(wǎng)上篩選真實(shí)且有效的信息的效率反而降低了??梢哉f,AI生成內(nèi)容對(duì)互聯(lián)網(wǎng)語料的“污染”,可能會(huì)導(dǎo)致產(chǎn)生一個(gè)新的需求,那就是幫人們分辨內(nèi)容是否由AI生成的AI。

畢竟,目前訓(xùn)練AI所需要的數(shù)據(jù)還是人類所生產(chǎn)的,在數(shù)據(jù)清洗過程中,需要注意清除一些由其他AI生成的內(nèi)容。一旦互聯(lián)網(wǎng)上AI生成的內(nèi)容越多,越能以假亂真,那么數(shù)據(jù)篩選的難度將越大。并且在大模型出現(xiàn)“幻覺”以及AI如何產(chǎn)生“智能涌現(xiàn)”這兩個(gè)問題沒有得到徹底解決之前,我想我們都無法做到徹底信賴AI生成的內(nèi)容。

畢竟一旦AI生成了錯(cuò)誤的內(nèi)容,而另一個(gè)AI拿著這個(gè)內(nèi)容去訓(xùn)練,然后再另一個(gè)AI拿到新的錯(cuò)誤內(nèi)容......這樣“滾雪球”下去,AI最終會(huì)生成什么樣的逆天垃圾,我們真的無法想象。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Gemini
    +關(guān)注

    關(guān)注

    0

    文章

    50

    瀏覽量

    7566
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29805

    瀏覽量

    268102
  • 文心一言
    +關(guān)注

    關(guān)注

    0

    文章

    123

    瀏覽量

    1241
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌Gemini自曝用一言訓(xùn)練,字節(jié)被OpenAI封號(hào),大模型互薅羊毛是常態(tài)?

    @闌夕爆料,對(duì)谷歌Gemini進(jìn)行測(cè)試時(shí),如果用中文詢問Gemini的身份,其回答竟然是百度
    的頭像 發(fā)表于 12-20 09:03 ?2722次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>自曝用<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b><b class='flag-5'>訓(xùn)練</b>,字節(jié)被OpenAI封號(hào),大模型互薅羊毛是常態(tài)?

    百度一言APP升級(jí)為

    百度宣布其文一言APP正式升級(jí)為,標(biāo)志著百度在智能搜索領(lǐng)域邁出了重要
    的頭像 發(fā)表于 09-04 16:06 ?348次閱讀

    百度大模型4.0 Turbo,正式發(fā)布 用戶規(guī)模已達(dá)3億

    的最新數(shù)據(jù),并正式發(fā)布大模型4.0 Turbo、飛槳框架3.0等最新技術(shù),披露飛槳生態(tài)最新成果。 ?01?
    的頭像 發(fā)表于 06-29 10:06 ?803次閱讀

    2024百度移動(dòng)生態(tài)萬象大會(huì):百度新搜索11%內(nèi)容已AI生成

    萬象大會(huì)上百度集團(tuán)資深副總裁、百度移動(dòng)生態(tài)事業(yè)群組(MEG)總經(jīng)理何俊杰公布了項(xiàng)統(tǒng)計(jì)數(shù)據(jù)百度新搜索已有11%的搜索內(nèi)容是由
    發(fā)表于 05-30 18:58 ?384次閱讀

    李彥宏高度評(píng)價(jià)百度一言模型及AI技術(shù),強(qiáng)調(diào)商業(yè)化將持續(xù)推進(jìn)

    據(jù)了解,目前已有近10萬家企業(yè)使用了一言的能力,其中10%的大搜流量由該模型產(chǎn)生,每日有250萬用戶受益于文庫的AI功能。未來,百度計(jì)劃
    的頭像 發(fā)表于 05-11 10:44 ?472次閱讀

    火種AI|李彥宏發(fā)聲:一言4.0在國(guó)內(nèi)可以取代ChatGPT!事實(shí)真的如此嗎?

    一言 VS ChatGPT,誰更勝籌?
    的頭像 發(fā)表于 04-19 10:14 ?699次閱讀
    新<b class='flag-5'>火種</b><b class='flag-5'>AI</b>|李彥宏發(fā)聲:<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b>4.0在國(guó)內(nèi)可以取代ChatGPT!事實(shí)真的如此嗎?

    百度一言用戶破2億,AI原生應(yīng)用開發(fā)數(shù)量達(dá)19萬

    此外,李彥宏還提到,百度在去年 8 月宣布開放一言后,不僅在C端借助大模型改造用戶產(chǎn)品,將AI功能融入旗下多款產(chǎn)品;同時(shí)在B端,通過云業(yè)
    的頭像 發(fā)表于 04-16 15:05 ?570次閱讀

    百度將為國(guó)行iPhone16提供AI功能

    谷歌、OpenAI 等公司的AI 。 國(guó)行iPhone16搭載百度AI功能的話會(huì)不會(huì)是內(nèi)置
    的頭像 發(fā)表于 03-25 16:23 ?903次閱讀

    一言將在2024年貢獻(xiàn)數(shù)十億元的增量收入

    百度一言在2024年有望為百度帶來數(shù)十億元人民幣的增量收入,這預(yù)測(cè)由
    的頭像 發(fā)表于 03-04 11:32 ?1098次閱讀

    百度起訴“一言”公司涉嫌商標(biāo)侵權(quán),不正當(dāng)競(jìng)爭(zhēng)糾紛即將開庭

    近日,北京百度網(wǎng)訊科技有限公司與家名為“一言(天津)智能科技有限公司”的公司之間的則不正
    發(fā)表于 02-06 11:44 ?1534次閱讀

    百度一言支持鍵生成專屬數(shù)字分身

    百度一言APP正式上線了項(xiàng)令人矚目的新功能:用戶只需張照片、錄制三句話,就能輕松擁有
    的頭像 發(fā)表于 02-03 09:33 ?721次閱讀

    三星Galaxy AI集成百度大模型

    近日,中國(guó)三星與百度智能云宣布正式結(jié)成AI生態(tài)戰(zhàn)略合作伙伴,共同推動(dòng)AI技術(shù)在智能手機(jī)等設(shè)備上的應(yīng)用。作為這合作的部分,三星Galaxy
    的頭像 發(fā)表于 01-29 17:03 ?1133次閱讀

    百度一言用戶規(guī)模突破1億

    在近日,百度公布了個(gè)令人振奮的消息:一言大模型的用戶規(guī)模已經(jīng)突破了1億。
    的頭像 發(fā)表于 01-02 16:10 ?603次閱讀

    一言用戶規(guī)模破1億 應(yīng)用已突破4000款

    一言用戶規(guī)模破1億 應(yīng)用已突破4000款 在第十屆WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會(huì)上百度首席技術(shù)官王海峰透露了組數(shù)據(jù),自8月31
    的頭像 發(fā)表于 12-28 18:18 ?1035次閱讀

    百度:美國(guó)芯片限制影響有限,AI芯片庫存充足

    李彥宏表示:“百度于2023年10月末順利推出了‘一言4.0’。目前擁有很多人工智能(ai)芯片,今后1至2年內(nèi)有望持續(xù)更新原新產(chǎn)品?!?/div>
    的頭像 發(fā)表于 11-22 11:30 ?753次閱讀