本周,兩家知名媒體——《華爾街日?qǐng)?bào)》和《紐約時(shí)報(bào)》對(duì)AI公司在獲取優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)時(shí)遇到的困境進(jìn)行了深入關(guān)注。值得注意的是,報(bào)道中提到了關(guān)于AI版權(quán)法模糊不清的灰色地帶。
通過開發(fā)Whisper音頻轉(zhuǎn)錄模型,OpenAI取得了一項(xiàng)突破性進(jìn)展,成功轉(zhuǎn)錄了超過100萬個(gè)小時(shí)的YouTube視頻用于訓(xùn)練GPT-4大型語言模型。其實(shí)施的這一過程因涉及版權(quán)問題而存在嚴(yán)重法律風(fēng)險(xiǎn),但OpenAI仍堅(jiān)持為技術(shù)創(chuàng)新設(shè)定開拓者的姿態(tài)。
另一位受訪者——《泰晤士報(bào)》,通過揭露OpenAI總裁Greg Brockman積極參與YouTube視頻收集工作的事實(shí),強(qiáng)調(diào)此類操作的合法性問題。然而,OpenAI宣布將嚴(yán)格遵守相關(guān)法規(guī),謹(jǐn)慎對(duì)待每一次行動(dòng)。為了持續(xù)發(fā)展,OpenAI正不斷嘗試從各種渠道獲取有益的數(shù)據(jù)。
據(jù)OpenAI發(fā)言人Lindsay Held發(fā)表的聲明顯示,每個(gè)模型都在經(jīng)過精心設(shè)計(jì)后配備了獨(dú)特的數(shù)據(jù)集,目的在于讓它們更準(zhǔn)確地理解這個(gè)世界,能始終保持強(qiáng)大的研發(fā)能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.
相比之下,谷歌對(duì)此事持有不同看法。谷歌不認(rèn)同未經(jīng)授權(quán)就抓取和下載YouTube內(nèi)容的行為,同時(shí)指出,谷歌的robots.txt文件和服務(wù)條款堅(jiān)決禁止此類行為發(fā)生。近段時(shí)間,YouTube CEO尼爾·莫漢在接受采訪時(shí)也警告潛在的侵入者,使用YouTube視頻訓(xùn)練AI模型的行為違反了其服務(wù)條款。
面對(duì)日益激烈的競(jìng)爭(zhēng)環(huán)境,Meta公司同樣面臨著數(shù)據(jù)可用性問題。公司AI部門為了提升自身競(jìng)爭(zhēng)力,甚至開始考慮未經(jīng)授權(quán)使用版權(quán)作品,尤其是在面臨無法獲得足夠訓(xùn)練數(shù)據(jù)之際。維持可持續(xù)發(fā)展已經(jīng)成為了當(dāng)下AI科技行業(yè)的當(dāng)務(wù)之急。
-
語言模型
+關(guān)注
關(guān)注
0文章
487瀏覽量
10202 -
GPT
+關(guān)注
關(guān)注
0文章
347瀏覽量
15185 -
OpenAI
+關(guān)注
關(guān)注
9文章
992瀏覽量
6263
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論