0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT到底有多會修bug?

CVer ? 來源:量子位 金磊 衡宇 ? 作者:量子位 金磊 衡宇 ? 2023-02-06 10:36 ? 次閱讀

ChatGPT到底有多會修bug?

這事終于有人正兒八經(jīng)地搞研究了——

來自德國、英國的研究人員,專門搭了個(gè)“擂臺”來檢驗(yàn)ChatGPT的這項(xiàng)本領(lǐng)。

f6c6337e-a56f-11ed-bfe3-dac502259ad0.png

除了ChatGPT之外,研究人員還找來了其它三位修bug的“AI猛將”,分別讓它們修復(fù)40個(gè)錯(cuò)誤代碼。

結(jié)果真是不比不知道,一比嚇一跳。

ChatGPT準(zhǔn)確修復(fù)了其中31個(gè)bug,遙遙領(lǐng)先第二名(21個(gè)),直接拿下“AI修bug界”的SOTA成績!

于是乎,這項(xiàng)研究引來了眾多網(wǎng)友的圍觀和討論,Reddit上發(fā)布此帖的標(biāo)題更是用上了“小心”、“注意”這樣的字眼:

f706a0da-a56f-11ed-bfe3-dac502259ad0.png

但事實(shí)上,這真的會讓程序員“?!眴??

我們不妨先來看下這項(xiàng)研究。

很會修bug的ChatGPT

雖然ChatGPT并非是為了專門修改bug而生,但自打它問世以來,不少網(wǎng)友們都發(fā)現(xiàn)它是具備這項(xiàng)能力的。

因此研究人員為了摸清ChatGPT到底能修改bug到什么程度,便引入了標(biāo)準(zhǔn)的錯(cuò)誤修復(fù)基準(zhǔn)集QuixBugs來進(jìn)行評估。

以及與它同臺競技的AI選手,分別是CodeX、CoCoNut和Standard APR。

研究人員從QuixBugs中挑了40個(gè)問題,分別讓它們來修復(fù)bug。

讓ChatGPT來修bug的方法,就是在對話框里向它提問:

這個(gè)代碼有什么錯(cuò)誤嗎?

在第一輪較量過后,結(jié)果如下:

f715754c-a56f-11ed-bfe3-dac502259ad0.jpg

從第一輪battle結(jié)果來看,ChatGPT修復(fù)了19個(gè),CodeX修復(fù)了21個(gè),CoCoNut修復(fù)了19個(gè),Standard APR則是7個(gè)。

而且研究人員還發(fā)現(xiàn),ChatGPT的答案與CodeX最為相似;這是因?yàn)樗鼈z是來自同一個(gè)語言模型家族。

這時(shí)候就會有小伙伴要問了,“ChatGPT不是還沒有CodeX厲害嗎”。

別急,不要忘了,ChatGPT的一個(gè)特點(diǎn)就是越問越“上道”。

例如在這個(gè)基準(zhǔn)集中,有一個(gè)叫bitcount的問題,ChatGPT在剛才第一輪修復(fù)過程中是給了錯(cuò)誤的答案:

f7339bf8-a56f-11ed-bfe3-dac502259ad0.png

原本ChatGPT應(yīng)該將第7行的 n ^ = n - 1 改為 n & = n - 1。

但在第一輪中它的回答是:

如果沒有更多關(guān)于預(yù)期行為和導(dǎo)致問題的輸入信息,我無法判斷程序是否存在錯(cuò)誤。

于是在給予它更多信息之后,ChatGPT便答對了這個(gè)問題。

以此類推,在對第一輪沒答對的問題進(jìn)行更多信息提示之后,ChatGPT的修bug能力有了大幅提高:

f744f560-a56f-11ed-bfe3-dac502259ad0.png

最終,ChatGPT在QuixBugs的40個(gè)問題里答對了31個(gè)。

網(wǎng)友憂喜參半

對于這樣的實(shí)驗(yàn)結(jié)果,網(wǎng)友們對ChatGPT修bug拿下SOTA這事產(chǎn)生的態(tài)度卻不太一樣。

有網(wǎng)友認(rèn)為這事不應(yīng)該讓程序員感到危機(jī),而是會讓他們覺得開心才對。

言外之意,便是程序員們有了這么好用的工具,干活兒就會變得事半功倍。

f7550734-a56f-11ed-bfe3-dac502259ad0.png

不過也有人對此給出了不一樣的看法:

工作變得簡單,不也就意味著需要的人力更少了嗎?

f7744ef0-a56f-11ed-bfe3-dac502259ad0.png

但還網(wǎng)友覺得,活兒是干不完的:

即使AI能把開發(fā)時(shí)間縮短一個(gè)數(shù)量級,也只是意味著程序員將更快處理下一個(gè)工作。

f782386c-a56f-11ed-bfe3-dac502259ad0.png

整體來看,ChatGPT很會修bug,并不會給程序員帶來什么致命傷害。

但若是把目光放到OpenAI其他的行動中呢?

全球招外包訓(xùn)練ChatGPT寫代碼

在此之前,OpenAI就表示過ChatGPT的重要用途之一是幫助程序員檢查代碼。

換言之,它被定位可用的輔助工具。

相比“ChatGPT帶來威脅”的看法,等ChatGPT能力徹底進(jìn)化,程序員都不用再怕寫bug了。

OpenAI布局的棋盤上,可不只有改bug偷塔程序員崗位這一件事。

為了讓它更大更強(qiáng),OpenAI被曝在拉美和東歐等地區(qū),提供了1000個(gè)外包崗位。

外包員工的主要工作是標(biāo)注數(shù)據(jù),以及訓(xùn)練ChatGPT寫代碼

這1000人中,40%是程序員,他們?yōu)镺penAI的模型創(chuàng)建數(shù)據(jù),用來學(xué)習(xí)軟件工程任務(wù)。

一直以來,OpenAI的訓(xùn)練數(shù)據(jù)是從GitHub上抓取的。

現(xiàn)在外包程序員們新手搓的數(shù)據(jù)集,不僅包括代碼行,還包括代碼行背后的人類思考邏輯步驟。

有位南美的軟件開發(fā)人員爆料,他為OpenAI完成了五小時(shí)的無償編碼測試。

整個(gè)過程中,他的任務(wù)分為兩部分。

用書面英語解釋如何處理一個(gè)編碼問題;

提供解決方案。

如果發(fā)現(xiàn)bug,OpenAI會向他詳細(xì)詢問bug的具體情況,并請教如何修正。

程序員需要展示思考問題的每個(gè)步驟,他據(jù)此猜測OpenAI很可能想為ChatGPT提供非常具體的訓(xùn)練數(shù)據(jù)。

特斯拉前AI主管Andrej Karpathy在推特上調(diào)侃:

最新的熱門編程語言是英語。

f79fd85e-a56f-11ed-bfe3-dac502259ad0.png

不過話說回來,ChatGPT修bug能力強(qiáng)是好事,要真能搞進(jìn)化到可以完成代碼里死記硬背的部分,也是好事。

畢竟OpenAI成立時(shí)對外宣稱的宗旨,就是希望“確保通用人工智能可以造福全人類”。

雖然乍一看它這些年做的事,有點(diǎn)像在致力于用一部分人的努力,讓更多人失業(yè)。

從Dota2賽場上碾壓人類,到GPT-3、DALL-E2、ChatGPT的閃耀表現(xiàn),它帶來的新產(chǎn)品總是伴隨著“快要讓xxx失業(yè)了”的議論聲。

但無論如何,商業(yè)卻一直對它青睞有加。

就目前而言,OpenAI的主要商業(yè)模式是API費(fèi)用、token費(fèi)用和軟件許可。

OpenAI近期還發(fā)布了ChatGPT的付費(fèi)版ChatGPT Pro,每月費(fèi)用42美元(約合285元人民幣)。

f7d232a4-a56f-11ed-bfe3-dac502259ad0.png

雖然機(jī)器人對話初創(chuàng)公司如雨后春筍般冒出,但諸多跡象表明市場對OpenAI的持續(xù)看好。

微軟剛剛宣布將向OpenAI加碼投資數(shù)十億美元,并將OpenAI的模型融入微軟必應(yīng)等消費(fèi)級和企業(yè)級產(chǎn)品中。

根據(jù)知情人士透露,此次追加投資數(shù)額約為100億美元。

與此同時(shí),WSJ披露的消息顯示,1月初,億萬富翁Peter Thiel創(chuàng)立的風(fēng)投基金Founders Fund正在就投資OpenAI進(jìn)行談判。

據(jù)悉,融資金額將至少達(dá)3億美元。

One More Thing

在第一輪實(shí)驗(yàn)中,ChatGPT并沒有解決QuixBugs數(shù)據(jù)集的bitcount問題。

但若是你現(xiàn)在再重頭問一次這個(gè)問題,就會發(fā)現(xiàn)ChatGPT可以“一遍過”:

f7f63b2c-a56f-11ed-bfe3-dac502259ad0.png

那么這是否意味著ChatGPT已經(jīng)從這次研究過程中學(xué)會求解了呢?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29822

    瀏覽量

    268111
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4723

    瀏覽量

    68236
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    501

    瀏覽量

    10236
  • BUG
    BUG
    +關(guān)注

    關(guān)注

    0

    文章

    155

    瀏覽量

    15639
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1547

    瀏覽量

    7363

原文標(biāo)題:ChatGPT修bug橫掃全場!準(zhǔn)確率達(dá)78%!網(wǎng)友:程序員要開心了

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    5G到底有什么作用?

    國內(nèi)三大運(yùn)營商的4G建設(shè)正在火熱的進(jìn)行中,前幾天報(bào)道5G的先期技術(shù)規(guī)劃已經(jīng)開始,華為等公司已經(jīng)開始投入開發(fā)工作。作為一種典型的延續(xù)性技術(shù),5G的到來看來是不可避免的,但是其到底有什么作用呢?
    發(fā)表于 08-16 06:49

    Linux與Unix到底有什么不同

    Linux 與 Unix 到底有什么不同?
    發(fā)表于 05-08 14:36

    反碼位是什么?到底有什么用?

    反碼位是什么?到底有什么用?
    發(fā)表于 05-07 07:16

    請問車規(guī)級芯片到底有哪些要求?

    請問車規(guī)級芯片到底有哪些要求?
    發(fā)表于 06-18 07:56

    ARM與單片機(jī)到底有啥區(qū)別?

    ARM與單片機(jī)到底有啥區(qū)別?
    發(fā)表于 11-05 07:29

    模擬看門狗到底有什么用處呢

    到底什么是模擬看門狗呢?模擬看門狗到底有什么用處呢?
    發(fā)表于 01-17 07:33

    ARM和DSP到底有什么區(qū)別?

    現(xiàn)在在學(xué)ARM,想知道ARM和DSP到底有什么區(qū)別?為什么有些地方用DSP有些用ARM
    發(fā)表于 10-19 07:20

    請問MSP430到底有幾個(gè)時(shí)鐘呀?

    請問MSP430到底有幾個(gè)時(shí)鐘呀
    發(fā)表于 11-03 06:36

    PCB板顏色到底有什么講究

    冷知識:PCB板顏色到底有哪些講究?
    的頭像 發(fā)表于 08-19 17:15 ?1.8w次閱讀

    工業(yè)互聯(lián)網(wǎng), 你到底有啥用?

    工業(yè)互聯(lián)網(wǎng),你到底有啥用?
    的頭像 發(fā)表于 03-01 12:32 ?3347次閱讀
    工業(yè)互聯(lián)網(wǎng), 你<b class='flag-5'>到底有</b>啥用?

    電源管理總線 (PMBus)—到底有什么價(jià)值?

    電源管理總線 (PMBus)—到底有什么價(jià)值?
    發(fā)表于 11-04 09:51 ?8次下載
    電源管理總線 (PMBus)—<b class='flag-5'>到底有</b>什么價(jià)值?

    智能家居或樓宇的“智商”到底有多高?

    智能家居或樓宇的“智商”到底有多高?
    發(fā)表于 11-04 09:51 ?4次下載
    智能家居或樓宇的“智商”<b class='flag-5'>到底有</b>多高?

    FPC與傳統(tǒng)PCB到底有什么區(qū)別.zip

    FPC與傳統(tǒng)PCB到底有什么區(qū)別
    發(fā)表于 03-01 15:37 ?4次下載

    COB與SMD到底有什么不同

    如今在應(yīng)用領(lǐng)域,COB和SMD兩種技術(shù)正在“平分春色”,但在微小間距LED領(lǐng)域,COB正在成為各大廠商都在爭相研發(fā)的行業(yè)主流技術(shù)。那么COB與SMD到底有什么不同呢?
    的頭像 發(fā)表于 11-02 09:37 ?2446次閱讀
    COB與SMD<b class='flag-5'>到底有</b>什么不同

    RTOS與Linux到底有什么區(qū)別

    很多做嵌入式開發(fā)的小伙伴都存在這樣的疑惑:RTOS與Linux到底有什么區(qū)別?
    的頭像 發(fā)表于 10-29 09:53 ?222次閱讀