0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT4做Leetcode的能力

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-04-28 15:27 ? 次閱讀

雖然一次周賽的幾個(gè)題目說明不了太多問題,比如這個(gè)周賽的Hard題目就是板子題,算不上Hard,也許把第三題和第四題的順序換一下比較合適。但是,GPT4的表現(xiàn)已經(jīng)嚴(yán)重超出了我的預(yù)期。對(duì)于這次周賽的四個(gè)題目,GPT4的表現(xiàn)如下:題目1: 錯(cuò)了一次,簡(jiǎn)單提示后修正了錯(cuò)誤,2A了。題目2: 1A。題目3: 無法通過提示的方法讓GPT4做對(duì),WA。題目4: 1A。不得不說,GPT4在模擬,模板題方面已經(jīng)具備了不錯(cuò)的理解和處理能力,感覺在更強(qiáng)大的數(shù)據(jù)和更大模型的加持下以后大語言模型的做題能力能趕上一大半人類。| 從提升算法能力的角度來說,我不建議任何讀者使用GPT4來做Leetcode。

0x0. 前言

GPT4論文(https://cdn.openai.com/papers/gpt-4.pdf)的第4節(jié)展示了GPT4的各種能力,在表格的最后三行展示了GPT4做Leetcode的能力,我比較感興趣,所以本文打算來探索一下這種能力。看一下GPT4配合一個(gè)只發(fā)出prompt的人的表現(xiàn)如何。

4c3d0b6c-e593-11ed-ab56-dac502259ad0.png

為了公平起見,我這里選取了LeetCode第 102 場(chǎng)雙周賽(https://leetcode.cn/contest/biweekly-contest-102/)也就是2023年4月15日的這一場(chǎng)。我打算用GPT4來嘗試解開這場(chǎng)周賽的4道題目,但是不一定能都解開,只是測(cè)試一下GPT4的寫算法的能力。

我將全程只指揮GPT4寫代碼來解題,我自己不做任何的Coding工作。

先建立一個(gè)GPT4的新對(duì)話:

4c4b8c64-e593-11ed-ab56-dac502259ad0.png

在這里插入圖片描述

0x1. 第一題

第一題是個(gè)Easy的題目,描述如下:

4c5276fa-e593-11ed-ab56-dac502259ad0.png

接下來,我們先把題面輸入到GPT4。

4c5c017a-e593-11ed-ab56-dac502259ad0.png

4c653dd0-e593-11ed-ab56-dac502259ad0.png

4c6da7ae-e593-11ed-ab56-dac502259ad0.png



GPT4給了我們一個(gè)回復(fù),感覺挺對(duì)的,但是這種格式不能讓Leetcode直接通過,我們?cè)僮孏PT4更新一下格式:

4c79d510-e593-11ed-ab56-dac502259ad0.png

4c82a1fe-e593-11ed-ab56-dac502259ad0.png

接下來就是緊張的時(shí)刻,我們把這個(gè)類的代碼提交給Leetcode。

4c89800a-e593-11ed-ab56-dac502259ad0.png

結(jié)果錯(cuò)誤,Leetcode返回了錯(cuò)誤的例子。我們把這個(gè)錯(cuò)誤的例子再返回給GPT4讓它自己debug。

4c93b7d2-e593-11ed-ab56-dac502259ad0.png

我們把它修正后的代碼提交給Leetcode。

4c9e6628-e593-11ed-ab56-dac502259ad0.png

現(xiàn)在GPT4順利通過了第一道題目。

0x2. 第二題

4ca9fae2-e593-11ed-ab56-dac502259ad0.png

在這里插入圖片描述

我們問一下GPT4

4cb18d0c-e593-11ed-ab56-dac502259ad0.png

4cbfb45e-e593-11ed-ab56-dac502259ad0.png

4cccf588-e593-11ed-ab56-dac502259ad0.png

我們提交給Leetcode試試。

4cd3e7c6-e593-11ed-ab56-dac502259ad0.png

直接通過,GPT4真有點(diǎn)強(qiáng)。

0x3. 第三題

4cde24a2-e593-11ed-ab56-dac502259ad0.png

問問GPT4:

4ce8c628-e593-11ed-ab56-dac502259ad0.png

4cefd8a0-e593-11ed-ab56-dac502259ad0.png

4cf592d6-e593-11ed-ab56-dac502259ad0.png

4cfd17d6-e593-11ed-ab56-dac502259ad0.png

這個(gè)問題感覺還是比較麻煩的,GPT4給出的方案感覺一眼假,不過我們不妨運(yùn)行一下它給的代碼。

4d05a6d0-e593-11ed-ab56-dac502259ad0.png

我們發(fā)現(xiàn)編譯就報(bào)錯(cuò)了。我們返回這個(gè)結(jié)果給GPT4:

4d0c43e6-e593-11ed-ab56-dac502259ad0.png

4d154662-e593-11ed-ab56-dac502259ad0.png

現(xiàn)在確實(shí)可以編譯了,但我們發(fā)現(xiàn)這個(gè)程序連樣例都無法通過。顯然,GPT4根本沒有理解這道題目的意思,結(jié)果傾向于是“胡說八道”。再加強(qiáng)一些提示:

4d1fe52c-e593-11ed-ab56-dac502259ad0.png

4d28223c-e593-11ed-ab56-dac502259ad0.png

4d33024c-e593-11ed-ab56-dac502259ad0.png

最后GPT4輸出的代碼仍然無法通過樣例。這道題,GPT4應(yīng)該是無能為力了。

從這道題目,我們可以看到GPT4的局限性,那就是對(duì)于這種思維性的題目,GPT4很難理解這道題目暗含的意思,設(shè)計(jì)的算法也是錯(cuò)誤的。

題解可以參考:https://leetcode.cn/problems/cousins-in-binary-tree-ii/solution/bfssuan-liang-ci-pythonjavacgo-by-endles-b72a/

0x4. 第4題

接下來我們看一下第4題,這個(gè)題是比較模板的題,我們看一下GPT4能否解開。

4d3dcc9a-e593-11ed-ab56-dac502259ad0.png

4d4be8ac-e593-11ed-ab56-dac502259ad0.png

4d5668cc-e593-11ed-ab56-dac502259ad0.png

4d624a02-e593-11ed-ab56-dac502259ad0.png

在這里插入圖片描述

我們來看一下GPT4給出的答案能否通過樣例。

4d6cab00-e593-11ed-ab56-dac502259ad0.png

是可以通過給出的樣例的。我們提交試試。

4d77415a-e593-11ed-ab56-dac502259ad0.png

這道題GPT4的完整代碼實(shí)現(xiàn)如下:

classGraph{
public:
Graph(intn,vector<vector<int>>&edges){
this->n=n;
for(constauto&edge:edges){
adjList[edge[0]].push_back({edge[1],edge[2]});
}
}

voidaddEdge(vector<int>edge){
adjList[edge[0]].push_back({edge[1],edge[2]});
}

intshortestPath(intnode1,intnode2){
vector<int>dist(n,INT_MAX);
dist[node1]=0;

priority_queueint,int>,vectorint,int>>,greaterint,int>>>pq;
pq.push({0,node1});

while(!pq.empty()){
intcurrNode=pq.top().second;
intcurrDist=pq.top().first;
pq.pop();

if(currNode==node2)returncurrDist;

if(currDist>dist[currNode])continue;

for(constauto&neighbor:adjList[currNode]){
intnextNode=neighbor.first;
intedgeCost=neighbor.second;

if(currDist+edgeCostreturn-1;
}

private:
intn;
unordered_map<int,vectorint,int>>>adjList;
};

雖然這道題很難說是Hrad的難度,但1A真的太嚇人了。。。

0x5. 總結(jié)+預(yù)測(cè)

雖然一次周賽的幾個(gè)題目說明不了太多問題,比如這個(gè)周賽的Hard題目就是板子題,算不上Hard,也許把第三題和第四題的順序換一下比較合適。但是,GPT4的表現(xiàn)已經(jīng)嚴(yán)重超出了我的預(yù)期。

對(duì)于這次周賽的四個(gè)題目,GPT4的表現(xiàn)如下:

題目1: 錯(cuò)了一次,簡(jiǎn)單提示后修正了錯(cuò)誤,2A了。題目2: 1A題目3: 無法通過提示的方法讓GPT4做對(duì),WA。題目4: 1A。

不得不說,GPT4在模擬,模板題方面已經(jīng)具備了不錯(cuò)的理解和處理能力,感覺在更強(qiáng)大的數(shù)據(jù)和更大模型的加持下以后大語言模型的做題能力能趕上一大半人類。| 從提升算法能力的角度來說,我不建議任何讀者使用GPT4來做Leetcode。

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4551

    瀏覽量

    92016
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4670

    瀏覽量

    67761
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    347

    瀏覽量

    15179

原文標(biāo)題:0x5. 總結(jié)+預(yù)測(cè)

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPT4再升級(jí),更強(qiáng)大更便宜!不懂代碼也能生成應(yīng)用,享受分成

    GPT-4 Turbo以及ChatGPT的一系列升級(jí)內(nèi)容。 ? OpenAI自去年底推出ChatGPT之后享譽(yù)全球,近一年來不斷推進(jìn)技術(shù)和應(yīng)用創(chuàng)新。該公司強(qiáng)調(diào),其今年3月發(fā)布的GPT-4至今仍是世界上能力
    的頭像 發(fā)表于 11-14 00:23 ?1803次閱讀

    OpenAI全新GPT-4o能力炸場(chǎng)!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4
    的頭像 發(fā)表于 05-15 00:15 ?7680次閱讀

    淺談ChatGPT的最新“升級(jí)版本”——GPT4模型

    瀏覽OpenAI發(fā)布的演示視頻發(fā)現(xiàn),GPT4的語言理解和生成能力均超過了ChatGPT,可以解答ChatGPT無法
    的頭像 發(fā)表于 03-22 22:26 ?2910次閱讀

    GPT4搞電機(jī)?

    GPT4可以搞電機(jī)嗎?
    的頭像 發(fā)表于 04-06 10:08 ?1329次閱讀
    用<b class='flag-5'>GPT4</b>搞電機(jī)?

    微軟GPT-4搜索引擎重大升級(jí) 新Bing開放AI能力

    微軟GPT-4搜索引擎重大升級(jí) 新Bing開放AI能力 微軟和OpenAI合作將人工智能技術(shù)應(yīng)用于必應(yīng)搜索帶來了更多不一樣的搜索體驗(yàn)。 此前Open AI發(fā)布了新一代大型人工智能語言訓(xùn)練模型
    的頭像 發(fā)表于 05-05 17:15 ?2470次閱讀

    如何利用LLM多模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)
    的頭像 發(fā)表于 05-11 17:09 ?810次閱讀
    如何利用LLM<b class='flag-5'>做</b>多模態(tài)任務(wù)?

    GPT-4創(chuàng)造力竟全面碾壓人類!最新創(chuàng)造力測(cè)試GPT4排名前1%

    來源:新智元最近,一項(xiàng)有關(guān)GPT-4的創(chuàng)造力思維測(cè)試火了。來自蒙大拿大學(xué)和UMWestern大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),GPT-4在Torrance創(chuàng)造性思維測(cè)試(TTCT)中的得分直接排在了前1%。不管是
    的頭像 發(fā)表于 06-26 10:06 ?492次閱讀
    <b class='flag-5'>GPT-4</b>創(chuàng)造力竟全面碾壓人類!最新創(chuàng)造力測(cè)試<b class='flag-5'>GPT4</b>排名前1%

    你考慮用GPT4搞電機(jī)嗎?

    最近的GPT4有多火這里不需要贅述了。微軟,蘋果,baidu等各巨頭紛紛跟進(jìn)。這個(gè)賽道最近是各種資本涌入,猶如PC互聯(lián)網(wǎng)轉(zhuǎn)型到移動(dòng)互聯(lián)網(wǎng)時(shí)的爆發(fā)。
    發(fā)表于 07-05 09:16 ?297次閱讀
    你考慮用<b class='flag-5'>GPT4</b>搞電機(jī)嗎?

    gpt-4怎么用 英特爾Gaudi2加速卡GPT-4詳細(xì)參數(shù)

    介紹GPT-4 詳細(xì)參數(shù)及英特爾發(fā)布 Gaudi2 加速器相關(guān)內(nèi)容,對(duì)大模型及 GPU 生態(tài)進(jìn)行探討和展望。英特爾發(fā)布高性價(jià)比Gaudi2加速卡GPT4詳細(xì)參數(shù)分析。
    發(fā)表于 07-21 10:50 ?775次閱讀
    <b class='flag-5'>gpt-4</b>怎么用 英特爾Gaudi2加速卡<b class='flag-5'>GPT-4</b>詳細(xì)參數(shù)

    chatGPT和GPT4有什么區(qū)別

    chatGPT和GPT4有什么區(qū)別 GPT(Generative Pre-trained Transformer)系列模型由OpenAI公司開發(fā),是一組用于自然語言處理(NLP)任務(wù)的人工智能模型
    的頭像 發(fā)表于 08-09 15:18 ?2728次閱讀

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4 大模型,帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計(jì)師的使用過程中,「
    的頭像 發(fā)表于 08-11 14:20 ?806次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理<b class='flag-5'>能力</b>嗎?

    ChatGPT Plus怎么支付 GPT4得訂閱嗎?

    自去年年底 OpenAI 轉(zhuǎn)型發(fā)布 ChatGPT 以來,生成式 AI 成為許多硅谷投資者關(guān)注的焦點(diǎn)。該聊天機(jī)器人使用從互聯(lián)網(wǎng)和其他地方抓取的大量數(shù)據(jù)來對(duì)人類提示產(chǎn)生預(yù)測(cè)響應(yīng)。GPT-4 的許多方面
    的頭像 發(fā)表于 10-10 12:16 ?1659次閱讀
    ChatGPT Plus怎么支付 <b class='flag-5'>GPT4</b>得訂閱嗎?

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日,商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個(gè)云、端、邊全棧大模型產(chǎn)品矩陣,能夠滿足不同規(guī)模
    的頭像 發(fā)表于 04-24 16:49 ?968次閱讀

    股價(jià)久違飆漲,商湯要用自己的Scaling law挑戰(zhàn)GPT4

    前一天的“2024年商湯技術(shù)交流日”上,商湯發(fā)布了對(duì)標(biāo)GPT4-Turbo的大模型日日新大模型SenseNova5.0,追趕GPT4可能是當(dāng)下中國大模型行業(yè)的集體目
    的頭像 發(fā)表于 05-08 08:05 ?276次閱讀
    股價(jià)久違飆漲,商湯要用自己的Scaling law挑戰(zhàn)<b class='flag-5'>GPT4</b>

    開發(fā)者如何調(diào)用OpenAI的GPT-4o API以及價(jià)格詳情指南

    ,高達(dá)每分鐘1000萬字符。 速度 :GPT-4o的速度是GPT-4 Turbo的兩倍。 視覺能力 :在視覺能力相關(guān)的評(píng)估中,GPT-4o表
    的頭像 發(fā)表于 05-29 16:00 ?7671次閱讀
    開發(fā)者如何調(diào)用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價(jià)格詳情指南