欧美人与动欧交视频,亚洲熟妇视频在线观看

在全球所有 AI 模型中，OpenAI 的 GPT-3 最能引發(fā)公眾的遐想。

雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲，并且成功地讓人們相信這是人類的創(chuàng)作。但是，它在同人類對話時還是顯得非常“幼稚”。可盡管如此，技術(shù)人員依然認(rèn)為，創(chuàng)造了 GPT-3 的技術(shù)可能是通往更高級 AI 的必經(jīng)之路。

GPT-3 使用大量文本數(shù)據(jù)進(jìn)行了訓(xùn)練，那么，假如同時使用文本和圖像數(shù)據(jù)進(jìn)行訓(xùn)練，會發(fā)生什么呢？

艾倫人工智能研究所（AI2）在這個問題上取得了進(jìn)展，技術(shù)人員開發(fā)了一種新的視覺語言模型，可以根據(jù)給定的文本生成對應(yīng)圖像。

不同于 GAN 所生成的超現(xiàn)實主義作品，AI2 生成的這些圖像看起來非常怪異，但它的確可能是一個實現(xiàn)通用人工智能的新路徑。

AI“做題家”

GPT-3 在分類上屬于 “Transformer” 模型，隨著 Google BERT 的成功，該模型開始流行。而在 BERT 之前，語言模型可用性不佳。

它們雖然具備一定的預(yù)測能力，但并不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 “masking（遮罩）” 的新技術(shù)，使模型這方面的能力得到了大幅加強(qiáng)。

模型會被要求完成類似下面的填空題：

這位女士去___鍛煉。

他們買了一個___面包做三明治。

這個想法初衷是，如果強(qiáng)迫模型進(jìn)行數(shù)百萬次的這類練習(xí)，它是否可能學(xué)會如何將單詞組合成句子以及如何將句子組合成段落。測試結(jié)果表明，模型確實獲得了更好地生成和解釋文本的能力（Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關(guān)的搜索結(jié)果）。

在證明遮罩行之有效之后，技術(shù)人員試圖通過將文本中的單詞隱藏，將其應(yīng)用于視覺語言模型，例如：

一只站立在樹木旁的___。(來源：MIT TR)

通過數(shù)百萬次的訓(xùn)練，它不僅可以發(fā)現(xiàn)單詞之間的組合模式，還可以發(fā)現(xiàn)單詞與圖像中元素之間的關(guān)聯(lián)。

這樣的結(jié)果就是模型擁有了將文字描述與視覺圖像相關(guān)聯(lián)的能力，就像人類的嬰兒可以在他們所學(xué)的單詞同所見事物之間建立聯(lián)系一樣。

舉個例子，當(dāng)模型讀取到下面的圖片，便可以給出一個較為貼切標(biāo)題，如 “打曲棍球的女人”?；蛘咚鼈兛梢曰卮鹬T如“球是什么顏色？” 之類的問題，因為模型可以將單詞 “球” 與圖像中的圓形物體關(guān)聯(lián)。

圖 | 女子曲棍球比賽 (來源：MIT TR)

一圖勝千言

技術(shù)人員想知道這些模型是否真的像嬰兒一樣 “學(xué)會” 了認(rèn)識這個世界。

孩子不僅可以在看到圖像時聯(lián)想到單詞，還可以在看到單詞時在頭腦中浮現(xiàn)出對應(yīng)的圖像，哪怕這個圖像是真實和想象的混合體。

技術(shù)人員嘗試讓模型做同樣的事情：根據(jù)文本生成圖像。然后模型吐出了無意義的像素圖案。

得到這樣的結(jié)果是有原因的，將文本轉(zhuǎn)換為圖像的任務(wù)相比其他要困難得多。AI2 的計算機(jī)視覺團(tuán)隊負(fù)責(zé)人 Ani Kembhavi 說，文本并未指定圖像中包含的所有內(nèi)容。因此，模型需要 “聯(lián)想” 許多現(xiàn)實世界的常識來填充細(xì)節(jié)。

例如，假設(shè) AI 被要求繪制“在道路上行走的長頸鹿”，它需要推斷出這條道路更可能是灰色而不是粉色，并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過調(diào)整遮罩的方式，來教授 AI 所有這些隱式視覺知識。他們訓(xùn)練模型不是為了從對應(yīng)圖片中預(yù)測被遮蓋的單詞，而是為了讓它能從文本中 “腦補(bǔ)” 圖片中的缺失部分。

雖然模型最終生成的圖像并不完全真實，但這不是重點。重要的是這預(yù)示著模型已經(jīng)包含了正確的高級視覺概念，即 AI 一定程度上具備了兒童的根據(jù)文本畫圖的能力。

圖 | AI2 模型根據(jù)文本生成的圖像示例 (來源：MIT TR)

視覺語言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步，這表明該模型實際上具有一定程度的抽象能力，而這是理解世界的基本技能。

未來，這項技術(shù)很可能對機(jī)器人領(lǐng)域產(chǎn)生極大影響。機(jī)器人可以使用語言進(jìn)行交流，當(dāng)它們對視覺信息的理解越好，就越能夠執(zhí)行復(fù)雜的任務(wù)。

Hajishirzi 說，從短期來看，這種可視化還可以幫助技術(shù)人員更好地理解 AI 模型的學(xué)習(xí)過程。之后，AI2 團(tuán)隊計劃展開更多實驗，以提高圖像生成的質(zhì)量，并拓寬模型的視覺和語言。

文章出處：【微信公眾號：DeepTech深科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29013

瀏覽量
266449
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46124

瀏覽量
235407

原文標(biāo)題：這些令人不安的照片，表明AI越來越聰明了！它正在學(xué)習(xí)根據(jù)文字生成圖片

文章出處：【微信號：deeptechchina，微信公眾號：deeptechchina】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

英偉達(dá)預(yù)測機(jī)器人領(lǐng)域或迎“GPT-3時刻”

未來2-3年內(nèi)，機(jī)器人基礎(chǔ)模型的研究將迎來重大突破，這一時刻被形象地比喻為機(jī)器人領(lǐng)域的“GPT-3時刻”。

發(fā)表于 09-20 17:05 ?661次閱讀

Jim Fan展望:機(jī)器人領(lǐng)域即將迎來GPT-3式突破

英偉達(dá)科學(xué)家9月19日，科技媒體The Decoder發(fā)布了一則引人關(guān)注的報道，英偉達(dá)高級科學(xué)家Jim Fan在近期預(yù)測，機(jī)器人技術(shù)將在未來兩到三年內(nèi)迎來類似GPT-3在語言處理領(lǐng)域的革命性突破，他稱之為機(jī)器人領(lǐng)域的“GPT-3時刻”。

發(fā)表于 09-19 15:13 ?338次閱讀

【算能RADXA微服務(wù)器試用體驗】+ GPT語音與視覺交互：4，文字轉(zhuǎn)語音

tts_venv source tts_venv/bin/activate pip3 install https://github.com/radxa-edge/TPU-Edge-AI/releases

發(fā)表于 07-15 23:18

耐能推出最新的邊緣AI服務(wù)器及內(nèi)置耐能AI芯片的PC設(shè)備

- 耐能的邊緣 AI 服務(wù)器 KNEO 330 為中小企業(yè)帶來 30-40% 的成本節(jié)省，同兼顧隱私和安全性。- 耐能的邊緣 GPT AI

發(fā)表于 06-05 10:21 ?454次閱讀

為什么GPU適用于AI？AI服務(wù)器產(chǎn)業(yè)鏈格局分析

GPT模型對比BERT模型、T5模型的參數(shù)量有明顯提升。GPT-3是目前最大的知名語言模型之一，包含了1750億（175B）個參數(shù)。在GPT-3發(fā)布之前，最大的語言模型是微軟的Turi

發(fā)表于 04-09 10:38 ?713次閱讀

為什么GPU適用于<b class='flag-5'>AI</b>？<b class='flag-5'>AI</b>服務(wù)器產(chǎn)業(yè)鏈格局分析

新火種AI|秒殺GPT-4，狙殺GPT-5，橫空出世的Claude 3振奮人心！

2024年第一季度才剛過半，AI領(lǐng)域就大動作不斷，大家卯著勁的出新品，可謂卷出天際。 ? 3月4日，Anthropic發(fā)布了最新的Claude 3系列模型，用Anthropic的話說，Claude

發(fā)表于 03-06 22:22 ?512次閱讀

新火種<b class='flag-5'>AI</b>|秒殺<b class='flag-5'>GPT</b>-4，狙殺<b class='flag-5'>GPT</b>-5，橫空出世的Claude <b class='flag-5'>3</b>振奮人心！

OpenAI推出ChatGPT新功能：朗讀，支持37種語言，兼容GPT-4和GPT-3

據(jù)悉，“朗讀”功能支持37種語言，且能夠自主識別文本類型并對應(yīng)相應(yīng)的發(fā)音。值得關(guān)注的是，該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態(tài)交互”（multimodal capabilities）的方向

發(fā)表于 03-05 15:48 ?730次閱讀

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹立AI新標(biāo)桿

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能，成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI模型的GPT

發(fā)表于 03-05 09:49 ?561次閱讀

MB91530_590 EVB板添加字庫，能顯示圖片但是沒有文字顯示是為什么？

我的 MB91530_590EVB板在應(yīng)用例程中添加字庫能顯示圖片但是沒有文字顯示。我是在開發(fā)板的例程中修改的。我是按照文檔一步一步做的，為什么顯示不出文字，有知道原因的請盡快回

發(fā)表于 02-22 08:19

Rambus HBM3內(nèi)存控制器IP速率達(dá)到9.6 Gbps

在人工智能大模型浪潮的推動下，AI訓(xùn)練數(shù)據(jù)集正極速擴(kuò)增。以ChatGPT為例，去年11月發(fā)布的GPT-3，使用1750億個參數(shù)構(gòu)建，今年3月發(fā)

發(fā)表于 01-23 11:19 ?787次閱讀

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

和1750億參數(shù)的GPT-3都是非常由有競爭力的 MetaAI研究人員認(rèn)為，當(dāng)前大模型的高成本阻礙了學(xué)術(shù)研究，因此，開發(fā)出這個更小更強(qiáng)的模型將有利于學(xué)術(shù)研究的發(fā)展。使用較少參數(shù)的模型，在更多的tokens上

發(fā)表于 12-22 10:18

工程師說 | 使用Chat-GPT為RL78 MCU（Arduino）編寫AI代碼

Engineer 背景知識什么是Chat-GPT？ Chat-GPT是由OpenAI開發(fā)的AI工具，它可以基于預(yù)先訓(xùn)練的文本信息理解用戶輸入的文本或問題，并產(chǎn)生答案。但是，它并不

發(fā)表于 12-21 18:20 ?851次閱讀

AI模型底層機(jī)制解析GPT與神經(jīng)網(wǎng)絡(luò)的關(guān)系

GPT 想必大家已經(jīng)耳熟能詳，當(dāng)我們與它進(jìn)行對話時，通常只需關(guān)注自己問出的問題（輸入）以及 GPT 給出的答案（輸出），對于輸出內(nèi)容是如何產(chǎn)生的，我們一無所知，它就像一個神秘的黑盒子。

發(fā)表于 12-13 09:44 ?1204次閱讀

LLM真的能推理和規(guī)劃嗎？

在研究人員選擇的模型中，GPT-3 davinci（非指令微調(diào)）、GPT-3 textdavinci-001（指令微調(diào)）和GPT-3 textdavinci-003（InstructGPT）都是以前觀察到過涌現(xiàn)能力的模型。這一選

發(fā)表于 11-30 09:45 ?552次閱讀

ChatGPT Plus怎么支付 GPT4得訂閱嗎？

自去年年底 OpenAI 轉(zhuǎn)型發(fā)布 ChatGPT 以來，生成式 AI 成為許多硅谷投資者關(guān)注的焦點。該聊天機(jī)器人使用從互聯(lián)網(wǎng)和其他地方抓取的大量數(shù)據(jù)來對人類提示產(chǎn)生預(yù)測響應(yīng)。GPT-4 的許多方面

發(fā)表于 10-10 12:16 ?1675次閱讀