gogo人体大胆高清啪啪,最近最新中文字幕大全免费3

繼 8 月初阿里云開(kāi)源通義千問(wèn) 70 億參數(shù)通用模型 Qwen-7B 和對(duì)話模型 Qwen-7B-Chat 后，又一大模型實(shí)現(xiàn)了開(kāi)源。阿里云開(kāi)源通義千問(wèn)多模態(tài)大模型 Qwen-VL

InfoQ 獲悉，8 月 25 日，阿里云開(kāi)源通義千問(wèn)多模態(tài)大模型 Qwen-VL。這是繼 8 月初阿里云開(kāi)源通義千問(wèn) 70 億參數(shù)通用模型 Qwen-7B 和對(duì)話模型 Qwen-7B-Chat 后，又開(kāi)源的一大模型。

據(jù)介紹，Qwen-VL 是支持中英文等多種語(yǔ)言的視覺(jué)語(yǔ)言（Vision Language，VL）模型。相較于此前的 VL 模型，Qwen-VL 除了具備基本的圖文識(shí)別、描述、問(wèn)答及對(duì)話能力之外，還新增了視覺(jué)定位、圖像中文字理解等能力。

具體來(lái)說(shuō)，Qwen-VL 可以以圖像、文本、檢測(cè)框作為輸入，并以文本和檢測(cè)框作為輸出，可用于知識(shí)問(wèn)答、圖像標(biāo)題生成、圖像問(wèn)答、文檔問(wèn)答、細(xì)粒度視覺(jué)定位等多種場(chǎng)景。比如，一位不懂中文的外國(guó)游客到醫(yī)院看病，不知道怎么去往對(duì)應(yīng)科室，他拍下樓層導(dǎo)覽圖問(wèn) Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”，Qwen-VL 會(huì)根據(jù)圖片信息給出文字回復(fù)。

此外，Qwen-VL 還是業(yè)界首個(gè)支持中文開(kāi)放域定位的通用模型，可以通過(guò)中文開(kāi)放域語(yǔ)言表達(dá)進(jìn)行檢測(cè)框標(biāo)注。開(kāi)放域視覺(jué)定位能力決定了大模型“視力”的精準(zhǔn)度，這意味著具備該能力的大模型能在畫(huà)面中精準(zhǔn)地找出想找的事物。比如，輸入一張上海外灘的照片，讓 Qwen-VL 找出東方明珠，Qwen-VL 能用檢測(cè)框準(zhǔn)確圈出對(duì)應(yīng)建筑。

據(jù)了解，Qwen-VL 以 Qwen-7B 為基座語(yǔ)言模型研發(fā)，在模型架構(gòu)上引入視覺(jué)編碼器，使得模型支持視覺(jué)信號(hào)輸入，并通過(guò)設(shè)計(jì)訓(xùn)練過(guò)程，讓模型具備對(duì)視覺(jué)信號(hào)的細(xì)粒度感知和理解能力。更高分辨率可以提升細(xì)粒度的文字識(shí)別、文檔問(wèn)答和檢測(cè)框標(biāo)注，相比于目前其它開(kāi)源 LVLM 使用的 224 分辨率，Qwen-VL 是首個(gè)開(kāi)源的 448 分辨率的 LVLM 模型。

阿里云通義千問(wèn)團(tuán)隊(duì)算法專家、Qwen-VL 開(kāi)源模型負(fù)責(zé)人白金澤在接受 InfoQ 采訪時(shí)表示，Qwen-VL 模型的訓(xùn)練分為三個(gè)階段：

在預(yù)訓(xùn)練階段，團(tuán)隊(duì)主要利用大規(guī)模、弱標(biāo)注的圖像 - 文本樣本對(duì)進(jìn)行訓(xùn)練；

在多任務(wù)訓(xùn)練階段，團(tuán)隊(duì)整理了大量高質(zhì)量多任務(wù)的細(xì)粒度圖文標(biāo)注數(shù)據(jù)進(jìn)行混合訓(xùn)練，并升高了圖像的輸入分辨率，降低圖像縮放引起的信息損失，增強(qiáng)模型對(duì)圖像細(xì)節(jié)的感知能力，得到 Qwen-VL 預(yù)訓(xùn)練模型；

在指令微調(diào)階段，團(tuán)隊(duì)使用合成標(biāo)注的對(duì)話數(shù)據(jù)進(jìn)行指令微調(diào)，激發(fā)模型的指令跟隨和對(duì)話能力，得到具有交互能力的 Qwen-VL-Chat 對(duì)話模型。

白金澤表示，Qwen-VL 模型的研發(fā)難點(diǎn)主要體現(xiàn)在數(shù)據(jù)、訓(xùn)練、框架三個(gè)層面?！皵?shù)據(jù)方面，多模態(tài)的數(shù)據(jù)整理和清洗是個(gè)難點(diǎn)，有效的數(shù)據(jù)清洗可以提高訓(xùn)練效率以及提升最終收斂后的效果。訓(xùn)練方面，在多模態(tài)大模型的訓(xùn)練中，一般認(rèn)為大 batch 和較大學(xué)習(xí)率可以提升訓(xùn)練收斂效率和最終結(jié)果，但其訓(xùn)練過(guò)程可能更加不穩(wěn)定。我們通過(guò)一些訓(xùn)練技巧有效提升了訓(xùn)練穩(wěn)定性，具體細(xì)節(jié)將在相關(guān)論文中公布?？蚣芊矫妫壳岸嗄B(tài)大模型的并行訓(xùn)練框架支持并不完善，我們對(duì)多模態(tài)大模型的 3D 并行技術(shù)進(jìn)行了優(yōu)化，可穩(wěn)定訓(xùn)練更大規(guī)模的多模態(tài)模型?！?/p>

除了 Qwen-VL，本次阿里云還開(kāi)源了 Qwen-VL-Chat。Qwen-VL-Chat 是在 Qwen-VL 的基礎(chǔ)上，使用對(duì)齊機(jī)制打造的基于大語(yǔ)言模型的視覺(jué) AI 助手，可讓開(kāi)發(fā)者快速搭建具備多模態(tài)能力的對(duì)話應(yīng)用。

白金澤補(bǔ)充說(shuō)，團(tuán)隊(duì)主要通過(guò)兩類方式評(píng)估了多模態(tài)大模型的效果。其一是使用標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集來(lái)評(píng)測(cè)每個(gè)多模態(tài)子任務(wù)的效果。例如評(píng)測(cè)圖片描述（Image Captioning）、圖片問(wèn)答（Visual Question Answering, VQA）、文檔問(wèn)答（Document VQA）、圖表問(wèn)答（Chart VQA）、少樣本問(wèn)答（Few-shot VQA）、參照物標(biāo)注（Referring Expression Comprehension）等。其二是使用人工或借助 GPT-4 打分來(lái)評(píng)測(cè)多模態(tài)大模型的整體對(duì)話能力和對(duì)齊水平。通義千問(wèn)團(tuán)隊(duì)構(gòu)建了一套基于 GPT-4 打分機(jī)制的基準(zhǔn)“試金石”（ TouchStone），總計(jì)涵蓋 300+ 張圖片、800+ 道題目、27 個(gè)題目類別。

在四大類多模態(tài)任務(wù)（Zero-shot Caption/VQA/DocVQA/Grounding）的標(biāo)準(zhǔn)英文測(cè)評(píng)中，Qwen-VL 取得了同等尺寸開(kāi)源 LVLM 的最好效果。為了測(cè)試模型的多模態(tài)對(duì)話能力，通義千問(wèn)團(tuán)隊(duì)構(gòu)建了一套基于 GPT-4 打分機(jī)制的測(cè)試集“試金石”，對(duì) Qwen-VL-Chat 及其他模型進(jìn)行對(duì)比測(cè)試，Qwen-VL-Chat 在中英文的對(duì)齊評(píng)測(cè)中均取得了開(kāi)源 LVLM 最好結(jié)果。

目前，Qwen-VL 及其視覺(jué) AI 助手 Qwen-VL-Chat 均已上線 ModelScope 魔搭社區(qū)，開(kāi)源、免費(fèi)、可商用。用戶可從魔搭社區(qū)直接下載模型，也可通過(guò)阿里云靈積平臺(tái)訪問(wèn)調(diào)用 Qwen-VL 和 Qwen-VL-Chat，阿里云為用戶提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。

大模型發(fā)展的下一站：多模態(tài)大模型

多模態(tài)大模型是指能夠理解文字、圖像、視頻、音頻等多種模態(tài)信息的大模型，與僅能理解單一文本模態(tài)的語(yǔ)言模型相比，多模態(tài)大模型的優(yōu)勢(shì)就在于可以充分利用語(yǔ)言模型的指令理解能力，來(lái)做圖像、語(yǔ)音、視頻等各種模態(tài)中的開(kāi)放域任務(wù)，從而具備處理不同模態(tài)信息的通用能力。而單一模態(tài)大模型的任務(wù)形式通常都是預(yù)先定義好的，比如圖像 / 視頻 / 語(yǔ)音分類任務(wù)，需要提前知道這些類別，然后針對(duì)性的找訓(xùn)練數(shù)據(jù)去訓(xùn)練模型。

有觀點(diǎn)認(rèn)為，多模態(tài)是預(yù)訓(xùn)練大模型最重要的技術(shù)演進(jìn)方向之一。

業(yè)界普遍認(rèn)為，從單一感官的、僅支持文本輸入的語(yǔ)言模型，到“五官全開(kāi)”的，支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型，蘊(yùn)含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對(duì)世界的理解程度，充分拓展大模型的使用場(chǎng)景。比如，以 GPT-4、PaLM-E 為代表的一批模型，通過(guò)賦予大語(yǔ)言模型感知、理解視覺(jué)信號(hào)的能力，展現(xiàn)出大規(guī)模視覺(jué)語(yǔ)言模型在解決以視覺(jué)為中心的實(shí)際問(wèn)題的前景，并顯示出進(jìn)一步拓展到具身智能、通向通用人工智能的廣闊前景。

其中，視覺(jué)作為人類的第一感官能力，也是研究者首先希望賦予大模型的多模態(tài)能力。因此，繼此前推出 M6、OFA 系列多模態(tài)模型之后，阿里云通義千問(wèn)團(tuán)隊(duì)又開(kāi)源了基于 Qwen-7B 的大規(guī)模視覺(jué)語(yǔ)言模型 Qwen-VL。

不過(guò)，多模態(tài)大模型的開(kāi)發(fā)并非易事，白金澤表示，多模態(tài)大模型的開(kāi)發(fā)難度包括但不限于以下幾點(diǎn)：

模態(tài)間表征差異大：大規(guī)模純語(yǔ)言模型的輸入輸出一般是離散表征，而圖像、語(yǔ)音等內(nèi)容通常是連續(xù)表征，其模態(tài)間的信息密度、表征空間、輸入輸出方式等都存在巨大差異，這導(dǎo)致了設(shè)計(jì)的復(fù)雜性。

多模態(tài)大模型收斂不穩(wěn)定：由于模態(tài)間表征差異大、各模態(tài)網(wǎng)絡(luò)異構(gòu)等因素，相比純文本大模型，多模態(tài)大模型的訓(xùn)練具有更多的挑戰(zhàn)，更有可能出現(xiàn)訓(xùn)練不穩(wěn)定的情況。

缺乏穩(wěn)定開(kāi)源框架支持：目前常見(jiàn)的開(kāi)源大模型訓(xùn)練框架，都只對(duì)純語(yǔ)言模型的訓(xùn)練效率進(jìn)行了極致的優(yōu)化。為了處理多模態(tài)輸入輸出，多模態(tài)模型通常有非對(duì)稱的網(wǎng)絡(luò)結(jié)構(gòu)，導(dǎo)致無(wú)法直接用常見(jiàn)開(kāi)源訓(xùn)練框架擴(kuò)展到超大參數(shù)量。通義千問(wèn)團(tuán)隊(duì)對(duì)多模態(tài)的并行訓(xùn)練框架進(jìn)行了多重優(yōu)化，可穩(wěn)定訓(xùn)練更大規(guī)模的多模態(tài)模型。

“多模態(tài)是我們很看好的技術(shù)方向，這個(gè)領(lǐng)域還有很多技術(shù)難題有待解決，未來(lái)我們也會(huì)持續(xù)研究。就 Qwen-VL 來(lái)說(shuō)，接下來(lái)的工作包括支持更高分辨率的圖像輸入，無(wú)監(jiān)督地從圖像中學(xué)習(xí)更多的世界知識(shí)，擴(kuò)展更多模態(tài)，加深對(duì)多模態(tài)數(shù)據(jù)的理解，等等。”白金澤說(shuō)道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
501

瀏覽量
10236
阿里云

阿里云

+關(guān)注

關(guān)注
3

文章
933

瀏覽量
42929
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2274

瀏覽量
2357

原文標(biāo)題：通義千問(wèn)能看圖了！阿里云開(kāi)源視覺(jué)語(yǔ)言大模型Qwen-VL ，支持圖文雙模態(tài)輸入

文章出處：【微信號(hào)：AI前線，微信公眾號(hào)：AI前線】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

PerfXCloud重磅升級(jí) 阿里開(kāi)源最強(qiáng)視覺(jué)語(yǔ)言模型Qwen2-VL-7B強(qiáng)勢(shì)上線！

體驗(yàn)吧！ Qwen2-VL Qwen2-VL模型由阿里推出，在描述圖像、理解視頻以及解答視覺(jué)相關(guān)問(wèn)題等方面表現(xiàn)極為卓越。該

發(fā)表于 10-23 11:07 ?208次閱讀

PerfXCloud重磅升級(jí) <b class='flag-5'>阿里</b><b class='flag-5'>開(kāi)源</b>最強(qiáng)<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b><b class='flag-5'>Qwen2-VL</b>-7B強(qiáng)勢(shì)上線！

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)，多模態(tài)大

發(fā)表于 10-18 09:39 ?253次閱讀

號(hào)稱全球最強(qiáng)開(kāi)源模型 ——Qwen2.5 系列震撼來(lái)襲！PerfXCloud同步上線，快來(lái)體驗(yàn)！

9月19日凌晨，阿里通義千問(wèn) 正式開(kāi)源Qwen2.5系列大模型，最新發(fā)布包括了語(yǔ)言模型

發(fā)表于 09-25 16:52 ?489次閱讀

號(hào)稱全球最強(qiáng)<b class='flag-5'>開(kāi)源</b><b class='flag-5'>模型</b> ——<b class='flag-5'>Qwen</b>2.5 系列震撼來(lái)襲！PerfXCloud同步上線，快來(lái)體驗(yàn)！

通義千問(wèn)發(fā)布第二代視覺(jué)語(yǔ)言模型Qwen2-VL

阿里巴巴旗下的通義千問(wèn)近日宣布，其第二代視覺(jué)語(yǔ)言模型Qwen2-VL正式問(wèn)世，并宣布旗艦模型

發(fā)表于 09-03 16:31 ?509次閱讀

阿里Qwen2-Math系列震撼發(fā)布，數(shù)學(xué)推理能力領(lǐng)跑全球

阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型，這一系列模型基于其強(qiáng)大的Qwen2 LLM構(gòu)建，專為數(shù)學(xué)解題而生，展現(xiàn)了前所未有的數(shù)學(xué)推

發(fā)表于 08-12 15:19 ?672次閱讀

基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體

Qwen2 是阿里巴巴集團(tuán) Qwen 團(tuán)隊(duì)研發(fā)的大語(yǔ)言模型和大型多模態(tài)

發(fā)表于 07-26 09:54 ?707次閱讀

基于<b class='flag-5'>Qwen</b>-Agent與OpenVINO構(gòu)建本地AI智能體

阿里云設(shè)備的物模型數(shù)據(jù)里面始終沒(méi)有值是為什么？

如上圖，不知道講清楚沒(méi)有。 IG502自定義TOPIC 上發(fā)到阿里云沒(méi)問(wèn)題。采用阿里云物模型的格式來(lái)上發(fā)就不行。請(qǐng)大佬指教！

發(fā)表于 07-24 07:49

Qwen2強(qiáng)勢(shì)來(lái)襲，AIBOX支持本地化部署

Qwen2是阿里通義推出的新一代多語(yǔ)言預(yù)訓(xùn)練模型，經(jīng)過(guò)更深入的預(yù)訓(xùn)練和指令調(diào)整，在多個(gè)基準(zhǔn)評(píng)測(cè)結(jié)果中表現(xiàn)出色，尤其在代碼和數(shù)學(xué)方面有顯著提升，同時(shí)拓展了上下文長(zhǎng)度

發(fā)表于 06-27 08:02 ?936次閱讀

<b class='flag-5'>Qwen</b>2強(qiáng)勢(shì)來(lái)襲，AIBOX<b class='flag-5'>支持</b>本地化部署

阿里通義千問(wèn)Qwen2大模型發(fā)布并同步開(kāi)源

阿里巴巴集團(tuán)旗下的通義千問(wèn)團(tuán)隊(duì)宣布，全新的Qwen2大模型正式發(fā)布，并在全球知名的開(kāi)源平臺(tái)Hugging Face和ModelScope上同步開(kāi)源

發(fā)表于 06-11 15:33 ?1018次閱讀

阿里通義千問(wèn)Qwen2大模型發(fā)布

阿里巴巴最近發(fā)布了其通義千問(wèn)系列的新成員——Qwen2大模型，并在Hugging Face和ModelScope兩大平臺(tái)上實(shí)現(xiàn)了同步開(kāi)源。這一舉措無(wú)疑為人工智能領(lǐng)域的研究者和開(kāi)發(fā)者們提

發(fā)表于 06-07 15:59 ?705次閱讀

聯(lián)發(fā)科天璣9300搭載通義千問(wèn)大模型，阿里云提供解決方案

通義千問(wèn)大模型已開(kāi)源多項(xiàng)版本，包括18億、70億、140億及720億參數(shù)等版本伴隨視覺(jué)、音頻多模態(tài)能力提升。阿里

發(fā)表于 03-28 09:55 ?503次閱讀

字節(jié)發(fā)布機(jī)器人領(lǐng)域首個(gè)開(kāi)源視覺(jué)-語(yǔ)言操作大模型，激發(fā)開(kāi)源VLMs更大潛能

對(duì)此，ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了

發(fā)表于 01-23 16:02 ?468次閱讀

機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)

發(fā)表于 01-19 11:43 ?352次閱讀

阿里云發(fā)布AI大模型，谷歌地?zé)犴?xiàng)目助力綠色能源轉(zhuǎn)型

大家好，歡迎收看河套IT WALK第124期。今天，阿里云發(fā)布了具有720億參數(shù)的大型語(yǔ)言模型Qwen-72B，這一創(chuàng)新將助力多

發(fā)表于 12-01 20:15 ?799次閱讀

阿里云通義千問(wèn)720億參數(shù)模型宣布開(kāi)源

12月1日，阿里云通義千問(wèn)720億參數(shù)模型Qwen-72B宣布開(kāi)源。與此同時(shí)，他們還開(kāi)源了18億

發(fā)表于 12-01 17:08 ?1298次閱讀

搜索歷史

阿里云開(kāi)源視覺(jué)語(yǔ)言大模型Qwen-VL ，支持圖文雙模態(tài)輸入

評(píng)論

PerfXCloud重磅升級(jí) 阿里開(kāi)源最強(qiáng)視覺(jué)語(yǔ)言模型Qwen2-VL-7B強(qiáng)勢(shì)上線！

利用OpenVINO部署Qwen2多模態(tài)模型

號(hào)稱全球最強(qiáng)開(kāi)源模型 ——Qwen2.5 系列震撼來(lái)襲！PerfXCloud同步上線，快來(lái)體驗(yàn)！

通義千問(wèn)發(fā)布第二代視覺(jué)語(yǔ)言模型Qwen2-VL

阿里Qwen2-Math系列震撼發(fā)布，數(shù)學(xué)推理能力領(lǐng)跑全球

基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體

阿里云設(shè)備的物模型數(shù)據(jù)里面始終沒(méi)有值是為什么？

Qwen2強(qiáng)勢(shì)來(lái)襲，AIBOX支持本地化部署

阿里通義千問(wèn)Qwen2大模型發(fā)布并同步開(kāi)源

阿里通義千問(wèn)Qwen2大模型發(fā)布

聯(lián)發(fā)科天璣9300搭載通義千問(wèn)大模型，阿里云提供解決方案

字節(jié)發(fā)布機(jī)器人領(lǐng)域首個(gè)開(kāi)源視覺(jué)-語(yǔ)言操作大模型，激發(fā)開(kāi)源VLMs更大潛能

機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

阿里云發(fā)布AI大模型，谷歌地?zé)犴?xiàng)目助力綠色能源轉(zhuǎn)型

阿里云通義千問(wèn)720億參數(shù)模型宣布開(kāi)源

搜索歷史

阿里云開(kāi)源視覺(jué)語(yǔ)言大模型Qwen-VL ，支持圖文雙模態(tài)輸入

評(píng)論

阿里云開(kāi)源視覺(jué)語(yǔ)言大模型Qwen-VL ，支持圖文雙模態(tài)輸入