電子發(fā)燒友報(bào)道(文/周凱揚(yáng))作為算法巨頭的谷歌,在AI時(shí)代發(fā)布了一系列AI產(chǎn)品,比如Gemini、Bard等。在AI行業(yè)日新月異快速迭代的局面下,即便是谷歌也需要加快開發(fā)速度,不斷更新其AI模型和應(yīng)用。近日舉辦的谷歌I/O大會(huì)上,谷歌宣布全面進(jìn)入Gemini時(shí)代,并發(fā)布了一系列與AI相關(guān)的更新。
對(duì)標(biāo)ChatGPT-4o,谷歌發(fā)布Project Astra
相信本周ChatGPT-4o的演示,已經(jīng)令不少人期待起這個(gè)支持視聽輸入的實(shí)時(shí)AI助手,谷歌也不甘示弱,發(fā)布了Project Astra的演示,展示了他們對(duì)于未來(lái)AI助手的構(gòu)想。Project Astra基于Gemini模型打造,支持視頻和語(yǔ)音的輸入,通過連續(xù)的視頻幀編碼和先進(jìn)的語(yǔ)音模型,谷歌得以更快地處理輸入信息。
相較其ChatGPT-4o更先進(jìn)的是,谷歌的Project Astra還支持實(shí)時(shí)交互,比如在手機(jī)上圈選出實(shí)時(shí)視頻畫面中的一部分,讓AI助手提供描述等。不僅如此,Project Astra將視頻與語(yǔ)音輸入轉(zhuǎn)換成一連串的時(shí)間線事件,并緩存這些信息用于未來(lái)的高效回溯。
谷歌也對(duì)該項(xiàng)目未來(lái)的應(yīng)用場(chǎng)景進(jìn)行了構(gòu)想,這些功能不僅可以用于手機(jī)端,更是可以用于AR眼鏡,為用戶提供交互式的AI助手體驗(yàn)。谷歌在外媒的采訪中也證實(shí),他們正在考慮為Project Astra打造新的AR眼鏡的構(gòu)想。他們認(rèn)為對(duì)于AR設(shè)備來(lái)說,Project Astra很有可能成為新一輪的殺手級(jí)應(yīng)用。
安卓迎來(lái)新一輪AI功能更新
在這個(gè)AI重塑手機(jī)體驗(yàn)的世代,而安卓作為全球用戶技術(shù)最大的智能手機(jī)系統(tǒng),谷歌也希望能用AI帶去全新的設(shè)備交互方式。
圈選搜索解題 / 谷歌
自從在三星Unpacked大會(huì)上公布圈選搜索功能,谷歌已經(jīng)為更多Pixel和三星設(shè)備加入了全屏翻譯等功能。在I/O大會(huì)上,谷歌宣布為圈選搜索加入作業(yè)輔助的功能,比如面對(duì)某些物理和數(shù)學(xué)應(yīng)用題,圈選搜索不僅可以給出答案,還可以列出具體的解題過程。
安卓上的Gemini已經(jīng)成為新一代的助手應(yīng)用,借助生成式人工智能來(lái)提供創(chuàng)造力和效率,而未來(lái)幾個(gè)月內(nèi),谷歌將為其推送更新,可以在使用中的應(yīng)用程序中喚醒,并將生成的圖片、文字等拖拽到其他應(yīng)用上。
Gemini Nano / 谷歌
至于端側(cè)的Gemini Nano,同樣將在今年年末迎來(lái)升級(jí),引入多模態(tài)支持。為了做到離線使用和保證用戶隱私,谷歌于去年底推出了Gemini Nano,而多模態(tài)的加入將引入對(duì)文本之外的視覺聲音支持。以語(yǔ)音反饋功能為例,對(duì)于盲人或弱視群體,在面對(duì)無(wú)標(biāo)簽的圖片時(shí),Gemini Nano賦能的語(yǔ)音反饋功能將提供更多細(xì)節(jié)的描述。
谷歌同樣借助Gemini Nano對(duì)語(yǔ)音的支持,引入了可選的防詐騙功能。通過在通話過程中檢測(cè)到與詐騙相關(guān)的對(duì)話模式,手機(jī)就會(huì)自動(dòng)發(fā)出實(shí)時(shí)警報(bào),比如要求緊急轉(zhuǎn)賬、提供銀行卡密碼等。因?yàn)檫@些保護(hù)措施都是在端側(cè)完成的,所以此類對(duì)話都是完全保密的,用戶無(wú)需擔(dān)心隱私泄露問題。
第六代TPU Trillium,性能與能效雙提升
在本屆I/O大會(huì)上,谷歌也宣布了AI基礎(chǔ)設(shè)施的升級(jí),其TPU將迎來(lái)第六代產(chǎn)品,Trillium。相較TPU v5e,谷歌擴(kuò)大了MXU(矩陣乘法單元)的大小,并提高了時(shí)鐘速度,使得Trillium單芯片的峰值計(jì)算性能實(shí)現(xiàn)了4.7倍的提升,能效提升67%。
同時(shí)谷歌還加倍了HBM內(nèi)存的容量和帶寬,更大的內(nèi)存容量和帶寬允許Trillium可以跑更多權(quán)重、更大KV緩存和更大規(guī)模的模型。谷歌稱下一代的HBM帶來(lái)了帶寬提升和能效提升,改善了大模型的訓(xùn)練時(shí)間以及服務(wù)時(shí)延。
同樣加倍的還有片間互聯(lián)帶寬,這使得Trillium的擴(kuò)展性大大加強(qiáng),單個(gè)服務(wù)器Pod內(nèi)可借助定制的光學(xué)ICI做到256個(gè)芯片互聯(lián),再借助谷歌的Jupiter網(wǎng)絡(luò)擴(kuò)展至數(shù)百個(gè)Pod互聯(lián)。
從第一代TPU開始,谷歌已經(jīng)將這一加速硬件集成到其提供的各種軟件服務(wù)中,比如實(shí)時(shí)語(yǔ)音搜索、照片物體識(shí)別以及交互式語(yǔ)言翻譯等等,當(dāng)然也包括了最新的Gemini、Imagen和Gemma等模型。除此之外,一些行業(yè)模型也將從TPU中受益,比如自動(dòng)駕駛模型、藥物開發(fā)模型等。據(jù)谷歌預(yù)告,Trillium將于今年年末開放給谷歌云客戶。
Gemini和Gemma迎來(lái)全面迭代升級(jí)
除了上面提到的安卓端Gemini新功能外,Gemini模型本身也將迎來(lái)新一輪升級(jí)。在Gemini 1.5 Pro發(fā)布后不到半年,谷歌就再次對(duì)其進(jìn)行了升級(jí),如今的Gemini 1.5 Pro將支持兩百萬(wàn)Token的上下文窗口。
除此之外,谷歌還加強(qiáng)了Gemini 1.5 Pro的代碼生成、邏輯推理和多輪對(duì)話交互能力。不僅音頻和圖像的理解能力也得到了進(jìn)一步加強(qiáng),不少特殊用例的模型響應(yīng)控制也得到了提升,比如不同的對(duì)話角色和響應(yīng)風(fēng)格。無(wú)論是使用API的開發(fā)者還是谷歌云用戶,現(xiàn)在都可以申請(qǐng)這一升級(jí)。
為了響應(yīng)用戶對(duì)低時(shí)延和低成本模型的要求,谷歌還推出了輕量版的Gemini 1.5 Pro:Gemini 1.5 Flash。Gemini 1.5 Flash專門針對(duì)高流量、高頻率的任務(wù)進(jìn)行了優(yōu)化,支持100萬(wàn)的Token上下文窗口,而且支持文本、圖片、語(yǔ)音和視頻的混合輸入。
開放模型Gemma同樣迎來(lái)了升級(jí),首先是新推出的視覺語(yǔ)言模型PaliGemma,其靈感來(lái)源自PaLI-3,支持圖片和文本作為輸入,可以回答有關(guān)圖片的問題,并提供詳細(xì)信息和上下文,可以用于對(duì)圖片或短視頻添加說明、對(duì)象檢測(cè)等。其主要優(yōu)勢(shì)在于支持多模態(tài)理解,而且可以針對(duì)各種視覺語(yǔ)言任務(wù)進(jìn)行微調(diào),也有專門面向研究的版本PaliGemma-FT,可對(duì)特定的研究數(shù)據(jù)集進(jìn)行微調(diào)。
Gemma 2性能測(cè)試對(duì)比 / 谷歌
此外還有下一代Gemma模型的更新,Gemma 2。Gemma 2是一個(gè)270億參數(shù)的大模型,得益于全新的架構(gòu),在性能和效率上均實(shí)現(xiàn)了突破。相較于Meta的Llama 3 70B模型,其規(guī)模只有一半不到,卻可以實(shí)現(xiàn)與之相近的性能。從預(yù)訓(xùn)練階段的測(cè)試成績(jī)來(lái)看,Gemma 2僅僅略微遜色于Llama 3,快于Grok-1。除了針對(duì)英偉達(dá)GPU做了優(yōu)化外,Gemma 2還可以高效地運(yùn)行在單個(gè)TPU主機(jī)上,進(jìn)一步降低了用戶的部署成本。目前Gemma 2依然還在預(yù)訓(xùn)練階段,預(yù)計(jì)將于今年六月推出。
寫在最后
谷歌通常會(huì)將年度I/O開發(fā)者大會(huì)的舞臺(tái)用于發(fā)布Android系統(tǒng),以及Pixel智能手機(jī)的下一代更新。但從今年的發(fā)布內(nèi)容來(lái)看,谷歌已經(jīng)全面轉(zhuǎn)向了AI產(chǎn)品的開發(fā)。無(wú)論是Android 15的下一個(gè)Beta版本,還是Pixel 8a,都只是被短短提及而已。由此可以看出,谷歌已經(jīng)將下一輪軟硬件的革新全面押注在了AI上,未來(lái)我們將見證一個(gè)圍繞AI開發(fā)產(chǎn)品矩陣的新谷歌崛起。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104948 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268105 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7358
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論