演講嘉賓 | 李 屹
回顧整理 | 廖 濤
排版校對 | 李萍萍
嘉賓介紹
OS安全分論壇
李屹,華為OS內(nèi)核實驗室安全技術(shù)專家與助理科學(xué)家。主要研究領(lǐng)域包括操作系統(tǒng)安全、軟件形式化證明、超低時延軟件建模與開發(fā)等。目前主要參與的工作包括:自研自動形式化證明平臺(支撐鴻蒙內(nèi)核獲得CC EAL 6+高等級安全認(rèn)證)、基于操作系統(tǒng)內(nèi)核層面構(gòu)建的數(shù)據(jù)安全底座等。
視頻回顧
打開嗶哩嗶哩APP,觀看更清晰視頻
正文內(nèi)容
大模型已成為當(dāng)下AI產(chǎn)業(yè)最大熱點,業(yè)界也正在積極探索大模型的應(yīng)用場景。然而,大模型背后依賴的是海量的訓(xùn)練數(shù)據(jù)與交互數(shù)據(jù),人工智能的黑盒機制導(dǎo)致大模型在實踐中不可避免地存在敏感數(shù)據(jù)的安全挑戰(zhàn)。如何從操作系統(tǒng)視角應(yīng)對大模型應(yīng)用中的數(shù)據(jù)安全挑戰(zhàn)?華為OS內(nèi)核安全專家、副首席科學(xué)家李屹在第二屆OpenHarmony技術(shù)大會上進行了精彩分享。
圖像模型、大語言模型、多模態(tài)模型等大模型在研發(fā)的各階段為我們帶來巨大的生產(chǎn)力提升,例如:(1)協(xié)助編碼:代碼補全、知識檢索、測試用例生成;(2) 文檔寫作:語言翻譯、文檔潤色、文稿寫作;(3)數(shù)據(jù)處理:自動分析、數(shù)據(jù)制圖;(4)智能助手:Rewind、ChatGPT Mobile App。大模型的核心能力是數(shù)據(jù)的理解與處理,因此它所獲取的用戶數(shù)據(jù)越多,能為使用者提供的幫助也就越多,其帶來的便利,本質(zhì)上也是“對于數(shù)據(jù)的深度理解和處理”。然而,當(dāng)用戶深度使用大模型或者越來越依賴大模型能力時,隨著大模型自身能力的增強,用戶數(shù)據(jù)濫用的危害就越大。
因此,保障數(shù)據(jù)安全是我們放心使用大模型應(yīng)用的必要前提。從被保護對象的角度出發(fā),大模型數(shù)據(jù)安全挑戰(zhàn)主要有以下兩個方面:
保護用戶數(shù)據(jù)不被濫用。要求用戶數(shù)據(jù)的獲取和使用應(yīng)當(dāng)符合用戶的授權(quán);模型自身無法濫用用戶數(shù)據(jù);惡意攻擊者無法通過攻擊大模型應(yīng)用來獲取其中的用戶數(shù)據(jù)。
保護模型資產(chǎn)免受攻擊。要求模型資產(chǎn)的獲取和使用應(yīng)當(dāng)符合模型開發(fā)者的授權(quán);惡意使用者無法通過攻擊大模型應(yīng)用來獲取模型數(shù)據(jù)。
為什么我們希望基于操作系統(tǒng)來實施數(shù)據(jù)安全保護手段?
通常而言,每個應(yīng)用或者應(yīng)用生態(tài)都會自己構(gòu)建一定的數(shù)據(jù)安全保護能力。然而,由于應(yīng)用層構(gòu)建的安全能力往往各自為戰(zhàn),導(dǎo)致系統(tǒng)整體存在“千里之堤,潰于蟻穴”的風(fēng)險。在數(shù)據(jù)共享的背景下,數(shù)據(jù)安全是一個完整的體系。其中任意一環(huán)被攻破即導(dǎo)致整體數(shù)據(jù)安全保護失效。
舉例來說,如果在應(yīng)用層構(gòu)建DLP(數(shù)據(jù)防泄漏)解決方案。由于安全能力構(gòu)建于各個應(yīng)用之中,而應(yīng)用之間會產(chǎn)生數(shù)據(jù)共享。因此一旦其中一個應(yīng)用出現(xiàn)問題或者被攻破,那么就會造成整體的數(shù)據(jù)泄露風(fēng)險。
在操作系統(tǒng)層如何構(gòu)建數(shù)據(jù)安全保護能力?可以基于3個維度:隔離、跟蹤和協(xié)同。
一、隔離:構(gòu)建可信的隔離空間來運行大模型應(yīng)用。當(dāng)我們要保護數(shù)據(jù)的時候,最簡單,也最能令用戶信服的數(shù)據(jù)保護方式,就是讓數(shù)據(jù)始終留在端側(cè)。但是,由于大模型本身的黑盒特性,用戶并不信任應(yīng)用,那么誰來保證數(shù)據(jù)不出端呢?例如,當(dāng)用戶想詢問大模型今天的天氣怎么樣,需要穿什么衣服出門時,大模型需要知道用戶的位置信息,且還需要從線上的其他地方獲取該位置的天氣數(shù)據(jù)。通過這個例子,很容易看出在部分場景下大模型既需要訪問用戶的個人隱私數(shù)據(jù),客觀上也需要聯(lián)網(wǎng)或者是訪問外部文件/數(shù)據(jù)以帶給用戶更好的體驗。
在普通的操作系統(tǒng)中,由于沒有機密域隔離,攻擊者可以利用應(yīng)用漏洞發(fā)起攻擊即可獲取用戶數(shù)據(jù)和模型資產(chǎn);通過構(gòu)建可信的隔離空間,區(qū)分機密域和非機密域,可以實現(xiàn)即便攻破應(yīng)用本身,也無法獲取模型和用戶數(shù)據(jù)的目的。
二、跟蹤:將無形的數(shù)據(jù)化為有形,跟蹤數(shù)據(jù)使用,實施精準(zhǔn)管控。盡管通過隔離手段能夠?qū)崿F(xiàn)數(shù)據(jù)安全,但在許多場景下大模型都是需要訪問聯(lián)網(wǎng)信息的。例如,即使數(shù)據(jù)質(zhì)量和參數(shù)規(guī)模強如ChatGPT,也不可能在模型參數(shù)中記錄整個互聯(lián)網(wǎng)的知識體系。需要通過搜索插件等在線獲取;Open Interpreter等應(yīng)用更是將支持聯(lián)網(wǎng)作為重要特性;新發(fā)布的大模型紛紛原生支持代碼的生成與運行,進一步增加了模型與外部交互的需求。
在大模型應(yīng)用中,數(shù)據(jù)本身是無形的,就是一串字節(jié)流。如果將應(yīng)用視作一個黑盒,那么對應(yīng)用的隔離管控只有“是”與“否”的區(qū)別。如果數(shù)據(jù)類型由操作系統(tǒng)觀測并管理,使大模型應(yīng)用在使用數(shù)據(jù)時,操作系統(tǒng)能夠感知該數(shù)據(jù)是不是敏感數(shù)據(jù),從而實現(xiàn)精準(zhǔn)定位和管控,保障數(shù)據(jù)安全。
三、協(xié)同:安全調(diào)用云端算力,讓應(yīng)用更加智能。通過隔離和跟蹤,在端側(cè)可以實現(xiàn)較為精準(zhǔn)可靠的數(shù)據(jù)安全保護。然而,在現(xiàn)有的硬件設(shè)備下,端側(cè)算力仍顯不足,而端側(cè)算力對大模型的智能程度有很大影響。相較于GPT-3的175B參數(shù)規(guī)模而言,在實際的手機應(yīng)用場景,為了平衡功耗,性能等問題,當(dāng)前的主流端側(cè)大模型解決方案都選擇了1B級別的“小”模型。因此,如何通過端云協(xié)同來釋放云端算力成為當(dāng)前的研究熱點。
安全調(diào)用云端算力有2個思路:(1)構(gòu)建端云協(xié)同的分布式機密計算環(huán)境,從技術(shù)上讓數(shù)據(jù)留在同一個信任域中,實現(xiàn)“技術(shù)不出端”;(2)通過操作系統(tǒng)層構(gòu)建的數(shù)據(jù)脫敏模塊,來支撐多種不同形式的端云協(xié)同推理,實現(xiàn)敏感數(shù)據(jù)不出域的同時,釋放云端算力。
綜上所述,從操作系統(tǒng)視角,可以從隔離、跟蹤以及協(xié)同3個維度應(yīng)對大模型數(shù)據(jù)安全問題。后續(xù),希望能夠以操作系統(tǒng)為底座,以數(shù)據(jù)安全為第一原則,逐步構(gòu)建可信的原生智能。
「嘉賓材料暫不分享」
E N D
關(guān)注我們,獲取更多精彩。
審核編輯 黃宇
-
操作系統(tǒng)
+關(guān)注
關(guān)注
37文章
6688瀏覽量
123140 -
數(shù)據(jù)安全
+關(guān)注
關(guān)注
2文章
666瀏覽量
29907 -
大模型
+關(guān)注
關(guān)注
2文章
2278瀏覽量
2359
發(fā)布評論請先 登錄
相關(guān)推薦
評論