近日,由極客邦旗下 InfoQ 中國傾力打造的 AICon 全球人工智能開發(fā)與應(yīng)用大會在北京舉辦。此次大會以“智能未來,探索 AI 無限可能”為主題,匯聚 60 位行業(yè)頭部企業(yè)嘉賓,帶來精彩紛呈的見解與分享。
作為大會核心論壇之一,“大模型 + 行業(yè)創(chuàng)新應(yīng)用”專題論壇于5月18日如期舉行,聚焦金融、法律、醫(yī)療、教育等不同領(lǐng)域,探討分享大模型技術(shù)在各自領(lǐng)域內(nèi)的應(yīng)用經(jīng)驗(yàn)和深刻洞見,推動大模型技術(shù)的有效落地和行業(yè)創(chuàng)新。云知聲 AI Labs 研發(fā)副總裁劉升平應(yīng)邀出席論壇并發(fā)表《山海醫(yī)療大模型的構(gòu)建及其應(yīng)用實(shí)踐》主題演講。
深耕人工智能產(chǎn)業(yè)多年,云知聲一直密切關(guān)注AI前沿技術(shù)在醫(yī)療領(lǐng)域的創(chuàng)新應(yīng)用。入局智慧醫(yī)療賽道以來,云知聲針對醫(yī)療行業(yè)各場景痛點(diǎn),陸續(xù)研發(fā)推出了語音電子病歷、智能病歷質(zhì)控、單病種質(zhì)控、智能醫(yī)保審核等多款智慧醫(yī)療產(chǎn)品,覆蓋醫(yī)政醫(yī)管、臨床診療、醫(yī)保管理、患者服務(wù)等多個(gè)醫(yī)療業(yè)務(wù)環(huán)節(jié)。山海大模型發(fā)布后,云知聲更是基于山海醫(yī)療行業(yè)版大模型,全面升級了醫(yī)療業(yè)務(wù)線各產(chǎn)品智能化水平,發(fā)布門診病歷生成系統(tǒng)、手術(shù)記錄撰寫助手、商保智能理賠系統(tǒng)等醫(yī)療產(chǎn)品應(yīng)用,實(shí)現(xiàn)從助手到專家的躍遷。
現(xiàn)場,劉升平深入剖析醫(yī)療大模型應(yīng)用價(jià)值,并基于山海醫(yī)療大模型的構(gòu)建與實(shí)際落地探索,分享了大模型在特定行業(yè)中的定制化優(yōu)化策略。
醫(yī)療大模型:技術(shù)突破與行業(yè)應(yīng)用實(shí)踐
在深入探討醫(yī)療大模型之前,我們首先需要了解在擁有通用大模型的基礎(chǔ)上,為什么還需要行業(yè)特定的大模型。
劉升平指出,通用大模型雖然能力強(qiáng)大,但它們?nèi)狈︶槍μ囟ㄐ袠I(yè)的深入理解和優(yōu)化,而行業(yè)大模型正是為了彌補(bǔ)這一空缺而誕生的,它們基于行業(yè)知識和任務(wù)進(jìn)行深度學(xué)習(xí)和優(yōu)化,從而在各自領(lǐng)域內(nèi)成為專家級的解決方案。
當(dāng)前市場上的醫(yī)療大模型主要分為四大類別:通用模型、醫(yī)學(xué)文本模型、臨床多模態(tài)模型以及生物醫(yī)藥模型。作為通用大模型的代表,山海醫(yī)療大模型以其卓越的性能和專業(yè)能力脫穎而出。在CCKS 2023 PromptCBLUE醫(yī)療大模型評測中,山海模型榮獲通用賽道一等獎(jiǎng),證明了其在多任務(wù)學(xué)習(xí)和應(yīng)用上的廣泛適用性。此外,在MedBench評測中,山海模型以54.7的高分榮獲榜首,這一成績充分展示了其在醫(yī)療領(lǐng)域深度理解和精準(zhǔn)應(yīng)用的專業(yè)實(shí)力。
依據(jù)大模型的核心能力,云知聲將醫(yī)療大模型的應(yīng)用場景細(xì)致劃分為四大類別:生成類、理解類、知識類和決策類,以實(shí)現(xiàn)對醫(yī)療領(lǐng)域不同需求的精準(zhǔn)覆蓋。
現(xiàn)場,劉升平分享了山海醫(yī)療大模型在具體場景的落地應(yīng)用,引起與會者的廣泛關(guān)注與思考。
針對門診場景中的病歷撰寫需求,云知聲門診病歷生成系統(tǒng)以山海醫(yī)療大模型為依托,應(yīng)用前端聲音信號處理、智能語音識別等技術(shù),結(jié)合龐大的醫(yī)療知識圖譜,實(shí)現(xiàn)了診室復(fù)雜環(huán)境下的降噪、醫(yī)患角色區(qū)分、信息摘要及病歷自動生成等功能,有效提升病歷書寫效率,切實(shí)為醫(yī)務(wù)人員減負(fù)。
針對醫(yī)療質(zhì)量管理中的病歷審核需求,云知聲依托山海醫(yī)療大模型,結(jié)合詳盡的醫(yī)療規(guī)范和標(biāo)準(zhǔn)數(shù)據(jù)庫,打造智能病歷質(zhì)控系統(tǒng),該系統(tǒng)可準(zhǔn)確理解病歷內(nèi)涵并進(jìn)行缺陷篩查,重塑業(yè)務(wù)流程,大幅提高病歷質(zhì)控工作效率,以及質(zhì)控的深度和廣度。
針對商業(yè)保險(xiǎn)理賠中的醫(yī)療費(fèi)用審核需求,云知聲以山海醫(yī)療大模型和醫(yī)療知識圖譜為底層技術(shù)支撐,結(jié)合醫(yī)療文書OCR,構(gòu)建商保智能監(jiān)管與審核系統(tǒng),通過智能錄入、規(guī)則配置、智能AI審核、審核報(bào)告生成四步走,打造具有醫(yī)學(xué)知識和保險(xiǎn)理賠經(jīng)驗(yàn)的虛擬審核員。
云知聲面向應(yīng)用的行業(yè)大模型定制優(yōu)化策略:
6種武器+1種秘方
論壇現(xiàn)場,劉升平結(jié)合云知聲自身實(shí)踐經(jīng)驗(yàn),分享了面向應(yīng)用的行業(yè)大模型定制優(yōu)化的6種武器和1種秘方,這些策略共同構(gòu)成了一套全面的方法論,確保了山海醫(yī)療大模型能夠在實(shí)際應(yīng)用中達(dá)到最佳效果。
6種武器
提示工程:通過創(chuàng)造性地設(shè)計(jì)“咒語”,即輸入提示,引導(dǎo)大模型沿著清晰的思維鏈進(jìn)行邏輯推理,使其更準(zhǔn)確地理解任務(wù)需求并生成合適的響應(yīng)。結(jié)合ICL(In-Context Learning),提示工程不僅關(guān)注于單個(gè)任務(wù)的執(zhí)行,還強(qiáng)調(diào)了上下文信息的重要性,使模型能夠在特定情境中學(xué)習(xí),利用上下文信息來提高生成回答的相關(guān)性和準(zhǔn)確性,有助于減少模型在生成回答時(shí)可能出現(xiàn)的幻覺,即模型生成與現(xiàn)實(shí)不符的輸出。
檢索增強(qiáng):通過整合外部知識庫,讓模型能夠檢索并利用相關(guān)信息,從而提供更準(zhǔn)確和全面的答案。其核心在于允許模型在生成回答時(shí),動態(tài)地檢索并利用最新的外部信息,通過減少模型依賴于內(nèi)部知識的限制,有效降低了生成錯(cuò)誤信息的風(fēng)險(xiǎn),使得模型在處理需要廣泛背景知識或?qū)崟r(shí)數(shù)據(jù)的任務(wù)時(shí),表現(xiàn)得更為出色。
指令微調(diào):通過針對性的訓(xùn)練數(shù)據(jù),優(yōu)化模型對特定指令的響應(yīng)能力,提升模型執(zhí)行特定任務(wù)的效率。通過數(shù)據(jù)構(gòu)造、數(shù)據(jù)合成、指令數(shù)據(jù)優(yōu)選與配比等關(guān)鍵步驟,不僅提高了模型對特定指令的響應(yīng)速度和準(zhǔn)確性,還增強(qiáng)了模型在特定任務(wù)上的執(zhí)行效率。
對齊(反饋學(xué)習(xí)):對齊是確保模型輸出與用戶需求保持一致性的過程,它通過整合用戶的反饋來引導(dǎo)模型的持續(xù)學(xué)習(xí)和自我優(yōu)化。在這個(gè)過程中,模型不僅學(xué)習(xí)用戶的直接反饋,還從用戶的行為中提取隱式的反饋信號。利用這些反饋,模型能夠自動識別和糾正生成內(nèi)容中的錯(cuò)誤,實(shí)現(xiàn)自我糾錯(cuò)。
增量預(yù)訓(xùn)練:增量預(yù)訓(xùn)練是一種持續(xù)提升模型性能的策略,它允許模型通過定期引入新的數(shù)據(jù)進(jìn)行學(xué)習(xí),以適應(yīng)不斷變化的知識環(huán)境。這個(gè)過程不僅涉及到數(shù)據(jù)的更新,還需要強(qiáng)大的算力和精細(xì)的數(shù)據(jù)工程支持。
解碼策略:根據(jù)不同的應(yīng)用場景,大模型推理可設(shè)置不同的解碼策略。針對創(chuàng)意內(nèi)容生成或行程安排等場景,可采取Sample Search、Top-P、Top-K Sample等基于采樣概率的解碼策略,增加輸出的創(chuàng)造性和選擇性;針對選擇、推理等答案相對確定的場景,可采取Greedy Search、Beam Search等基于最大概率的解碼策略。此外,還可以采取引入輔助模型實(shí)現(xiàn)的對比策略和猜測策略,借鑒AlphaGo實(shí)現(xiàn)的樹搜索解碼策略等。
1種秘方
數(shù)據(jù)的生產(chǎn)、選擇與配比,是確保模型性能最大化的關(guān)鍵步驟。在這一過程中,數(shù)據(jù)的質(zhì)量和多樣性直接影響到模型的學(xué)習(xí)和泛化能力。
數(shù)據(jù)生產(chǎn)涉及到收集、生成和整理用于訓(xùn)練和微調(diào)模型的數(shù)據(jù)。這不僅包括公開可用的數(shù)據(jù)集,也包括特定于行業(yè)的專有數(shù)據(jù)。
數(shù)據(jù)選擇是指從大量可用數(shù)據(jù)中挑選出對模型訓(xùn)練最有價(jià)值的部分。這一步驟要求我們理解模型的需求和任務(wù)的特性,以便選擇能夠最大化模型性能的數(shù)據(jù)。
數(shù)據(jù)配比涉及到不同類型和來源數(shù)據(jù)的混合和權(quán)重分配。正確的配比策略可以強(qiáng)化模型對關(guān)鍵特征的學(xué)習(xí),同時(shí)減少對噪聲和不相關(guān)信息的敏感性。
綜合來看,大模型的定制優(yōu)化可采取多層次策略,以適應(yīng)不同算力條件并提升模型效果——在算力有限的情況下,通過調(diào)用大模型API并運(yùn)用提示工程、檢索增強(qiáng)結(jié)合知識增強(qiáng)等技術(shù)來解決實(shí)際問題;當(dāng)算力適中,擁有1至20臺服務(wù)器時(shí),可通過指令微調(diào)、解碼策略優(yōu)化以及對齊優(yōu)化(反饋學(xué)習(xí))來進(jìn)一步優(yōu)化任務(wù)性能;對于算力充足的情況,既可以在開源底座模型上進(jìn)行增量預(yù)訓(xùn)練,還可以從零開始預(yù)訓(xùn)練自己的底座模型,以實(shí)現(xiàn)模型性能的根本性提升。
審核編輯:劉清
-
云知聲
+關(guān)注
關(guān)注
0文章
163瀏覽量
8352 -
人工智能技術(shù)
+關(guān)注
關(guān)注
2文章
210瀏覽量
10512 -
大模型
+關(guān)注
關(guān)注
2文章
2274瀏覽量
2358
原文標(biāo)題:云知聲出席AICon全球人工智能技術(shù)大會并作主題分享
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論