久久精品国内精品,亚洲精品无码在线播放,国产成人高清一区二区私人

大模型（LLM）由于其卓越的自然語言理解、推理等能力，已經(jīng)被應(yīng)用于各種場景，取得了前所未有的效果。

類似的，軟件測試領(lǐng)域也受益于其強大的能力，能夠幫助生成逼真且多樣化測試輸入、模擬各種異常、加速缺陷的發(fā)現(xiàn)，提升測試效率和軟件質(zhì)量。

來自中國科學(xué)院軟件研究所、澳大利亞Monash大學(xué)、加拿大York大學(xué)的研究團隊收集了截止到2023年10月30日發(fā)表的102篇相關(guān)論文，并分別從軟件測試和大模型視角進(jìn)行了全面分析，總結(jié)出一篇關(guān)于大模型在軟件測試領(lǐng)域應(yīng)用的全面綜述。

研究發(fā)現(xiàn)一覽圖是這樣的（兩個不同視角：測試、LLM）：

詳細(xì)內(nèi)容我們接著往下看。

從軟件測試的視角來看

首先，研究人員從軟件測試的角度進(jìn)行了分析，并將收集到的研究工作按照測試任務(wù)進(jìn)行組織。

如下圖所示，大模型的應(yīng)用主要集中在軟件測試生命周期的后段，用于測試用例準(zhǔn)備（包括單元測試用例生成、測試預(yù)言生成、系統(tǒng)級測試輸入生成）、測試報告分析、程序調(diào)試和修復(fù)等任務(wù)。然而，在測試生命周期的早期任務(wù)（如測試需求、測試計劃等）上，目前還沒有使用大語言模型的相關(guān)工作。

進(jìn)一步地，研究人員還對大模型在各種軟件測試任務(wù)上的應(yīng)用進(jìn)行了詳細(xì)分析。

以單元測試用例生成為例，單元測試用例生成任務(wù)主要涉及為獨立的軟件或組件單元編寫測試用例，以確保它們的正確性。傳統(tǒng)的基于搜索、約束或隨機的生成技術(shù)存在著測試用例覆蓋率弱或可讀性差的問題。

引入LLM后，相對于傳統(tǒng)方法，大模型不僅能夠更好地理解領(lǐng)域知識以生成更準(zhǔn)確的測試用例，而且還可以理解軟件項目和代碼上下文的信息，從而生成更全面的測試用例。

對于系統(tǒng)級測試輸入，模糊測試作為常用技術(shù)，主要圍繞著生成無效、意外或隨機的測試輸入來達(dá)到測試的目的，研究人員也詳細(xì)分析了大模型如何改進(jìn)傳統(tǒng)模糊測試技術(shù)。

例如有研究提出通用模糊測試框架Fuzz4All、ChatFuzz等，也有研究專注于特定軟件開發(fā)基于大模型的模糊測試技術(shù)，包括深度學(xué)習(xí)庫、編譯器、求解器、移動應(yīng)用、信息物理系統(tǒng)等。

這些研究的一個關(guān)注重點是生成多樣化的測試輸入，以實現(xiàn)更高的覆蓋率，通常通過將變異技術(shù)與基于大模型的生成相結(jié)合來實現(xiàn)；另一個關(guān)注重點是生成可以更早觸發(fā)錯誤的測試輸入，常見做法是收集歷史上觸發(fā)錯誤的程序來對大模型進(jìn)行微調(diào)或?qū)⑵渥鳛檠菔境绦蛟诓樵兇竽Ｐ蜁r使用。

論文中對于各種研究的技術(shù)思路有更為詳細(xì)地介紹和比較。

從大模型的視角來看

隨后，研究人員再從大模型的視角出發(fā)，分析了軟件測試任務(wù)中選用的大模型，并進(jìn)一步介紹了如何讓大模型適應(yīng)測試任務(wù)，包括提示工程技術(shù)、大模型的輸入以及與傳統(tǒng)測試技術(shù)的結(jié)合使用。

在所選用的大模型方面，如下圖所示，最常用的前三種大模型分別是ChatGPT、Codex和CodeT5。后兩種是專門在多種編程語言的代碼語料庫上訓(xùn)練得到的大模型，能夠根據(jù)自然語言描述生成完整的代碼片段，因此非常適合涉及源代碼的測試任務(wù)，如測試用例生成、缺陷修復(fù)。

此外，雖然已經(jīng)有14個研究使用GPT-4（排名第四），但是GPT-4作為一種多模態(tài)大模型，研究人員表示尚未發(fā)現(xiàn)相關(guān)研究探索軟件測試任務(wù)中利用其圖像相關(guān)功能（例如UI截圖、編程演示），這值得在未來研究中探索。（編者注：其實是可以的，編者曾做過相關(guān)的實驗）

在如何調(diào)整大模型行為以勝任軟件測試任務(wù)方面，主要有預(yù)訓(xùn)練或微調(diào)和提示工程兩種技術(shù)手段。

如下圖所示，有38項研究使用了預(yù)訓(xùn)練或微調(diào)模式以微調(diào)大模型的行為，而64項研究則使用了提示工程來引導(dǎo)大模型達(dá)到預(yù)期的結(jié)果。

提示工程技術(shù)的主要優(yōu)勢在于無需更新模型權(quán)重也能讓大模型適應(yīng)特定領(lǐng)域和任務(wù)，并強化大模型的理解和推理能力，目前已經(jīng)采用的技術(shù)包括零樣本或少樣本學(xué)習(xí)、自我一致性、思維鏈、自動提示等技術(shù)。

此外，研究人員發(fā)現(xiàn)有35項研究在運用大模型之上，還結(jié)合了傳統(tǒng)測試技術(shù)，包括變異測試、差分測試、程序分析、統(tǒng)計分析等，以取得更好的測試有效性和覆蓋率。

雖然大模型在各種任務(wù)中表現(xiàn)出巨大的潛力，但仍然存在一些局限性，如難以理解和處理復(fù)雜的程序結(jié)構(gòu)。

因此，將大模型與其他技術(shù)結(jié)合起來，以最大程度地發(fā)揮它們的優(yōu)勢和避免劣勢，從而在特定情況下實現(xiàn)更好的結(jié)果，例如生成更多樣化和復(fù)雜的代碼，更好地模擬真實場景。

用大模型找Bug還有哪些挑戰(zhàn)？

過去兩年中，利用大模型進(jìn)行軟件測試已經(jīng)有了很多成功的實踐。然而，研究人員指出它仍處于早期發(fā)展階段，還有許多挑戰(zhàn)和未解決問題需要探索。

挑戰(zhàn)1：實現(xiàn)高覆蓋率的挑戰(zhàn)

探索被測試軟件的多樣行為以實現(xiàn)高覆蓋率始終是軟件測試的重要關(guān)注點。大模型直接實現(xiàn)所需的多樣性仍然具有很大挑戰(zhàn)，例如單元測試用例生成中，在SF110數(shù)據(jù)集上，行覆蓋率僅為2％，分支覆蓋率僅為1％。

在系統(tǒng)測試輸入生成方面，對于面向深度學(xué)習(xí)庫的模糊測試，TensorFlow的API覆蓋率為66％（2215/3316）。已有工作通常將變異測試與大模型結(jié)合使用，以生成更多樣化的輸出。

其他潛在的研究方向涉及利用測試相關(guān)的數(shù)據(jù)來訓(xùn)練或微調(diào)能夠理解測試特性的專用大模型，可以理解測試要求，自主地生成多樣化的輸出。

挑戰(zhàn)2：測試預(yù)言的挑戰(zhàn)

測試預(yù)言問題一直是各種測試應(yīng)用面臨的挑戰(zhàn)，已有工作常見做法是將其轉(zhuǎn)化為更容易獲取的形式，通常通過差分測試來實現(xiàn)或僅關(guān)注容易自動識別的測試預(yù)言（例如崩潰類錯誤），雖然取得了不錯效果，但僅適用于少數(shù)情況。

探索利用大模型解決其他類型的測試預(yù)言問題是非常有價值的。

例如，蛻變測試也是常用的緩解測試預(yù)言問題的技術(shù)，可以探索結(jié)合人機交互或領(lǐng)域知識自動產(chǎn)生蛻變關(guān)系，還可探索大模型自動生成基于蛻變關(guān)系的測試用例，覆蓋各類輸入。進(jìn)一步，像GPT-4這樣的多模態(tài)大模型也為檢測用戶界面相關(guān)缺陷并輔助推導(dǎo)測試預(yù)言提供了可能性。

挑戰(zhàn)3：精準(zhǔn)評估性能的挑戰(zhàn)

缺乏基準(zhǔn)數(shù)據(jù)集和基于大模型技術(shù)潛在的數(shù)據(jù)泄漏問題給進(jìn)行嚴(yán)格和全面的性能評估帶來了挑戰(zhàn)。研究人員通過檢查訓(xùn)練大模型的數(shù)據(jù)源CodeSearchNet和BigQuery，發(fā)現(xiàn)Defect4J基準(zhǔn)數(shù)據(jù)集中使用的四個代碼庫同時包含在CodeSearchNet中，并且整個Defects4J代碼庫都包含在BigQuery中。

因此，大模型在預(yù)訓(xùn)練過程中已經(jīng)見過現(xiàn)有的程序修復(fù)基準(zhǔn)數(shù)據(jù)集，存在嚴(yán)重的數(shù)據(jù)泄露問題。所以，需要構(gòu)建更專門和多樣化的基準(zhǔn)數(shù)據(jù)集，并采取措施防止數(shù)據(jù)泄漏。

挑戰(zhàn)4：用于現(xiàn)實項目的挑戰(zhàn)

由于對數(shù)據(jù)隱私的關(guān)注，在考慮實際應(yīng)用時，大多數(shù)軟件組織傾向于避免使用商用大模型，更愿意采用開源的大模型，并使用組織特定的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)。

此外，一些公司還考慮到計算能力的限制或關(guān)注能源消耗等，傾向于采用中等規(guī)模的模型。在這樣的現(xiàn)實條件下，要達(dá)到與已有研究工作中報告的類似性能是非常具有挑戰(zhàn)的。例如，在廣泛使用的QuixBugs數(shù)據(jù)集中，40個Python錯誤中有39個能夠自動修復(fù)，40個Java錯誤中有34個能夠自動修復(fù)。

然而，當(dāng)涉及到從Stack Overflow收集的深度學(xué)習(xí)程序（代表實際的編碼實踐）時，72個Python錯誤中僅有16個能夠自動修復(fù)。如何更關(guān)注現(xiàn)實需求研發(fā)相應(yīng)的技術(shù)才能更利于技術(shù)落地和實際應(yīng)用。

大模型也帶來了研究機遇

利用大模型進(jìn)行軟件測試也帶來了許多研究機遇，對于軟件測試領(lǐng)域的發(fā)展大有益處。

機遇1：利用大模型進(jìn)行更多樣化的軟件測試任務(wù)和階段

在測試任務(wù)的初期階段，目前LLM還未得到有效應(yīng)用（編者注：其實在早期，LLM更能發(fā)揮作用）。主要原因有兩方面：一是早期測試任務(wù)的主觀性，需要專家進(jìn)行評估；二是早期階段缺乏開放數(shù)據(jù)資源，這限制了大模型的性能表現(xiàn)。

此外，如下圖所示，雖然大模型在單元測試和系統(tǒng)測試方面得到了廣泛應(yīng)用，但在集成測試和驗收測試方面的應(yīng)用相對較少?？傊?，如何充分利用大模型進(jìn)行更多樣化的軟件測試任務(wù)和測試階段是一個值得深入研究的新方向。例如，在驗收測試方面，大模型可以與人類測試人員協(xié)同工作，以自動生成測試用例并評估測試覆蓋率。

機遇2：將大模型應(yīng)用于更廣泛的測試類型和軟件

一方面，雖然大模型在功能測試方面得到了廣泛應(yīng)用，但在性能測試和可用性測試等其他方面應(yīng)用較少，這可能是因為這些測試已有一些專門且讓人滿意的模型和工具。

但將大模型與這些工具相結(jié)合仍不失為一個潛在的研究方向，例如利用大模型整合性能測試工具，并模擬真實用戶行為來產(chǎn)生不同類型的工作負(fù)載。另一方面，如下圖所示，已經(jīng)有研究在多種類型的軟件測試中成功應(yīng)用了大模型，例如移動應(yīng)用，深度學(xué)習(xí)庫、自動駕駛系統(tǒng)等。不僅能將現(xiàn)有技術(shù)遷移到其他類型的軟件上，也可以針對某類軟件的特性，研發(fā)針對性的技術(shù)。

機遇3：整合先進(jìn)的提示工程技術(shù)

現(xiàn)有研究尚未充分挖掘大模型的潛力，如下圖所示，僅使用了五種最常見的提示工程技術(shù)。未來的研究應(yīng)該探索更高級的提示工程技術(shù)（如圖中的思維樹、多模態(tài)思維鏈等），以更充分地發(fā)揮或增強大模型的理解和推理能力。

機遇4：和傳統(tǒng)技術(shù)結(jié)合

目前關(guān)于大模型在解決軟件測試問題方面的能力還沒有明確的共識，有研究將大模型與傳統(tǒng)軟件測試技術(shù)相結(jié)合取得了很好的效果，這可能意味著大模型并非解決軟件測試問題的唯一靈丹妙藥。

考慮到已有許多成熟的軟件工程相關(guān)技術(shù)和工具，可以探索將大模型與傳統(tǒng)技術(shù)相結(jié)合（例如形式化驗證等尚未在已有研究中探索過的）、探索其他更先進(jìn)的結(jié)合方式、以及與工具集成更好地發(fā)掘已有工具的潛力。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GPT

GPT

+關(guān)注

關(guān)注
0

文章
347

瀏覽量
15182
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2136

瀏覽量
1982
LLM

LLM

+關(guān)注

關(guān)注
0

文章
247

瀏覽量
279

原文標(biāo)題：使用大模型進(jìn)行軟件測試：調(diào)查、現(xiàn)狀和展望

文章出處：【微信號：軟件質(zhì)量報道，微信公眾號：軟件質(zhì)量報道】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

摩爾線程攜手東華軟件完成AI大模型推理測試與適配

近日，摩爾線程與東華軟件云筑AI創(chuàng)新中心宣布，雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產(chǎn)算力，東華軟件打造安全可信的基于私有化大

發(fā)表于 07-31 10:51 ?478次閱讀

軟件測試六大問全面而深入的軟件測試行業(yè)解疑

隨著科技的進(jìn)步和大數(shù)據(jù)時代的到來，?軟件測試面臨著前所未有的挑戰(zhàn)和機遇。?在這篇文章中我們將深入討論軟件測試行業(yè)的發(fā)展前景、行業(yè)趨勢、薪資水平等，為讀者提供一次

發(fā)表于 07-30 10:28 ?142次閱讀

人工智能大模型在工業(yè)網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，人工智能大模型作為一種具有強大數(shù)據(jù)處理能力和復(fù)雜模式識別能力的深度學(xué)習(xí)模型，已經(jīng)在多個領(lǐng)域展現(xiàn)了其獨特的優(yōu)勢和廣闊的應(yīng)用前景。

發(fā)表于 07-10 14:07 ?414次閱讀

摩爾線程與智譜AI完成大模型性能測試與適配

近日，摩爾線程與智譜AI在人工智能領(lǐng)域開展了一輪深入的合作，共同對GPU大模型進(jìn)行了適配及性能測試。此次測試不僅涵蓋了大

發(fā)表于 06-14 16:40 ?783次閱讀

仿真測試與軟件測試的區(qū)別

在當(dāng)今軟件開發(fā)和驗證的領(lǐng)域中，測試是保證軟件質(zhì)量的關(guān)鍵環(huán)節(jié)。而在測試的眾多方法中，仿真測試和

發(fā)表于 05-17 14:33 ?552次閱讀

【大語言模型：原理與工程實踐】大語言模型的評測

和安全性。行業(yè)模型的評測則針對特定領(lǐng)域的能力，整體能力的評測則從宏觀角度評估模型的通用性。在基座模型的評測中，除了自回歸損失和困惑度等指標(biāo)外

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】核心技術(shù)綜述

我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下，這樣的話，工作量很大。我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言模型（Large Language Models，LLMs）的核心技術(shù)涵蓋了從模型

發(fā)表于 05-05 10:56

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

的全面認(rèn)識，還提供了將這些模型應(yīng)用于實際問題的實用指導(dǎo)。對于希望在人工智能領(lǐng)域深入研究的讀者來說，這是一本不可多得的參考書籍。

發(fā)表于 04-30 15:35

谷歌模型訓(xùn)練軟件有哪些？谷歌模型訓(xùn)練軟件哪個好？

谷歌在模型訓(xùn)練方面提供了一些強大的軟件工具和平臺。以下是幾個常用的谷歌模型訓(xùn)練軟件及其特點。

發(fā)表于 03-01 16:24 ?676次閱讀

谷歌模型軟件有哪些功能

谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發(fā)的一款大型語言

發(fā)表于 03-01 16:20 ?460次閱讀

谷歌模型合成軟件有哪些

谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前，谷歌推出的模型合成軟件

發(fā)表于 02-29 18:20 ?1206次閱讀

谷歌模型軟件有哪些好用的

谷歌模型軟件的好用程度可能因個人需求和技能水平而異，但以下是一些廣受歡迎的谷歌模型軟件，它們在各自的領(lǐng)域

發(fā)表于 02-29 18:17 ?869次閱讀

Banana Pi BPI-W3 RK3588開發(fā)平臺批量產(chǎn)測軟件，全面批量測試

Banana Pi BPI-W3 RK3588開發(fā)平臺批量產(chǎn)測軟件，全面批量測試

發(fā)表于 11-02 09:08 ?1198次閱讀

基于模型的方法在民機機載軟件中的應(yīng)用

機載軟件適航標(biāo)準(zhǔn)對軟件研制過程、生命周期數(shù)據(jù)以及符合性證據(jù)等都提出了明確的要求。然而，這些過程要求都是建立在歐美80~90年代軟件工程實踐的基礎(chǔ)上，以文本需求+代碼為主要的開發(fā)方式。隨

發(fā)表于 10-27 15:30 ?437次閱讀

基于軟件性質(zhì)的自動化測試技術(shù)

在軟件開發(fā)的生命周期中，測試是至關(guān)重要的一環(huán)。為了確保軟件產(chǎn)品的質(zhì)量，開發(fā)團隊需要進(jìn)行全面的測試

發(fā)表于 10-09 16:29 ?458次閱讀