Devops 團(tuán)隊(duì)旨在提高部署頻率,減少生產(chǎn)中發(fā)現(xiàn)的缺陷數(shù)量,并提高從微服務(wù)和面向客戶的應(yīng)用程序到員工工作流和業(yè)務(wù)流程自動(dòng)化的一切的可靠性。
實(shí)施CI/CD(持續(xù)集成和持續(xù)交付)管道可確保構(gòu)建和部署所有這些應(yīng)用程序和服務(wù)的無縫路徑,自動(dòng)化測(cè)試和實(shí)施持續(xù)測(cè)試實(shí)踐有助于團(tuán)隊(duì)保持質(zhì)量、可靠性和性能。通過持續(xù)測(cè)試,敏捷開發(fā)團(tuán)隊(duì)可以 左移他們的測(cè)試,增加測(cè)試用例的數(shù)量,并提高測(cè)試速度。
[也在 InfoWorld 上:在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中應(yīng)用 devops ]
構(gòu)建測(cè)試用例并使其自動(dòng)化是一回事,擁有足夠數(shù)量和種類的測(cè)試數(shù)據(jù)來驗(yàn)證足夠數(shù)量的用例和邊界場景是另一回事。例如,測(cè)試網(wǎng)站注冊(cè)表單應(yīng)驗(yàn)證輸入模式的排列,包括缺失數(shù)據(jù)、長數(shù)據(jù)條目、特殊字符、多語言輸入和其他場景。
挑戰(zhàn)在于生成測(cè)試數(shù)據(jù)。一種方法是合成數(shù)據(jù)生成,它使用不同的技術(shù)根據(jù)模型和輸入模式集推斷數(shù)據(jù)集。合成數(shù)據(jù)生成解決了所需數(shù)據(jù)的數(shù)量和種類。在使用真實(shí)數(shù)據(jù)可能引發(fā)法律或其他合規(guī)性問題的情況下,您還可以使用合成數(shù)據(jù)生成來創(chuàng)建數(shù)據(jù)集。
“當(dāng)所需數(shù)據(jù)不存在或原始數(shù)據(jù)集充滿個(gè)人身份信息時(shí),合成數(shù)據(jù)提供了一個(gè)很好的選擇,”Accelario 的首席技術(shù)官兼聯(lián)合創(chuàng)始人 Roman Golod說?!白詈玫姆椒ㄊ腔诂F(xiàn)有模式創(chuàng)建合成數(shù)據(jù)以進(jìn)行測(cè)試數(shù)據(jù)管理或構(gòu)建規(guī)則,以確保您的 BI、AI 和其他分析提供可操作的結(jié)果。對(duì)于這兩者,您需要確??梢愿鶕?jù)不斷變化的業(yè)務(wù)需求對(duì)合成數(shù)據(jù)生成自動(dòng)化進(jìn)行微調(diào)?!?/p>
合成數(shù)據(jù)生成用例
雖然合成數(shù)據(jù)生成的最基本需求源于測(cè)試應(yīng)用程序、自動(dòng)化和集成,但隨著數(shù)據(jù)科學(xué)測(cè)試需要機(jī)器學(xué)習(xí)和人工智能算法的測(cè)試數(shù)據(jù),需求也在增長。數(shù)據(jù)科學(xué)家有時(shí)會(huì)使用合成數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò);在其他時(shí)候,他們使用機(jī)器生成的數(shù)據(jù)來驗(yàn)證模型的結(jié)果。
其他合成數(shù)據(jù)用例更具體:
[在這份免費(fèi)的 CIO 路線圖報(bào)告中了解 IT 如何利用 5G 的力量和前景?,F(xiàn)在下載?。?/p>
通過確保在兩個(gè)基礎(chǔ)架構(gòu)上運(yùn)行相同的應(yīng)用程序生成相同的結(jié)果來測(cè)試云遷移
為安全測(cè)試、欺詐檢測(cè)和其他實(shí)際數(shù)據(jù)可能不存在的實(shí)際場景創(chuàng)建數(shù)據(jù)
生成數(shù)據(jù)以測(cè)試大規(guī)模 ERP(企業(yè)資源規(guī)劃)和 CRM(客戶關(guān)系管理)升級(jí),測(cè)試人員希望在遷移實(shí)時(shí)數(shù)據(jù)之前驗(yàn)證配置
為決策支持系統(tǒng)生成數(shù)據(jù)以測(cè)試邊界條件、驗(yàn)證特征選擇、提供更廣泛的無偏測(cè)試數(shù)據(jù)樣本,并確保AI 結(jié)果可解釋
對(duì)人工智能和物聯(lián)網(wǎng)系統(tǒng)(例如自動(dòng)駕駛汽車)進(jìn)行壓力測(cè)試,并驗(yàn)證它們對(duì)不同安全情況的反應(yīng)
如果您正在開發(fā)具有高維數(shù)據(jù)輸入以及關(guān)鍵質(zhì)量和安全因素的算法或應(yīng)用程序,那么合成數(shù)據(jù)生成提供了一種以經(jīng)濟(jì)高效地創(chuàng)建大型數(shù)據(jù)集的機(jī)制。
“合成數(shù)據(jù)有時(shí)是唯一的出路,因?yàn)檎鎸?shí)數(shù)據(jù)要么不可用,要么不可用,”KNIME 的數(shù)據(jù)科學(xué)家 Maarit Widman說。
平臺(tái)如何生成合成數(shù)據(jù)
您可能想知道平臺(tái)如何生成綜合測(cè)試數(shù)據(jù)以及如何選擇最佳算法和配置來創(chuàng)建所需數(shù)據(jù)。
Widman 解釋說:“生成合成數(shù)據(jù)有兩種主要策略:基于統(tǒng)計(jì)概率或基于機(jī)器學(xué)習(xí)算法。最近,像循環(huán)神經(jīng)網(wǎng)絡(luò)這樣的深度學(xué)習(xí)技術(shù)——比如長短期記憶網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)——因其能夠從無到有地生成新的音樂、文本和圖像的能力而越來越受歡迎。”
當(dāng)數(shù)據(jù)點(diǎn)之間存在依賴關(guān)系時(shí),例如時(shí)間序列數(shù)據(jù)和文本分析,數(shù)據(jù)科學(xué)家會(huì)使用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)) 。LSTM(長期短期記憶)通過一系列重復(fù)模塊創(chuàng)建一種形式的長期記憶,每個(gè)模塊都有提供類似記憶功能的門。例如,文本分析中的 LSTM可以學(xué)習(xí)字符和單詞之間的依賴關(guān)系以生成新的字符序列。它還用于音樂創(chuàng)作、欺詐檢測(cè)和谷歌的 Pixel 6 語法校正。
GAN(生成對(duì)抗網(wǎng)絡(luò))已被用于生成多種形式的圖像、破解網(wǎng)絡(luò)安全密碼,甚至制作披薩。GANs通過使用一種算法生成數(shù)據(jù)模式和另一種算法來測(cè)試它們來創(chuàng)建數(shù)據(jù)。然后他們?cè)趦烧咧g形成對(duì)抗性競爭以找到最佳模式。生成合成數(shù)據(jù)的 GAN 代碼示例包括PyTorch 手寫數(shù)字、用于開發(fā)一維高斯分布的 TensorFlow 模型和用于模擬衛(wèi)星圖像的 R 模型。
選擇機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)的模型是一門藝術(shù)和科學(xué)。Monitaur的聯(lián)合創(chuàng)始人兼首席技術(shù)官 Andrew Clark解釋了如何嘗試合成數(shù)據(jù)生成。他說:“這里的經(jīng)驗(yàn)法則始終是為工作選擇最簡單的模型,并以可接受的準(zhǔn)確度執(zhí)行任務(wù)。如果您正在對(duì)客戶結(jié)賬行進(jìn)行建模,那么基于泊松分布的單變量隨機(jī)過程將是一個(gè)很好的起點(diǎn)。另一方面,如果您有大量貸款承銷數(shù)據(jù)集并想要?jiǎng)?chuàng)建測(cè)試數(shù)據(jù),GAN 模型可能更適合捕捉各個(gè)特征之間的復(fù)雜相關(guān)性和關(guān)系?!?/p>
如果您正在處理數(shù)據(jù)科學(xué)用例,那么您可能希望靈活地開發(fā)合成數(shù)據(jù)生成模型。商業(yè)選項(xiàng)包括用于計(jì)算機(jī)視覺的Chooch 、Datomize和Deep Vision Data。
如果您的目標(biāo)是應(yīng)用程序測(cè)試,請(qǐng)考慮用于測(cè)試數(shù)據(jù)管理或綜合生成測(cè)試數(shù)據(jù)的平臺(tái),例如 Accelario、Delphix、GenRocket、Informatica、K2View、Tonic,以及一些測(cè)試數(shù)據(jù)工具,例如開源測(cè)試數(shù)據(jù)生成器。Microsoft 的Visual Studio Premium也有一個(gè)內(nèi)置的測(cè)試數(shù)據(jù)生成器,Java 開發(fā)人員應(yīng)該使用Vaadin 的數(shù)據(jù)生成器查看這個(gè)示例。
如今,擁有強(qiáng)大的測(cè)試實(shí)踐非常重要,因?yàn)榻M織依賴于應(yīng)用程序的可靠性和機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。合成數(shù)據(jù)生成是另一種縮小差距的方法。因此,您不僅擁有測(cè)試、訓(xùn)練或驗(yàn)證方法,而且還擁有生成足夠數(shù)據(jù)來構(gòu)建模型和驗(yàn)證應(yīng)用程序的方法。
-
GaN
+關(guān)注
關(guān)注
19文章
1884瀏覽量
71044 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131843
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論