IBM公司正在嘗試使用與Trifacta Inc.共同開(kāi)發(fā)的新數(shù)據(jù)準(zhǔn)備工具來(lái)解決準(zhǔn)備用于人工智能和機(jī)器學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)的繁瑣且耗時(shí)的過(guò)程。
兩家公司指出,數(shù)據(jù)準(zhǔn)備是構(gòu)建機(jī)器學(xué)習(xí)和預(yù)測(cè)模型的重要步驟。那是因?yàn)閿?shù)據(jù)需要非常準(zhǔn)確,否則模型將無(wú)效,但是問(wèn)題是數(shù)據(jù)科學(xué)家最多可以將80%的時(shí)間花費(fèi)在此任務(wù)上。
這是一個(gè)非常漫長(zhǎng)的時(shí)間,可以更好地用于其他事情,這就是為什么IBM和Trifacta今天宣布推出其新的InfoSphere Advanced Data Preparation工具的原因,他們說(shuō)這有助于加快流程。
借助InfoSphere,數(shù)據(jù)科學(xué)家可以將其原始數(shù)據(jù)集轉(zhuǎn)換為適合于機(jī)器學(xué)習(xí)模型的格式,同時(shí)使用其現(xiàn)有的數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)。
兩家公司表示,該工具旨在“格式化,構(gòu)造和豐富用于分析處理和標(biāo)準(zhǔn)報(bào)告的數(shù)據(jù)集”。它的工作原理是幫助用戶可視化數(shù)據(jù)準(zhǔn)備過(guò)程,以便他們可以連續(xù)跟蹤數(shù)據(jù)的質(zhì)量,并確保在格式化數(shù)據(jù)時(shí)不會(huì)發(fā)生錯(cuò)誤。該過(guò)程也是完全自動(dòng)化的,這意味著正式員工和數(shù)據(jù)科學(xué)家可以準(zhǔn)備和豐富其數(shù)據(jù)以進(jìn)行分析。
Trifacta首席執(zhí)行官亞當(dāng)·威爾遜(Adam Wilson)表示,該公司與IBM合作創(chuàng)建了InfoSphere,此前該公司目睹了許多組織由于數(shù)據(jù)質(zhì)量差和準(zhǔn)備流程效率低下而難以開(kāi)展AI計(jì)劃。
威爾遜說(shuō):“這項(xiàng)合作將使組織能夠在受管和集中管理的環(huán)境中加快自助服務(wù)分析的數(shù)據(jù)準(zhǔn)備?!?/p>
Constellation Research Inc.分析師Doug Henschen告訴SiliconANGLE,與IBM的合作實(shí)際上是Trifacta的妙招,更不用說(shuō)為IBM節(jié)省時(shí)間了,因?yàn)樗梢詭?lái)“最新的自助服務(wù)數(shù)據(jù)”向市場(chǎng)“準(zhǔn)備能力”的速度比它自己完成的速度更快。
Henschen說(shuō):“我認(rèn)為IBM明智地專注于建模生命周期的開(kāi)發(fā),部署,監(jiān)視和持續(xù)管理方面,并在可能的情況下開(kāi)發(fā)自動(dòng)化?!?“為什么Trifacta很好地應(yīng)對(duì)了準(zhǔn)備挑戰(zhàn)?Trifacta在其云平臺(tái)上也與Google建立了重要的合作伙伴關(guān)系,因此這是著名合作伙伴對(duì)其能力的第二次認(rèn)可。”
-
IBM
+關(guān)注
關(guān)注
3文章
1730瀏覽量
74479 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131845
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論