如今的數(shù)據(jù)往往來自多笑瞇瞇擅、文件系統(tǒng)、數(shù)據(jù)湖或存儲庫。為了滿足各類業(yè)務(wù)需求,我們必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)相集成,從而支持分析、面向客戶的應(yīng)用程序或者內(nèi)部工作流。而這又帶來了新的問題——我們該如何選擇正確的數(shù)據(jù)集成工具,從而對各類數(shù)據(jù)加以歸納?今天的文章將就此展開探討。
數(shù)據(jù)不在一個數(shù)據(jù)庫,文件系統(tǒng),數(shù)據(jù)庫或存儲庫中。為了滿足許多業(yè)務(wù)需求,必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)集成,然后用于分析,面向客戶的應(yīng)用程序或內(nèi)部工作流程。例子包括:
來自電子商務(wù)應(yīng)用程序的數(shù)據(jù)與用戶分析,客戶關(guān)系管理中的客戶數(shù)據(jù)以及其他主數(shù)據(jù)源集成在一起,以建立客戶群并定制營銷信息。
物聯(lián)網(wǎng)傳感器數(shù)據(jù)與運(yùn)營和財務(wù)數(shù)據(jù)庫中的數(shù)據(jù)相關(guān)聯(lián),以控制吞吐量并報告制造過程的質(zhì)量。
員工工作流應(yīng)用程序,可將跨多個SaaS平臺和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個易于使用的移動界面。
許多組織也對數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師和創(chuàng)新團(tuán)隊(duì)提出了數(shù)據(jù)要求,他們在集成內(nèi)部和外部數(shù)據(jù)源方面的需求日益增長:
開發(fā)預(yù)測模型的數(shù)據(jù)科學(xué)家通常會加載多種外部數(shù)據(jù)源,例如計量經(jīng)濟(jì)學(xué),天氣,人口普查和其他公共數(shù)據(jù),然后將其與內(nèi)部資源融合。
試驗(yàn)人工智能的創(chuàng)新團(tuán)隊(duì)需要匯總可用于訓(xùn)練和測試算法的大型復(fù)雜數(shù)據(jù)源。
業(yè)務(wù)和數(shù)據(jù)分析師,特別是曾經(jīng)在電子表格中執(zhí)行分析的數(shù)據(jù)驅(qū)動營銷部門,現(xiàn)在可能需要更復(fù)雜的工具來加載,加入和處理多個數(shù)據(jù)饋送。
1. 數(shù)據(jù)技術(shù)與功能市場規(guī)模龐大
問題是:用什么工具和做法來整合數(shù)據(jù)源?什么平臺被用來自動化操作數(shù)據(jù)?正在委托哪些工具供數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師在使用新數(shù)據(jù)源時更加努力?在開發(fā)跨多個數(shù)據(jù)源和API進(jìn)行交易的應(yīng)用程序時,有效的開發(fā)和開發(fā)工具能夠?qū)崿F(xiàn)更快速的應(yīng)用程序開發(fā)?
由于許多組織具有不同類型,數(shù)量和速度的數(shù)據(jù),并隨著時間的推移而產(chǎn)生不同的業(yè)務(wù)需求,因此可能已有不同的方法和工具用于集成數(shù)據(jù)。很容易堅持這些,并將它們擴(kuò)展到新的使用案例。雖然使用數(shù)據(jù)工具的任何人可能比其他人更熟悉一種方法,但對于具有多種業(yè)務(wù)和用戶需求的組織而言,應(yīng)用一刀切的數(shù)據(jù)集成方法可能并不是最佳選擇。
此外,隨著越來越多的組織投資于數(shù)據(jù)解決方案,大數(shù)據(jù)解決方案有一個健康的市場。結(jié)果是現(xiàn)在有許多新的平臺和工具來支持?jǐn)?shù)據(jù)集成和處理。
有了這么多的工具,希望將數(shù)據(jù)處理作為核心功能的組織應(yīng)考慮各種工具類型,根據(jù)業(yè)務(wù)和技術(shù)需要應(yīng)用這些工具類型。與數(shù)據(jù)技術(shù)合作或負(fù)責(zé)數(shù)據(jù)技術(shù)的技術(shù)人員應(yīng)該熟悉可用工具的類型。在這里,我調(diào)查了七種主要類型的工具:
編程和腳本數(shù)據(jù)集成
傳統(tǒng)的提取,轉(zhuǎn)換和加載(ETL)工具
數(shù)據(jù)高速公路SaaS平臺
面向用戶和數(shù)據(jù)科學(xué)家的數(shù)據(jù)準(zhǔn)備工具
用于應(yīng)用程序開發(fā)的API和數(shù)據(jù)集成
具有數(shù)據(jù)集成功能的大數(shù)據(jù)企業(yè)平臺
AI注入數(shù)據(jù)集成平臺
2. 數(shù)據(jù)集成編程與腳本
對于任何具有基本編程技能的人來說,將數(shù)據(jù)從源文件移動到目標(biāo)文件的最常見方式是開發(fā)一個簡短的腳本。這可以在具有存儲過程的數(shù)據(jù)庫內(nèi)完成,作為按預(yù)定作業(yè)運(yùn)行的腳本完成,也可以是部署到無服務(wù)器體系結(jié)構(gòu)的小型數(shù)據(jù)處理代碼片段。
這些腳本通常以幾種模式之一運(yùn)行。它們可以按照預(yù)定義的時間表運(yùn)行,也可以作為由事件觸發(fā)的服務(wù)運(yùn)行,或者在滿足定義的條件時作出響應(yīng)。他們可以從多個來源獲取數(shù)據(jù),在將數(shù)據(jù)傳送到目標(biāo)數(shù)據(jù)源之前加入,過濾,清理驗(yàn)證和轉(zhuǎn)換數(shù)據(jù)。
腳本是移動數(shù)據(jù)的快捷方式,但它不被認(rèn)為是專業(yè)級的數(shù)據(jù)處理方法。要成為生產(chǎn)級的數(shù)據(jù)處理腳本,它需要自動執(zhí)行處理和傳輸數(shù)據(jù)所需的步驟,并處理多種操作需求。例如,如果腳本正在處理大量數(shù)據(jù)或快速移動的數(shù)據(jù),則可能需要使用Apache Spark或其他并行處理引擎來運(yùn)行多線程作業(yè)。如果輸入數(shù)據(jù)不干凈,程序員應(yīng)該啟用異常處理并在不影響數(shù)據(jù)流的情況下踢出記錄。程序員還應(yīng)該執(zhí)行重要的計算步驟記錄以便于調(diào)試。
編寫腳本來支持這些操作需求并不是微不足道的。它要求開發(fā)人員預(yù)測數(shù)據(jù)集成和相應(yīng)程序可能出現(xiàn)的問題。另外,開發(fā)自定義腳本在使用許多實(shí)驗(yàn)數(shù)據(jù)源時可能不具有成本效益。最后,數(shù)據(jù)集成腳本通常難以完成知識轉(zhuǎn)移知識,并且難以跨多個開發(fā)人員進(jìn)行維護(hù)。
出于這些原因,具有較大數(shù)據(jù)集成需求的組織通常會超越編程和腳本數(shù)據(jù)集成。
3. 傳統(tǒng)提取、轉(zhuǎn)換與加載(簡稱ETL)工具
自20世紀(jì)70年代以來,抽取,轉(zhuǎn)換和加載(ETL)技術(shù)已經(jīng)出現(xiàn),IBM,Informatica,Microsoft,Oracle,Talend等平臺在功能,性能和穩(wěn)定性方面已經(jīng)成熟。這些平臺提供可視化編程工具,讓開發(fā)人員能夠分解并自動執(zhí)行從源中提取數(shù)據(jù),執(zhí)行轉(zhuǎn)換并將數(shù)據(jù)推送到目標(biāo)存儲庫的步驟。由于它們是可視化的,并將數(shù)據(jù)流分解為原子步驟,與難以解碼的腳本相比,管道更易于管理和增強(qiáng)。另外,ETL平臺通常提供操作界面來顯示數(shù)據(jù)管道崩潰的位置并提供重啟它們的步驟。
多年來,ETL平臺增加了許多功能。大多數(shù)人可以處理來自數(shù)據(jù)庫,平面文件和Web服務(wù)的數(shù)據(jù),無論他們是在本地,在云中還是在SaaS數(shù)據(jù)存儲中。它們支持各種數(shù)據(jù)格式,包括關(guān)系數(shù)據(jù),XML和JSON等半結(jié)構(gòu)化格式,以及非結(jié)構(gòu)化數(shù)據(jù)和文檔。許多工具都使用Spark或其他并行處理引擎來并行化作業(yè)。企業(yè)級ETL平臺通常包括數(shù)據(jù)質(zhì)量功能,因此數(shù)據(jù)可以通過規(guī)則或模式進(jìn)行驗(yàn)證,并將異常發(fā)送給數(shù)據(jù)管理員進(jìn)行解決。
一個常見的ETL示例是組織何時將銷售前景的新文件加載到CRM中。在加載之前,這些數(shù)據(jù)源通常需要清理物理和電子郵件地址,這可以通過使用規(guī)則和標(biāo)準(zhǔn)數(shù)據(jù)源進(jìn)行轉(zhuǎn)換來完成。然后將清理后的記錄與CRM中已經(jīng)存在的記錄進(jìn)行匹配,以便現(xiàn)有記錄得到增強(qiáng),同時添加之前沒有的數(shù)據(jù)并添加新記錄。如果ETL很難確定某行是匹配還是新記錄,則可以將其標(biāo)記為要審查的異常。
當(dāng)數(shù)據(jù)源持續(xù)提供新數(shù)據(jù)并且目標(biāo)數(shù)據(jù)存儲的數(shù)據(jù)結(jié)構(gòu)不會頻繁更改時,通常會使用ETL平臺。這些平臺專為開發(fā)人員編寫ETL而設(shè)計,因此對于混合專有,商業(yè)和開放數(shù)據(jù)存儲的數(shù)據(jù)流操作最為有效。
4. 面向SaaS平臺的數(shù)據(jù)高速公路
但是,是否有更有效的方法從常見數(shù)據(jù)源中提取數(shù)據(jù)?也許主要數(shù)據(jù)目標(biāo)是從Salesforce,Microsoft Dynamics或其他常見CRM程序中提取帳戶或客戶聯(lián)系人。或者,營銷人員希望從Google Analytics等工具中提取網(wǎng)絡(luò)分析數(shù)據(jù),或試圖將客戶數(shù)據(jù)推送到營銷工具(如Mailchimp)中。您應(yīng)該如何防止SaaS平臺成為云中的數(shù)據(jù)孤島,并輕松實(shí)現(xiàn)雙向數(shù)據(jù)流?
如果您已經(jīng)擁有ETL平臺,請查看供應(yīng)商是否提供通用SaaS平臺的標(biāo)準(zhǔn)連接器,或者有可以從開發(fā)合作伙伴處購買的市場。
如果您沒有在ETL平臺上進(jìn)行投資,并且您的數(shù)據(jù)集成需求主要是連接通用平臺,那么您可能需要一個易于使用的工具來構(gòu)建簡單的數(shù)據(jù)高速公路。 Scribe,Snaplogic和Stitch等數(shù)據(jù)高速公路工具提供了簡單的網(wǎng)絡(luò)界面,可以連接到常見的數(shù)據(jù)源,選擇感興趣的領(lǐng)域,執(zhí)行基本轉(zhuǎn)換,并將數(shù)據(jù)推送到常用目的地。
數(shù)據(jù)高速公路的另一種形式有助于更接近實(shí)時地整合數(shù)據(jù)。它通過觸發(fā)器進(jìn)行操作,因此當(dāng)源系統(tǒng)中的數(shù)據(jù)發(fā)生更改時,可以將其操作并推送到輔助系統(tǒng)。 IFTTT,Workato和Zapier就是這類工具的例子。這些工具對于將單個記錄從一個SaaS平臺轉(zhuǎn)移到另一個SaaS平臺時使用“如果是這樣的”邏輯特別有用。在評估它們時,請考慮它們集成的平臺數(shù)量,處理邏輯的功能和簡單性以及價格,以及特定于您的需求的任何因素。
5. 面向用戶與數(shù)據(jù)科學(xué)家的數(shù)據(jù)準(zhǔn)備工具
當(dāng)非技術(shù)和技術(shù)含量較低的用戶想要加載和清理新的數(shù)據(jù)源時,有一種新的數(shù)據(jù)準(zhǔn)備工具針對這些用戶,以幫助他們執(zhí)行數(shù)據(jù)集成。
要實(shí)施基本的數(shù)據(jù)集成和混合,請考慮貴組織中任何商業(yè)智能系統(tǒng)已提供的數(shù)據(jù)集成功能。 Looker,QlikView和Tableau等工具提供基本的數(shù)據(jù)集成,建模和轉(zhuǎn)換。您還可以使用它們發(fā)布和共享虛擬數(shù)據(jù)源。
如果數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師正在處理大量數(shù)據(jù)源或花費(fèi)大量時間來處理數(shù)據(jù),則與BI工具集成的數(shù)據(jù)準(zhǔn)備工具可能是明智的投資。
什么是數(shù)據(jù)爭奪?這是業(yè)務(wù)用戶和數(shù)據(jù)科學(xué)家需要在數(shù)據(jù)源上進(jìn)行的所有工作,以使其可用于分析。它通常從分析數(shù)據(jù)開始,逐場分析顯示有多少百分比有數(shù)值與數(shù)據(jù)集有什么不同值。使用配置文件數(shù)據(jù),分析師會清理具有不同值的字段(例如“紐約”和“紐約”),合并和刪除字段,或使用公式創(chuàng)建計算字段。他們還可以執(zhí)行行級操作,如刪除重復(fù)項(xiàng)和合并記錄。
數(shù)據(jù)準(zhǔn)備工具通常圍繞類似電子表格的用戶界面進(jìn)行設(shè)計,以便讓用戶可視化數(shù)據(jù)配置文件并混合數(shù)據(jù)源。但與傳統(tǒng)電子表格不同,這些工具捕獲用戶執(zhí)行的數(shù)據(jù)處理步驟并啟用可視化和編輯操作。這些工具中的大多數(shù)可以使用它們捕獲的這些腳本來自動化具有持續(xù)運(yùn)營需求的數(shù)據(jù)饋送的數(shù)據(jù)流。
有獨(dú)立的數(shù)據(jù)準(zhǔn)備工具,如Alteryx,Paxata和Trifacta。另外,傳統(tǒng)的ETL廠商如IBM和Talend已經(jīng)開發(fā)了面向商業(yè)用戶和數(shù)據(jù)科學(xué)家的數(shù)據(jù)準(zhǔn)備工具。
6. 用于應(yīng)用程序開發(fā)的API與數(shù)據(jù)集成方案
如果您的目標(biāo)是開發(fā)需要連接到多個數(shù)據(jù)源和API的Web或移動應(yīng)用程序,則有API和應(yīng)用程序開發(fā)工具可以簡化這些集成。這些工具不是將數(shù)據(jù)集成到中央存儲庫中,而是提供各種選項(xiàng),以便在使用多個API和數(shù)據(jù)源時支持更快的應(yīng)用程序開發(fā)。
應(yīng)用程序集成有幾種不同的平臺類型和工具提供者Dell Boomi,Jitterbit和Mulesoft等平臺旨在簡化API和數(shù)據(jù)訪問,并充當(dāng)數(shù)據(jù)總線以集中交互。像Built.io,OutSystems和Pow Wow Mobile這樣的低代碼和移動開發(fā)平臺可以實(shí)現(xiàn)集成,并提供開發(fā)和開發(fā)環(huán)境,以快速構(gòu)建和運(yùn)行應(yīng)用程序。
7. 大數(shù)據(jù)企業(yè)平臺與數(shù)據(jù)集成功能
如果您正在Hadoop或其他大數(shù)據(jù)平臺之上開發(fā)功能,您可以選擇將數(shù)據(jù)集成到這些數(shù)據(jù)存儲:
您可以開發(fā)腳本或使用支持大數(shù)據(jù)平臺的ETL工具作為端點(diǎn)。
您可以選擇具有ETL,數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量,數(shù)據(jù)準(zhǔn)備和主數(shù)據(jù)功能的端到端數(shù)據(jù)管理平臺。
你可以做到這一點(diǎn)。
許多提供ETL工具的供應(yīng)商也出售具有這些增加的大數(shù)據(jù)功能的企業(yè)平臺。 還有像Datameer和Unifi這樣的新興平臺可以實(shí)現(xiàn)自助服務(wù)(如數(shù)據(jù)準(zhǔn)備工具),但是可以在支持供應(yīng)商的Hadoop發(fā)行版之上運(yùn)行。
8. AI驅(qū)動型數(shù)據(jù)集成平臺
在跨腳本,ETL,數(shù)據(jù)準(zhǔn)備,應(yīng)用程序集成服務(wù)和大數(shù)據(jù)平臺的過程中,為開發(fā)人員,數(shù)據(jù)科學(xué)家,數(shù)據(jù)管理員和分析人員提供了大量實(shí)際的手動數(shù)據(jù)集成工作。供應(yīng)商知道這一點(diǎn),而一些下一代數(shù)據(jù)集成工具和功能將包括人工智能(AI)功能,以幫助自動化重復(fù)性任務(wù)或識別難以找到的數(shù)據(jù)模式。例如,Informatica正在營銷Claire,“智能數(shù)據(jù)平臺”,而Snaplogic正在營銷Iris,它“推動自我驅(qū)動整合”。
9. 找到正確的數(shù)據(jù)集成工具組合
考慮到平臺類型,每個空間競爭的供應(yīng)商數(shù)量以及用于分類選項(xiàng)的分析師術(shù)語,數(shù)據(jù)集成選項(xiàng)列表可能令人望而生畏。那么,您如何才能為現(xiàn)在和未來的數(shù)據(jù)集成需求決定正確的工具組合?
簡單的答案是它需要一些紀(jì)律。首先清點(diǎn)已經(jīng)使用的工具,編制成功應(yīng)用的使用案例的編目,并成功地使用這些工具捕獲人員。向他們提供其他難以實(shí)施解決方案的示例用例,因此在尋找其他工具時可能會有所幫助。
了解數(shù)據(jù)集成主題專家的感受。也許有數(shù)據(jù)集成腳本需要持續(xù)維護(hù),財務(wù)團(tuán)隊(duì)對重復(fù)性工作感到沮喪,或者使用ETL解決方案進(jìn)行開發(fā)對于營銷團(tuán)隊(duì)的需求來說太慢了。也許數(shù)據(jù)科學(xué)家花費(fèi)大量的時間用一種編程語言來糾纏數(shù)據(jù)并創(chuàng)建一個龐大的代碼庫。也許很多數(shù)據(jù)集成需求都與少數(shù)標(biāo)準(zhǔn)平臺相關(guān),并且標(biāo)準(zhǔn)化集成方法將帶來運(yùn)營收益。
通過一個清單,數(shù)據(jù)集成專家團(tuán)隊(duì)可以在請求新的或增強(qiáng)的數(shù)據(jù)集成時審查實(shí)施選項(xiàng)。 如果新的請求像已經(jīng)實(shí)施并且正在工作的請求,則團(tuán)隊(duì)?wèi)?yīng)該有信心再次應(yīng)用它。 如果不是,它可以選擇嘗試使用現(xiàn)有工具進(jìn)行實(shí)施,或者考慮使用新工具進(jìn)行概念驗(yàn)證,如果這是一個高度不同的數(shù)據(jù)集成工作。
當(dāng)有新的業(yè)務(wù)需求和不斷變化的技術(shù)環(huán)境時,這種整合用例和審查新用例的規(guī)范是最佳實(shí)踐。
評論
查看更多