使用大數(shù)據(jù)正迅速成為科學發(fā)現(xiàn)和工程過程中的關(guān)鍵步驟。隨著智能傳感器和物聯(lián)網(wǎng) (IoT) 等技術(shù)能夠從科學儀器、制造系統(tǒng)、聯(lián)網(wǎng)汽車和飛機中收集大量詳細數(shù)據(jù),這種情況正在發(fā)生。
這些數(shù)據(jù)具有重要價值,因為它可以顯示重要的物理現(xiàn)象或提供有關(guān)系統(tǒng)運行環(huán)境、效率和健康狀況的信息。借助適當?shù)墓ぞ吆图夹g(shù),這些數(shù)據(jù)可用于進行快速的科學發(fā)現(xiàn),并在您的產(chǎn)品、服務(wù)和制造過程中開發(fā)和整合更多智能。這可以使您的公司以性能更好的產(chǎn)品或服務(wù)脫穎而出,并有助于符合法規(guī)要求(例如滿足發(fā)動機燃油效率標準或提供輔助駕駛能力)。
獲得訪問權(quán)和使用數(shù)據(jù)可能聽起來很有趣,但也很艱巨。由于這些數(shù)據(jù)的價值和大小,它通常在大型文件共享、數(shù)據(jù)庫或 Hadoop 或 Spark 等大數(shù)據(jù)系統(tǒng)中存儲和管理。不久前,為了將機器學習等先進技術(shù)應(yīng)用于大量數(shù)據(jù),具有 IT 系統(tǒng)經(jīng)驗的計算機科學家將與工程和科學專家一起工作。該團隊將共同支持一個工作流程,其中包括:
訪問文件、數(shù)據(jù)庫或 Hadoop 分布式文件系統(tǒng) (HDFS) 中的大數(shù)據(jù)
在專門的計算集群上探索、處理和分析這些數(shù)據(jù)
創(chuàng)建用于嵌入式系統(tǒng)、業(yè)務(wù)應(yīng)用程序和其他服務(wù)的算法
如今,MATLAB等軟件分析和建模工具已通過處理大數(shù)據(jù)的新功能得到增強。這使具有領(lǐng)域知識和經(jīng)驗的工程師和科學家能夠利用這些數(shù)據(jù)做出設(shè)計和業(yè)務(wù)決策。然后,工程師和科學家無論身在何處都可以方便地訪問這些數(shù)據(jù),并使用熟悉的語法和功能輕松使用它。
讓我們看一個工程師如何使用大數(shù)據(jù)的實際示例。貝克休斯的工程師為石油和天然氣運營商提供服務(wù)的供應(yīng)商,需要開發(fā)一種預(yù)測性維護系統(tǒng),以降低泵設(shè)備成本和石油和天然氣開采卡車的停機時間。如果活動現(xiàn)場的卡車出現(xiàn)泵故障,貝克休斯必須立即更換卡車以確保連續(xù)運行。向每個站點發(fā)送備用卡車會使公司損失數(shù)千萬美元的收入,如果它們在另一個站點積極使用,這些收入可能會在其他地方產(chǎn)生。無法準確預(yù)測閥門和泵何時需要維護是其他成本的基礎(chǔ)。過于頻繁的維護會浪費精力,并導(dǎo)致零件在仍然可用時被更換,而過于不頻繁的維護可能會損壞泵而無法修復(fù)。
從石油和天然氣開采卡車上收集了數(shù) TB 的數(shù)據(jù),這些數(shù)據(jù)用于開發(fā)一個應(yīng)用程序,該應(yīng)用程序可以預(yù)測設(shè)備何時需要維護或更換。MATLAB 為 Baker Hughes 的工程師提供了開發(fā)預(yù)測模型和將多種數(shù)據(jù)(包括來自專有文件格式的傳感器數(shù)據(jù))合并到一個分析應(yīng)用程序中所需的功能。
訪問大量數(shù)據(jù)
處理大數(shù)據(jù)的第一個挑戰(zhàn)是確定如何訪問大型數(shù)據(jù)集,因為它們有多種不同的形式并存儲在各種類型的系統(tǒng)中。
文件
許多大型工程和科學數(shù)據(jù)集由大量中小型文件組成,盡管文件變得越來越大,并且無法放入單臺計算機的內(nèi)存中。這些文件通常位于共享驅(qū)動器上的一個或多個目錄中,可能包含分隔文本、電子表格、圖像、視頻和各種專有格式。
數(shù)據(jù)庫
有多種數(shù)據(jù)庫類型可用于存儲和管理大量數(shù)據(jù):
關(guān)系型 (SQL):廣泛用于業(yè)務(wù)應(yīng)用程序,在 IT 開發(fā)人員中很受歡迎。
數(shù)據(jù)倉庫:基于關(guān)系 (SQL) 數(shù)據(jù)庫,存儲關(guān)鍵業(yè)務(wù)數(shù)據(jù),并為關(guān)鍵業(yè)務(wù)應(yīng)用程序提供分析能力和快速訪問。
NoSQL:針對不適合關(guān)系數(shù)據(jù)庫的數(shù)據(jù)進行了優(yōu)化。
數(shù)據(jù)歷史學家:針對通常從工業(yè)設(shè)備收集的基于時間的生產(chǎn)和過程數(shù)據(jù)進行了優(yōu)化。
物聯(lián)網(wǎng)數(shù)據(jù)聚合器:通常包括基于云的服務(wù),用于聚合來自連接的傳感器和設(shè)備的時間序列數(shù)據(jù)。這些服務(wù)通常通過 Web 服務(wù)調(diào)用來訪問。
Hadoop
Hadoop是一種基于分布式計算和存儲原理的大數(shù)據(jù)集存儲和處理系統(tǒng)。它由在計算服務(wù)器集群上共存的兩個主要子系統(tǒng)組成:
HDFS:一種大型、抗故障的文件系統(tǒng),稱為 Hadoop 分布式文件系統(tǒng)。
YARN:管理在 Hadoop 上運行的應(yīng)用程序,包括批處理框架,例如 MapReduce 和 Spark,以及 SQL 接口,例如 Hive 和 Impala。
為了有效地利用大數(shù)據(jù)的優(yōu)勢,工程師和科學家需要一個可擴展的工具,例如 MATLAB,以提供對用于存儲和管理數(shù)據(jù)的各種系統(tǒng)和格式的訪問。這在可能使用不止一種類型的系統(tǒng)和格式的情況下尤其重要。存儲在共享驅(qū)動器文件中的傳感器或圖像數(shù)據(jù)可能需要與存儲在數(shù)據(jù)庫中的元數(shù)據(jù)相結(jié)合;就貝克休斯而言,許多不同格式的數(shù)據(jù)必須一起使用,以了解系統(tǒng)的行為并開發(fā)預(yù)測模型。
處理大數(shù)據(jù)的能力正迅速成為科學發(fā)現(xiàn)和工程的一個重要方面。這些數(shù)據(jù)集中包含寶貴的數(shù)據(jù),提供了區(qū)分您的產(chǎn)品和服務(wù)的方法。作為科學家或工程師,您擁有使用這些數(shù)據(jù)做出設(shè)計和業(yè)務(wù)決策的領(lǐng)域知識和經(jīng)驗,但可能需要易于使用的軟件分析和建模工具。使用 MATLAB 等工具可提供可擴展性和效率,同時為您的公司提供在全球市場上的競爭優(yōu)勢。
審核編輯:郭婷
-
傳感器
+關(guān)注
關(guān)注
2545文章
50445瀏覽量
751045 -
matlab
+關(guān)注
關(guān)注
181文章
2960瀏覽量
230024 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137210
發(fā)布評論請先 登錄
相關(guān)推薦
評論