大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,以便管理和調(diào)用。由于從多渠道獲得的原始數(shù)據(jù)常常缺乏一致性,這導(dǎo)致標(biāo)準(zhǔn)處理和存儲技術(shù)失去可行性。并且數(shù)據(jù)不斷增長造成單機(jī)系統(tǒng)的性能不斷下降,即使不斷提升硬件配置也難以跟上數(shù)據(jù)增長的速度。
大數(shù)據(jù)存儲和管理發(fā)展過程中出現(xiàn)了如下幾類大數(shù)據(jù)存儲和管理數(shù)據(jù)庫系統(tǒng):分布式文件存儲、NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫。
一、分布式文件存儲
分布式文件存儲的特點之一是為了解決復(fù)雜問題而將大任務(wù)分解為多項小任務(wù),通過讓多個處理器或多個計算機(jī)節(jié)點并行計算來提高解決問題的效率。
分布式文件系統(tǒng)能夠支持多臺主機(jī)通過網(wǎng)絡(luò)同時訪問共享文件和存儲目錄,大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢。為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。
水平劃分的主要思想是根據(jù)某種策略將關(guān)系表中的元組分布到集群中的不同節(jié)點上,由于這些節(jié)點上的表結(jié)構(gòu)是一致的,因此便可以對元組并行處理。在分區(qū)存儲關(guān)系表中處理SQL查詢需要使用基于分區(qū)的執(zhí)行策略。
分布式文件系統(tǒng)可通過多個節(jié)點并行執(zhí)行數(shù)據(jù)庫任務(wù),提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性。其主要缺點為缺乏較好的彈性,并且容錯性較差。
二、NoSQL數(shù)據(jù)庫
傳統(tǒng)關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)密集型應(yīng)用方面顯得力不從心,主要表現(xiàn)在靈活性差、擴(kuò)展性差、性能差等方面。而NoSQL摒棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的設(shè)計思想,采用了不同的解決方案來滿足擴(kuò)展性方面的需求。由于它沒有固定的數(shù)據(jù)模式并且可以水平擴(kuò)展,因而能夠很好地應(yīng)對海量數(shù)據(jù)的挑戰(zhàn)。相對于關(guān)系型數(shù)據(jù)庫而言,NoSQL最大的不同是不使用SQL作為查詢語言。NoSQL數(shù)據(jù)庫主要優(yōu)勢有:避免不必要的復(fù)雜性、高吞吐量、高水平擴(kuò)展能力和低端硬件集群、避免了昂貴的對象-關(guān)系映射。
三、NewSQL數(shù)據(jù)庫
NewSQL數(shù)據(jù)庫采用了不同的設(shè)計,它取消了耗費(fèi)資源的緩沖池,摒棄了單線程服務(wù)的鎖機(jī)制,通過使用冗余機(jī)器來實現(xiàn)復(fù)制和故障恢復(fù),取代原有的昂貴的恢復(fù)操作。這種可擴(kuò)展、高性能的SQL數(shù)據(jù)庫被稱為NewSQL,其中“New”用來表明與傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)的區(qū)別。NewSQL主要包括兩類系統(tǒng):1. 擁有關(guān)系型數(shù)據(jù)庫產(chǎn)品和服務(wù),并將關(guān)系模型的好處帶到分布式架構(gòu)上;2. 提高關(guān)系數(shù)據(jù)庫的性能,使之達(dá)到不用考慮水平擴(kuò)展問題的程度。
NewSQL能夠提供SQL數(shù)據(jù)庫的質(zhì)量保證,也能提供NoSQL數(shù)據(jù)庫的可擴(kuò)展性。
-
數(shù)據(jù)存儲
+關(guān)注
關(guān)注
5文章
947瀏覽量
50759 -
數(shù)據(jù)庫系統(tǒng)
+關(guān)注
關(guān)注
0文章
31瀏覽量
9555
發(fā)布評論請先 登錄
相關(guān)推薦
評論