0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分布式文件系統(tǒng)的設(shè)計框架

RG15206629988 ? 來源:行業(yè)學(xué)習(xí)與研究 ? 2023-03-20 11:37 ? 次閱讀

一、硬件故障檢測

因為HDFS系統(tǒng)(分布式文件系統(tǒng))可由數(shù)百或數(shù)千個存儲文件數(shù)據(jù)片段的服務(wù)器組成,即HDFS系統(tǒng)包含較多的硬件設(shè)備,所以HDFS系統(tǒng)的硬件故障是常態(tài),而非異常態(tài)。因此,HDFS系統(tǒng)的設(shè)計框架需包含故障檢測和數(shù)據(jù)自動快速恢復(fù)。

HDFS系統(tǒng)故障檢測和數(shù)據(jù)自動快速恢復(fù)功能具體過程如下:HDFS系統(tǒng)將數(shù)據(jù)分塊,即數(shù)據(jù)塊的形式存儲于不同硬件設(shè)備中。通常,每個數(shù)據(jù)塊在HDFS系統(tǒng)被存放于三個硬件設(shè)備中,即每個數(shù)據(jù)塊的份數(shù)是三份。當(dāng)某一硬件設(shè)備出現(xiàn)故障時,HDFS系統(tǒng)在檢測到該設(shè)備故障后,可根據(jù)其他硬件設(shè)備的備份,將該硬件設(shè)備的數(shù)據(jù)再復(fù)制一遍,使HDFS系統(tǒng)中每個數(shù)據(jù)塊的份數(shù)保持在三份。

二、數(shù)據(jù)訪問

HDFS系統(tǒng)被設(shè)計為適合批量處理數(shù)據(jù),具有較大的數(shù)據(jù)吞吐量。HDFS系統(tǒng)不適合交互式訪問。交互式訪問是指用戶在客戶端輸入命令,系統(tǒng)可立即對用戶命令做出反應(yīng)。交互式訪問需要系統(tǒng)具有較快速的反應(yīng)時間,而HDFS系統(tǒng)處理數(shù)據(jù)的速度可能是幾個小時或幾天,因此,HDFS系統(tǒng)的速度不足以支持交互式訪問。

d3fea094-c372-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

三、大數(shù)據(jù)集

HDFS系統(tǒng)(分布式文件系統(tǒng))的數(shù)據(jù)集群被設(shè)計為可包含數(shù)百個節(jié)點(個人理解:計算機或服務(wù)器均可作為HDFS系統(tǒng)的節(jié)點),百度最大的HDFS系統(tǒng)數(shù)據(jù)集群可能包含4000個節(jié)點。

HDFS系統(tǒng)的數(shù)據(jù)存儲量可達至100TB的數(shù)量級,一些HDFS系統(tǒng)的數(shù)據(jù)存儲量可超過該數(shù)量級。

HDFS系統(tǒng)被設(shè)計為可支持大文件存儲。數(shù)據(jù)量越大,HDFS系統(tǒng)的支持量越好。相對于大文件存儲,HDFS系統(tǒng)比較不適合存儲零散的小文件,這是因為所存儲的文件越小,主節(jié)點記錄文件存儲節(jié)點的日志文件(個人理解:存儲節(jié)點的日志文件包含數(shù)據(jù)的存儲位置等信息)越大,主節(jié)點的壓力越大。

四、簡單一致性模型

HDFS系統(tǒng)被設(shè)計為簡單一致性模型。簡單一致性模型是指多數(shù)HDFS系統(tǒng)的文件操作模式是一次寫入多次讀取,即文件一旦被創(chuàng)建、寫入、關(guān)閉后,就不再需要修改。HDFS系統(tǒng)不適合對文件進行頻繁的修改和刪除。

五、將計算移動至數(shù)據(jù)

數(shù)據(jù)計算的最理想狀態(tài)是在靠近數(shù)據(jù)的存儲位置計算,如果不能實現(xiàn)數(shù)據(jù)計算的最理想狀態(tài),則需要通過將數(shù)據(jù)移動至計算或?qū)⒂嬎阋苿又翑?shù)據(jù)后再進行數(shù)據(jù)計算。

HDFS系統(tǒng)的數(shù)據(jù)計算方式是通過將計算移動至數(shù)據(jù)后再進行數(shù)據(jù)計算。將HDFS系統(tǒng)的數(shù)據(jù)存儲于多個數(shù)據(jù)節(jié)點,在計算過程中,可根據(jù)數(shù)據(jù)節(jié)點所存儲的數(shù)據(jù)進行相應(yīng)計算,各數(shù)據(jù)節(jié)點計算結(jié)束后,再將各數(shù)據(jù)節(jié)點計算結(jié)果匯總。

HDFS系統(tǒng)的數(shù)據(jù)計算方式適合大數(shù)據(jù)的計算,并且可以消除網(wǎng)絡(luò)擁堵,提高系統(tǒng)整體的吞吐量,數(shù)據(jù)計算的成本更低。如果將超過100TB的數(shù)據(jù)移動至計算中心,數(shù)據(jù)計算的速度將低于HDFS系統(tǒng)的數(shù)據(jù)計算方式,而且由于數(shù)據(jù)量大,網(wǎng)絡(luò)需要承受較大的壓力,容易造成擁堵,數(shù)據(jù)計算的成本更高。

六、異構(gòu)軟硬件平臺間的可移植性

HDFS系統(tǒng)被設(shè)計為可簡便地實現(xiàn)平臺間的遷移,即不同的操作系統(tǒng)均可使用HDFS系統(tǒng)。該特點可推動大數(shù)據(jù)集應(yīng)用更多采用HDFS系統(tǒng)。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8965

    瀏覽量

    85087
  • 存儲數(shù)據(jù)
    +關(guān)注

    關(guān)注

    0

    文章

    85

    瀏覽量

    14083
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    30

    瀏覽量

    9560

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(20)——分布式文件系統(tǒng)的設(shè)計框架

文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    分布式文件系統(tǒng)和fastDFS

    項目(1)(分布式文件系統(tǒng)、fastDFS,代碼實現(xiàn)fastDFS 文件上傳和下載)
    發(fā)表于 05-10 08:51

    一文解讀在RTThread平臺上使用DFS分布式文件系統(tǒng)

    1、RTThread平臺使用DFS文件系統(tǒng)  簡單介紹了一下DFS代碼框架和如何在RTThread平臺上使用DFS分布式文件系統(tǒng)。工作比較忙先把目前整理的發(fā)出來,希望對小伙伴們有幫助,
    發(fā)表于 09-15 16:57

    HarmonyOS分布式文件系統(tǒng)開發(fā)指導(dǎo)

    分布式文件系統(tǒng)概述 分布式文件系統(tǒng)(hmdfs,HarmonyOS Distributed File System)提供跨設(shè)備的文件訪問能力
    發(fā)表于 11-14 17:14

    采用信任管理的分布式文件系統(tǒng)TrustFs

    在傳統(tǒng)的分布式文件系統(tǒng)中用戶無法判斷文件的可信任性,針對此問題提出采用信任管理的分布式文件系統(tǒng)TrustFs,使用數(shù)字簽名對
    發(fā)表于 04-02 08:57 ?19次下載

    海量郵件分布式文件系統(tǒng)的設(shè)計與實現(xiàn)

    本文通過歸納分析已有的分布式系統(tǒng)體系結(jié)構(gòu),研究并設(shè)計了一個針對于海量郵件存儲的分布式文件系統(tǒng)。受Google File System 架構(gòu)的啟發(fā),針對單個元數(shù)據(jù)服務(wù)器帶來的瓶頸問
    發(fā)表于 01-09 13:56 ?12次下載

    基于分布式文件系統(tǒng)元數(shù)據(jù)操作優(yōu)化

    隨著網(wǎng)絡(luò)應(yīng)用的迅速發(fā)展,網(wǎng)絡(luò)時代數(shù)據(jù)規(guī)模越來越大,海量數(shù)據(jù)存儲和大規(guī)模并發(fā)的I/O成為了分布式系統(tǒng)中的瓶頸。單機環(huán)境下的文件系統(tǒng)已經(jīng)不能滿足當(dāng)前網(wǎng)絡(luò)時代的大容量、高可靠性、高性能、高擴展性等需求
    發(fā)表于 02-24 13:46 ?0次下載
    基于<b class='flag-5'>分布式</b><b class='flag-5'>文件系統(tǒng)</b>元數(shù)據(jù)操作優(yōu)化

    盤點一下這些常見的分布式文件系統(tǒng)

    Alluxio是第一個基于內(nèi)存的分布式文件系統(tǒng),因此其相應(yīng)速度也會超出普通的分布式文件系統(tǒng)很多,例如HDFS就比它慢數(shù)百倍。并且Alluxio和Spark也有良好的交互。最重要的是Al
    的頭像 發(fā)表于 08-15 16:25 ?1.2w次閱讀
    盤點一下這些常見的<b class='flag-5'>分布式</b><b class='flag-5'>文件系統(tǒng)</b>

    AFS,GFS ,QKFile主流分布式存儲文件系統(tǒng)

    主流的3種分布式存儲文件系統(tǒng) 存儲架構(gòu)分兩種,一種是傳統(tǒng)存儲陣列架構(gòu),另一種就是本文將要重點介紹的分布式存儲架構(gòu)
    發(fā)表于 08-02 11:04 ?3479次閱讀

    解析夸克分布式文件系統(tǒng)如何實現(xiàn)資源共享

    QKFILE—“夸克分布式文件系統(tǒng)”。簡單點說,它是一個點對點的分布式文件系統(tǒng)(和比特幣技術(shù)一樣),通過底層協(xié)議,可以讓存儲在QKFILE系統(tǒng)
    發(fā)表于 08-06 08:45 ?4819次閱讀

    分布式文件存儲系統(tǒng)GFS的基礎(chǔ)知識

    GFS是google的分布式文件存儲系統(tǒng),是專為存儲海量搜索數(shù)據(jù)而設(shè)計的,2003年提出,是閉源的分布式文件系統(tǒng)。
    發(fā)表于 08-25 17:49 ?5890次閱讀
    <b class='flag-5'>分布式</b><b class='flag-5'>文件</b>存儲<b class='flag-5'>系統(tǒng)</b>GFS的基礎(chǔ)知識

    分布式文件系統(tǒng)主從的伸縮性架構(gòu)設(shè)計

    Hadoop當(dāng)中負責(zé)分布式存儲的HDFS,被定義為分布式文件系統(tǒng),對于進入到平臺當(dāng)中的數(shù)據(jù),提供高效的、可容錯、可擴展的數(shù)據(jù)存儲,這得益于分布式文件
    發(fā)表于 01-05 10:42 ?1247次閱讀
    <b class='flag-5'>分布式</b><b class='flag-5'>文件系統(tǒng)</b>主從<b class='flag-5'>式</b>的伸縮性架構(gòu)設(shè)計

    常見的分布式文件存儲系統(tǒng)的優(yōu)缺點

    分布式文件系統(tǒng),可以說是分布式系統(tǒng)下的一個子集,這里我們選取市場應(yīng)用比較廣泛的幾款產(chǎn)品,HDFS、Ceph、FastDFS以及MooseFS來做簡單的分析。
    發(fā)表于 01-15 09:45 ?9969次閱讀
    常見的<b class='flag-5'>分布式</b><b class='flag-5'>文件</b>存儲<b class='flag-5'>系統(tǒng)</b>的優(yōu)缺點

    什么是分布式文件系統(tǒng)

    我們無時無刻不在使用文件系統(tǒng),進行開發(fā)時在使用文件系統(tǒng),瀏覽網(wǎng)頁時在使用文件系統(tǒng),玩手機時也在使用文件系統(tǒng)。
    的頭像 發(fā)表于 03-10 16:21 ?4092次閱讀

    基于RTThread的DFS文件系統(tǒng)組件使用筆記

    簡單介紹了一下DFS代碼框架和如何在RTThread平臺上使用DFS分布式文件系統(tǒng)。工作比較忙先把目前整理的發(fā)出來,希望對小伙伴們有幫助,也希望玩過的朋友一起討論指正。等空閑下來再繼續(xù)細化深入分析
    的頭像 發(fā)表于 11-28 20:50 ?3949次閱讀

    分布式文件系統(tǒng)的設(shè)計原理是什么?

    什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)(DFS)是一種計算機文件系統(tǒng),使用戶能夠從多個分布式位置存
    的頭像 發(fā)表于 10-17 17:35 ?838次閱讀