0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)工程師的工作內(nèi)容有哪些

工程師人生 ? 來源:工程師吳畏 ? 2019-05-07 16:54 ? 次閱讀

大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個環(huán)節(jié)。

從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:

數(shù)據(jù)采集 -》 數(shù)據(jù)清洗 -》 數(shù)據(jù)存儲 -》 數(shù)據(jù)分析統(tǒng)計 -》 數(shù)據(jù)可視化 等幾個方面

工作內(nèi)容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現(xiàn)上面幾個方面的功能。

很多初學(xué)者,對大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:522189307,有大量干貨(零基礎(chǔ)以及進階的經(jīng)典實戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學(xué)習(xí)流程體系

具體說說吧,

數(shù)據(jù)采集:

業(yè)務(wù)系統(tǒng)的埋點代碼時刻會產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實現(xiàn)分散日志的聚合,即采集。

數(shù)據(jù)清洗:

原始的日志,數(shù)據(jù)是千奇百怪的

一些字段可能會有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的“數(shù)據(jù)分析統(tǒng)計”能拿到比較高質(zhì)量的數(shù)據(jù),需要對這些記錄進行過濾或者字段數(shù)據(jù)回填。

一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節(jié)省存儲開銷,需要刪除這些多余的字段信息。

一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用‘*’字符替換。

數(shù)據(jù)存儲:

清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉庫(Hive),供下游做離線分析。如果下游的“數(shù)據(jù)分析統(tǒng)計”對實時性要求比較高,則可以把日志記錄入到kafka。

數(shù)據(jù)分析統(tǒng)計:

數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費來自上游的數(shù)據(jù)。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數(shù)據(jù),簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計,復(fù)雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數(shù)據(jù)可視化:

用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游“數(shù)據(jù)分析統(tǒng)計”的數(shù)據(jù)。一般公司的某些決策會參考這些圖表里頭的數(shù)據(jù)~

當然,大數(shù)據(jù)平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分喔~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 工程師
    +關(guān)注

    關(guān)注

    59

    文章

    1562

    瀏覽量

    68324
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8815

    瀏覽量

    137014
收藏 人收藏

    評論

    相關(guān)推薦

    硬件工程師工作必備書籍推薦

    硬件工程師工作必備書籍推薦
    的頭像 發(fā)表于 09-24 16:07 ?119次閱讀
    硬件<b class='flag-5'>工程師</b>找<b class='flag-5'>工作</b>必備書籍推薦

    FPGA算法工程師、邏輯工程師、原型驗證工程師什么區(qū)別?

    ,共同進步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗證工程師三者什么區(qū)別? A:FPGA 算法
    發(fā)表于 09-23 18:26

    正是拼的年紀|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發(fā)布于 :2024年07月25日 11:31:02

    嵌入式軟件工程師和硬件工程師的區(qū)別?

    、機器人等。 定義和工作職責 嵌入式軟件工程師的主要職責包括但不限于:設(shè)計、開發(fā)、測試和調(diào)試嵌入式軟件應(yīng)用程序,以滿足特定硬件和軟件要求。他們需要理解并掌握嵌入式系統(tǒng)的基本原理,熟悉相關(guān)硬件接口
    發(fā)表于 05-16 11:00

    大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識 #面試題

    電子工程師電路
    安泰小課堂
    發(fā)布于 :2024年04月30日 17:33:15

    fpga工程師前景如何

    FPGA工程師的前景看起來相當積極和廣闊。隨著5G通信、物聯(lián)網(wǎng)、邊緣計算和人工智能等技術(shù)的快速發(fā)展,F(xiàn)PGA工程師的需求將進一步增加。FPGA芯片具有可編程性強、并行處理能力強、功耗低等特點,因此在
    的頭像 發(fā)表于 03-14 16:32 ?2833次閱讀

    企業(yè)老工程師和高校老師啥區(qū)別

    電子工程師硬件
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年02月28日 17:50:00

    工程師必看!電路基本概念哪些?

    工程師必看!電路基本概念哪些?
    的頭像 發(fā)表于 11-30 09:31 ?535次閱讀
    <b class='flag-5'>工程師</b>必看!電路基本概念<b class='flag-5'>有</b>哪些?

    FPGA工程師需要具備哪些技能?

    在一定條件下的運行情況,來判斷電路的正確性。經(jīng)常使用的動態(tài)觀測技術(shù)包括各種漏斗測試和信號探針。 仿真是FPGA工程師進行測試驗證工作的重要方法。仿真可以幫助工程師確定是否設(shè)計缺陷、
    發(fā)表于 11-09 11:03