<strong id="g4pkx"></strong>
    <font id="g4pkx"><noscript id="g4pkx"></noscript></font>
      <font id="g4pkx"></font>
    1. <font id="g4pkx"></font>
        1. 看完這篇,數據平臺的成長你就知道了!
          課工場 | 2020-07-17 11:20:48  1187 瀏覽
          在互聯網圈,每個階段都會有新的技術名詞出現。
          在互聯網發展1.0階段,完成了傳統廣告企業數據化,技術名詞有單體式應用、LADP、郵件、電子商務、IM。
          在互聯網發展2.0階段,完成了內容產業數據化,技術名詞有維基百科、搜索引擎、微博、微信、朋友圈,技術名詞。
          在移動互聯網階段,完成了生活服務業數據化,技術名詞有短視頻、大數據平臺、數據挖掘等;而在物聯網階段,則完成萬物數據化,技術名詞有微服務、容器、云計算、人工智能、5G等。
          每個階段的演變都代表著一次革命,代表著生活工作方式的又一次迭代更新,而在整個演進史中,一直被專寵的名詞就是數據。
          互聯網誕生后,只要連上網的終端都會產生數據,人們也逐漸意識到單純數據是沒有價值的,將數據進行再次挖掘分析后能獲取更多的信息,甚至可以演變成商業數據產品進行售賣,數據的位置也被捧得越來越高,成為了老板們最關注的內容。
          而數據平臺的演變也經歷了三個階段,包含2000年~2010年的數據倉庫、2010年~2015年的大數據平臺、2015年~至今的數據中臺,那么對于數據的處理與認知又是怎么迭代的呢?
          1.0階段數據倉庫
          在這個階段,數據主要是為企業提供數據報表、分析等數據,輔助企業進行經營決策,比如電信行業的經營分析系統、銀行的風控管理系統等。
          數據倉庫,顧名思義就是存儲數據的倉庫,通過數據庫來進行數據的存放,可以理解為數據庫的升級版本,數據庫是面向交易的,為了交易、快速讀寫而設計數據結構,數據倉庫是面向數據挖掘、數據分析、輔助決策而設計數據結構。數據倉庫的數據量比數據庫大很多很多。
          那么在數據倉庫中有哪些關鍵概念呢?
          概念1-維度,維度就是看事情的角度,維度的分類又包括單級維、層級維、變化維,單級維就是一對一的表,最小顆粒度,層級維就是有分層結構的維度表,比如地區維度、省市、國家維度,變化維就是隨著時間屬性會變化的維度,比如商品維,商品類型會隨著時間而改變。
          概念2-度量,度量是衡量運行情況的數值指標,比如銷售額、成本、利潤。
          概念3-事實表,事實表由多個維度和度量組成一個期望分析的主題,包含事務粒度事實表、周期快照事實表、累積快照粒度事實表,比如在電商中,某個商品的一筆銷售記錄,包含訂單人、商品類型、價格,這就是最小的數據單元,不可再拆分,而周期快照事實表則是按一定的周期進行記錄,比如月度商品營業額、季度商品營業額等,累計快照事實表就是記錄整個生命周期過程中不同階段的關鍵信息,從而在不同時間不同維度進行數據報表的分析,比如某地區年度營業額、公司年度營業額。
          那么企業中是如何搭建數據倉庫的呢?如下圖所示,企業數據倉庫架構圖一般劃分為4層,從下往上分別是數據采集層、數據存儲與分析層、數據共享層、數據庫應用層,數據采集層是獲取業務系統的原生數據,通過日志、數據庫、網絡傳輸等途徑來獲取數據。
          數據存儲與分析層是為了將獲取的數據、經過分析的數據存儲起來,提供上層使用,結構化數據使用Sqoop進行數據抽取,非結構化數據則使用Flume進行抽取,對于實時數據的計算則使用Spark引擎進行,對于離線數據則使用Hive大數據引擎進行計算,對于數據的存儲使用HDFS,數據的傳輸使用高吞吐量的Kafka進行。
          數據共享層則是通過關系型數據庫管理系統、redis、大數據存儲系統HBase存儲數據。應用層是為了滿足具體具體而構建的數據,通過報表、接口、即席查詢、數據可視化的方式對外暴露,常見的比如季度性經營報表、通過接口給其它部門獲取數據生成數據大盤、直接生成數據大盤給到用戶查看。

          整個數據倉庫的分層架構,是把數據從分散到集中、從業務數據到決策數據的轉變,更好的為企業經營決策做準備。
          2.0階段大數據平臺
          在這個階段,數據的應用已經開始遍布各個場景了,比如app的智能推薦、網站的搜索引擎、用戶畫像等,企業已經開始使用數據進行精準營銷與運營了。
          最炙手可熱的技術無疑是Hadoop分布式計算框架,只要使用相對廉價的PC服務器就可以搭建大數據集群。
          當下最流行的一個詞是數據湖,即接入業務系統的結構化、非結構化數據,再應用Hadoop生態強大計算引擎,將數據直接應用于服務,減少了傳統數據倉庫的建模過程。
          當下最關鍵的一個詞便是Hadoop,Hadoop的核心設計包括三大部分,即Mapreduce、Hbase、HDFS,通過MapReduce將計算任務進行拆解執行并最終匯總起來,通過Hbase列式內存數據庫進行數據的存儲,通過HDFS進行文件元數據管理、存儲物理文件、獲取各種文件API存儲到數據節點中。
          那么企業是如何搭建大數據平臺的呢?
          除了數據倉庫的頂層數據應用、底層數據采集外,在數據存儲與分析層拆分的更加細致,從下往上包含數據集成、文件存儲、數據存儲、編程模型、數據分析。
          因為海量的設備和系統每天都在產生海量的數據,其中有標準化的數據,也有文件文本等,對于標準化的數據,數據采集系統直接使用異步傳輸、消息中間件傳輸等放入大數據庫進行存儲,對于文件數據,直接傳到HDFS文件存儲系統,數據全存儲起來后可以根據數據的類型選擇適合的數據模型來進行處理,最后結合業務需求進行數據的多維分析。

          整個大數據平臺結構的劃分,是把數據拆分的更加細致管理,降低企業成本,運用在更多的場合。
          3.0階段數據中臺
          隨著10多年的技術和經驗積累,再結合人工智能、云計算的出現,大家對于數據有了更多更深的認識,因此產生了數據中臺的概念。
          數據中臺的核心是資源共享與復用,通過數據流轉環節統一化、處理工具組件化、應用調用服務化、組織管理清晰化來進行中臺的建設。
          那么企業是如何搭建數據中臺的呢?
          總的來說可以劃分為五大模塊,從下往上是即數據技術平臺、數據管理平臺、數據開發平臺、公共數據區、應用服務層。
          數據基礎平臺則包含數據采集、計算、存儲,直接使用云廠商提供的云計算服務即可。
          數據管理平臺則包含元數據統一管理、數據質量管理、數據生命周期管理等,保障數據中臺可以監控數據鏈路的數據流向、數據使用效果。
          數據開發平臺則是進行各個數據開發工具的開發管理,比如數據接入導出工具、模型設計工具、數據調用工具。
          公共數據區則是負責公共數據模型開發,統一標簽平臺,把數據封裝成可對外服務的數據;在應用服務層,可直接使用數據部門提供的數據進行業務的分析和市場營銷,比如新注冊一個用戶,根據用戶的年齡、性別、地域、注冊時間、注冊時長等標簽即可判斷該用戶屬于哪一類用戶,從而進行精準的用戶營銷。


          數據中臺雖然在2015年就提出來,并且在阿里、京東這樣的電商巨頭也得到了較好的實踐,但中臺并不是適合任何一個企業,他們只是提供了參考答案,而非標準答案。
          物聯網時代的到來將會產生更多的數據,數據的采集、存儲、生命周期管理、數據建模、數據分析、數據應用等將會產生更大的挑戰,也會誕生更新的玩法,至于如何演進,我們就拭目以待吧~



          標簽:
          五月丁香浪潮网