網(wǎng)站制作NEWS
大數(shù)據(jù)平臺是什么
1、大數(shù)據(jù)平臺目前業(yè)界也沒有統(tǒng)一的定義,但一般情況下,使用了Hadoop、Spark、Storm、Flink等這些分布式的實時或者離線計算框架,建立計算集群,并在上面運(yùn)行各種計算任務(wù),這就是通常理解上的大數(shù)據(jù)平臺。
2、至于一家企業(yè)什么時候需要大數(shù)據(jù)平臺,這取決于這么幾方面:
業(yè)務(wù)需求:業(yè)務(wù)需求引導(dǎo)是必須的,不能光為了建平臺而建平臺,建立平臺的最終目的是為了服務(wù)業(yè)務(wù),讓業(yè)務(wù)發(fā)展的更好。企業(yè)內(nèi)大數(shù)據(jù)平臺一般是信息管理部門、IT部門承建并承接一些數(shù)據(jù)需求,業(yè)務(wù)部門其實不關(guān)心你是不是用大數(shù)據(jù)平臺還是用Oracle數(shù)據(jù)庫計算出來的,那么這怎么評估呢?其實主要還是數(shù)據(jù)量,比如業(yè)務(wù)部門是不是偶爾會提“去年全年的XX怎么樣?”、“去年全年的銷售按照渠道、產(chǎn)品類別幾個維度進(jìn)行細(xì)分”、“需要用戶行為數(shù)據(jù)、訂單數(shù)據(jù)結(jié)合來做用戶畫像”、“需要給用戶打標(biāo)簽”、“設(shè)備傳感器的數(shù)據(jù)都有了,需要做實時的故障預(yù)測”等等,在承接各種業(yè)務(wù)需求的時候,是不是偶爾會出現(xiàn)任務(wù)運(yùn)行很久的情況?會不會出現(xiàn)有些需求根本難以實現(xiàn),因為計算量太大的問題?這就說明,業(yè)務(wù)上已經(jīng)有大數(shù)據(jù)的訴求了,技術(shù)上并沒有滿足。
說到業(yè)務(wù)需求,企業(yè)內(nèi)的信息管理部門也要注意,自己不能光承擔(dān)需求,更重要的是要深入業(yè)務(wù),理解業(yè)務(wù),本部門對技術(shù)了解,如果對業(yè)務(wù)也多了解一下,就能夠利用技術(shù)優(yōu)勢做到“想業(yè)務(wù)部門所未想”,實現(xiàn)比業(yè)務(wù)部門能提出更好的需求,并且能用大數(shù)據(jù)技術(shù)實現(xiàn)這個需求,這時候,信息管理部門的價值就更突出了,在企業(yè)內(nèi)就再也不是一個承接需求或者背鍋的部門了。
數(shù)據(jù)量與計算量:涉及到數(shù)據(jù)量的評估,也包括2方面:
現(xiàn)有的情況:現(xiàn)在有多少數(shù)據(jù)?都存儲在哪里?業(yè)務(wù)部門提的各種指標(biāo)需求,每天需要多長時間計算完成?每天什么時候完成昨天經(jīng)營情況的數(shù)據(jù)更新?
增長的情況:每天、每周、每個月的數(shù)據(jù)增量有多少?按照這個增速,現(xiàn)有的配置還能滿足多長時間的需求?
以上2個方面需要綜合評估,現(xiàn)有數(shù)據(jù)量較多或者增長較快,那就需要做大數(shù)據(jù)平臺的打算了。
先進(jìn)性:本企業(yè)在技術(shù)上的布局是否需要一定前瞻性?需要早在數(shù)據(jù)量不太大的時候就進(jìn)行技術(shù)探索?亦或是未來會上馬新項目,新項目會產(chǎn)生大量數(shù)據(jù)。
公有云與私有云的選擇:如果企業(yè)對公有云比較接受,其實可以考慮直接數(shù)據(jù)上公有云,公有云在國內(nèi)主要就是阿里云、騰訊云、百度云等,其中阿里云的技術(shù)最為成熟,此外還有亞馬遜的AWS等,但這里說的是搭建自己的大數(shù)據(jù)平臺,就不深入展開了。
3、如何搭建大數(shù)據(jù)平臺
建設(shè)一個大數(shù)據(jù)平臺不是一朝一夕能完成的,不是下載安裝幾個開源組件那么簡單。
涉及到:
技術(shù)層面:如何進(jìn)行系統(tǒng)架構(gòu)設(shè)計?集群資源如何評估?需要哪些組件?Hadoop、Spark、Tez、Storm、Flink,這些組件有什么區(qū)別?它們之間如何有機(jī)的組合起來?
團(tuán)隊層面:現(xiàn)有的技術(shù)團(tuán)隊配比如何?有沒有人力搭建并且運(yùn)維這個平臺?有沒有能力運(yùn)營好這個平臺?
對于非常重視主營業(yè)務(wù)的傳統(tǒng)企業(yè),信息技術(shù)部門的團(tuán)隊規(guī)模一般比較有限,建設(shè)一個大數(shù)據(jù)平臺的成本是很高的,這個成本不僅是經(jīng)濟(jì)成本,還包括人才投入的成本、時間消耗的成本等等,如何能快速滿足企業(yè)的大數(shù)據(jù)平臺需求。這時候就可以考慮直接采購商用的大數(shù)據(jù)平臺。
商用的大數(shù)據(jù)平臺,市場上也有很多可以選擇,比如星環(huán)、華為,此外還有袋鼠云數(shù)棧。
數(shù)棧的目標(biāo)是通過產(chǎn)品化的方式,幫助企業(yè)構(gòu)建數(shù)據(jù)共享能力中心。數(shù)棧不僅僅是一個大數(shù)據(jù)平臺,同時附加各類數(shù)據(jù)處理工具,包括:
開發(fā)套件:一站式大數(shù)據(jù)開發(fā)平臺,幫助企業(yè)快速完全數(shù)據(jù)中臺搭建
數(shù)據(jù)質(zhì)量: 對過程數(shù)據(jù)和結(jié)果數(shù)據(jù)進(jìn)行質(zhì)量校驗,幫助企業(yè)及時發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題
數(shù)據(jù)地圖: 可視化的數(shù)據(jù)資產(chǎn)中心,幫助企業(yè)全盤掌控數(shù)據(jù)資產(chǎn)情況和數(shù)據(jù)的來源去向
數(shù)據(jù)模型: 使企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化,模型化,幫助企業(yè)實現(xiàn)數(shù)據(jù)管理規(guī)范化
數(shù)據(jù)API: 快速生成數(shù)據(jù)API、統(tǒng)一管理API服務(wù),幫助企業(yè)提高數(shù)據(jù)開放效率
主要特點(diǎn)有:
1.一站式。一站式數(shù)據(jù)開發(fā)產(chǎn)品體系,滿足企業(yè)建設(shè)數(shù)據(jù)中臺過程中的多樣復(fù)雜需求。
2.兼容性強(qiáng)。支持對接多種計算引擎,兼容離線&實時任務(wù)開發(fā)。
3.開箱即用?;赪eb的圖形化操作界面,開箱即用,快速上手。
4.性價比高。滿足中小企業(yè)數(shù)據(jù)中臺建設(shè)需求,降低企業(yè)投入成本。
有了數(shù)棧,企業(yè)搭建數(shù)據(jù)平臺就不再是什么問題,核心需求也就會從搭建數(shù)據(jù)平臺轉(zhuǎn)為滿足更多的業(yè)務(wù)訴求,實現(xiàn)真正的企業(yè)數(shù)據(jù)共享能力中心
多重隨機(jī)標(biāo)簽