時(shí)間:2019-03-27 13:22:05 次數:3392
近幾十年來(lái),科學技術的(de)迅猛發展和(hé)信息化(huà)的(de)推進,使得(de)人(rén)類社會所積累的(de)數據量已經超過了(le)以往過去幾千年的(de)所有總和(hé),數據采集、存儲、處理(lǐ)和(hé)傳播的(de)數量也(yě)與日俱增。如何對(duì)數據進行有效的(de)集成管理(lǐ)已成爲行業關注的(de)焦點。
數據集成2.0的(de)現在時(shí)
随著(zhe)大(dà)數據、雲計算(suàn)、人(rén)工智能的(de)快(kuài)速落地,未來(lái)信息技術變化(huà)風雲莫測,大(dà)數據、雲計算(suàn)、人(rén)工智能、區(qū)塊鏈等技術的(de)快(kuài)速落地,也(yě)在加速數據集成形态發生改變。首先我們來(lái)舉一個(gè)例子:某客戶擁有上萬個(gè)數據源,主要類型分(fēn)爲業務系統和(hé)物(wù)聯網監控數據,根據發展需要把這(zhè)些基礎設施的(de)數據和(hé)業務系統數據彙集到數據中心,數據中心的(de)目标源主要有Mpp、Hive、HDFS、HBase等分(fēn)布式存儲源;如果每天需要把這(zhè)些數據完成采集,需要每小時(shí)具備1TB數據處理(lǐ)能力;基于此客戶抛出幾個(gè)需求:
需求一
需要針對(duì)數據量進行實時(shí)增量同步,每小時(shí)需要具備處理(lǐ)增量數據5TB能力。
需求二
針對(duì)每類數據同步流量可(kě)實現流控,在必要時(shí)可(kě)犧牲一些無關緊要數據來(lái)保證整個(gè)數據集成平台的(de)穩定運行。
需求三
客戶希望面對(duì)複雜(zá)數據處理(lǐ)工作能夠提供面向業務人(rén)員(yuán)可(kě)操作的(de)界面;減少實施人(rén)員(yuán)環節,加快(kuài)數據處理(lǐ)工作效率。
需求四
客戶希望在使用(yòng)過程中由于網絡、斷電、服務器崩潰等因素導緻數據同步中斷的(de)時(shí)候,實現數據斷點續傳能力。
這(zhè)幾個(gè)需求是典型大(dà)數據時(shí)代數據集成面臨的(de)挑戰,客戶就是希望統通(tōng)過技術手段實現數據實時(shí)治理(lǐ),提升決策效率和(hé)數據價值。目前我們也(yě)正在處于這(zhè)個(gè)時(shí)代,這(zhè)個(gè)時(shí)期的(de)數據集成産品如果要有競争力,應該爲數據集成賦予人(rén)工智能、分(fēn)布式計算(suàn)技術等能力;基于上述需求進行提煉,歸結爲以下(xià)幾個(gè)特點:
基于人(rén)工智能技術實現數據開發設計,基于大(dà)數據技術實現海量數據實時(shí)采集、實時(shí)計算(suàn)、實時(shí)同步;目前市面上有些廠商也(yě)逐步推出了(le)新一代的(de)數據集成平台産品,基本設計思路都是基于Kafka+分(fēn)布式計算(suàn)引擎(SparkStreaming+Storm+Filnk)+調度平台,實現新一代的(de)數據集成平台全新技術架構,從目前這(zhè)些廠商推出的(de)産品,筆者也(yě)進行相關試用(yòng),無論是國外的(de)還(hái)是國内的(de),平台還(hái)需要待完善;主要存在以下(xià)幾個(gè)方面:
問題:目前數據接入都是标準接入能力,基于物(wù)聯網的(de)協議(yì)和(hé)數據庫的(de)實時(shí)增量,新一代的(de)設備廠商大(dà)部分(fēn)都解析成了(le)文本數據,但是基于數據庫的(de)實時(shí)數據還(hái)是得(de)需要平台自身提供能力,否則站在整個(gè)業務閉環的(de)角度,實時(shí)集成的(de)第一公裏,這(zhè)個(gè)平台是沒有解決的(de)。
解決方法:逐步增強輸入源組件的(de)能力,解決第一公裏。
問題:新一代的(de)數據集成平台大(dà)部分(fēn)的(de)組件使用(yòng)較爲複雜(zá),大(dà)部分(fēn)組件需要具備大(dà)數據技術能力和(hé)開發經驗的(de)人(rén)上手會比較快(kuài),其他(tā)運維和(hé)實施工程師學習(xí)成本較大(dà)。
解決方法:引入人(rén)工智能技術,傻瓜式的(de)組件使用(yòng)。
問題:數據集成平台采集大(dà)部分(fēn)是未遵循相關标準,采集過程沒有遵循相關配置規範,導緻後續運維困難。
解決方法:引入數據标準體系,針對(duì)數據采集、數據處理(lǐ)、數據同步定義相關标準和(hé)規範,給數據開發定義軟件工程設計思路,實現數據開發工程管理(lǐ)。
問題:針對(duì)數據采集過程中,數據時(shí)代,數據的(de)價值和(hé)安全越發重要,數據集成平台依據互聯網思維延伸過來(lái),安全體系缺失,會出現嚴重洩露情況。
解決方法:做(zuò)到“三權分(fēn)立”的(de)原則,即數據操作權、數據使用(yòng)權、資源管理(lǐ)權;數據操作員(yuán)依據資源管理(lǐ)員(yuán)分(fēn)配相關數據操作權限,數據使用(yòng)員(yuán)依據資源管理(lǐ)員(yuán)的(de)權限使用(yòng)和(hé)查看相關數據,資源管理(lǐ)員(yuán)隻能知道平台具備什(shén)麽資源,具體數據無法查看。
綜上所述,新一代的(de)數據集成平台用(yòng)“海量、實時(shí)、智能、标準、安全”這(zhè)五個(gè)關鍵詞針對(duì)數據集成平台進行立體化(huà)的(de)評估。
通(tōng)過圖中可(kě)以得(de)出,在發展初期平台廠商目前更多(duō)主要基于海量數據處理(lǐ)和(hé)實時(shí)計算(suàn)兩部分(fēn)進行了(le)重點打造,另外三個(gè)闆塊還(hái)處于研究和(hé)探索階段,預估在未來(lái)兩年左右會趨向成熟。
數據集成3.0的(de)未來(lái)史
全球智能手機的(de)快(kuài)速發展,推動了(le)移動終端和(hé)“邊緣計算(suàn)”的(de)發展。而萬物(wù)互聯、萬物(wù)感知的(de)智能社會,則是跟物(wù)聯網發展相伴而生,邊緣計算(suàn)系統也(yě)因此應聲而出。事實上,物(wù)聯網的(de)概念已經提出有超過15年的(de)曆史,然而,物(wù)聯網卻并未成爲一個(gè)火熱(rè)的(de)應用(yòng)。一個(gè)概念到真正的(de)應用(yòng)有一個(gè)較長(cháng)的(de)過程,與之匹配的(de)技術、産品設備的(de)成本、接受程度、試錯過程都是漫長(cháng)的(de),因此往往不能很快(kuài)形成大(dà)量使用(yòng)的(de)市場(chǎng)。5G時(shí)代已經吹響号角,多(duō)家廠商密集發布5G手機 ,外加折疊屏等新技術帶來(lái)潛在換機需求,出貨持續下(xià)滑的(de)智能機市場(chǎng)能否迎來(lái)一線生機,這(zhè)個(gè)還(hái)需要市場(chǎng)檢驗。
前面加了(le)一些偏離主題的(de)内容,看似偏離,其實也(yě)是在引入一個(gè)問題,未來(lái)的(de)數據集成平台還(hái)存在嗎?如果存在,他(tā)将會是什(shén)麽形态呢(ne)?我們可(kě)以結合行業發展趨勢和(hé)信息技術發展情況進行大(dà)膽猜想。
根據Gartner的(de)技術成熟曲線理(lǐ)論來(lái)說,在2015年IoT從概念上而言,已經到達頂峰位置。因此,物(wù)聯網的(de)大(dà)規模應用(yòng)也(yě)開始加速。因此未來(lái)5-10年内IoT會進入一個(gè)應用(yòng)爆發期,邊緣計算(suàn)也(yě)随之被預期将得(de)到更多(duō)的(de)應用(yòng)。估計還(hái)是有人(rén)對(duì)這(zhè)個(gè)詞語比較陌生,按照(zhào)百度百科的(de)解釋:“邊緣計算(suàn)是指在靠近物(wù)或數據源頭的(de)一側,采用(yòng)網絡、計算(suàn)、存儲、應用(yòng)核心能力爲一體的(de)開放平台,就近提供最近端服務”。
随著(zhe)5G+邊緣計算(suàn)+區(qū)塊鏈+雲計算(suàn)+人(rén)工智能等新技術快(kuài)速商用(yòng),我們針對(duì)這(zhè)個(gè)世界更加感知爲一個(gè)由數據産生的(de)信息時(shí)代;邊緣計算(suàn)解決就近應用(yòng)問題,提升用(yòng)戶感知,區(qū)塊鏈解決邊緣計算(suàn)與雲計算(suàn)中心的(de)信息安全問題,5G解決雙方之間的(de)傳輸效率問題,人(rén)工智能技術應用(yòng)到每一個(gè)邊緣計算(suàn)應用(yòng)中,提升智能化(huà)商業應用(yòng)落地。
數據集成平台主要解決異構數據源數據整合的(de)問題,假如我們未來(lái)的(de)相關應用(yòng)基本按照(zhào)标準的(de)思路進行建設,還(hái)會存在異構源數據整合問題嗎?答(dá)案是肯定存在的(de),我們大(dà)膽猜想,所有的(de)應用(yòng)已經完全标準化(huà),所有行業的(de)标準也(yě)規範化(huà)了(le),但是每個(gè)行業的(de)标準必然是不一緻的(de),未來(lái)可(kě)能存在某些行業的(de)颠覆和(hé)消失,但一個(gè)國家的(de)綱領必然存在,一個(gè)國家各個(gè)機構需要獨立運轉,那麽運轉的(de)數據規範必然存在差異,有差異就需要數據治理(lǐ),那麽就需要針對(duì)數據進行融合。故未來(lái)數據集成平台必然還(hái)會存在,那麽它将是以什(shén)麽形态存在呢(ne)?
未來(lái)數據集成能力主要還(hái)是解決異構數據标準的(de)整合問題,平台部分(fēn)能力需要前移,交由前端應用(yòng)完成,數據集成平台會考慮把維護的(de)相關标準下(xià)發到各個(gè)應用(yòng)中,而它盡可(kě)能的(de)去實現标準管控的(de)能力,盡量減少邊緣計算(suàn)應用(yòng)與雲計算(suàn)之間的(de)交互響應時(shí)間。