×
NEWS CENTER

新聞中心

【技術工場(chǎng)】巨龍信息大(dà)數據集成技術 海量數據集成架構實踐

時(shí)間:2022-04-25 16:20:12 次數:3077

巨龍信息大(dà)數據集成系統是一款基于分(fēn)布式并行計算(suàn)架構開發的(de)ETL數據集成系統。具備高(gāo)吞吐、高(gāo)可(kě)用(yòng)、高(gāo)擴展特性,可(kě)以爲海量數據的(de)超大(dà)規模數據倉庫建設提供抽取、整合、清洗、入庫等集成業務。

産品特征

■高(gāo)吞吐處理(lǐ)能力:采用(yòng)多(duō)線程處理(lǐ)算(suàn)法,高(gāo)效的(de)内存利用(yòng)率;任務運行過程無需本地磁盤IO操作,提升整體單位時(shí)間的(de)大(dà)批量處理(lǐ)能力;支持TB/h級的(de)大(dà)數據集成業務性能。

■高(gāo)擴展、高(gāo)可(kě)靠:并行架構提升單機處理(lǐ)能力的(de)線性擴展;新增執行引擎的(de)快(kuài)速部署和(hé)自動識别,分(fēn)布式架構提升多(duō)機處理(lǐ)能力的(de)線性擴展;執行引擎宕機的(de)自動識别和(hé)任務轉移,保證任務的(de)順利執行。

■可(kě)視化(huà)流程配置:通(tōng)過簡單的(de)圖形拖拽配置數據集成流程,簡單易用(yòng)的(de)專業化(huà)配置。

■集成業務全流程監控:可(kě)對(duì)處理(lǐ)過程的(de)每個(gè)步驟,每個(gè)子流程處理(lǐ)進行實時(shí)監控,簡單快(kuài)速發現處理(lǐ)過程遇到的(de)漏數據,錯處理(lǐ)等問題。

■統一的(de)元數據模型:基于統一公共倉庫元模型,可(kě)與公司産品線其他(tā)産品無縫對(duì)接,簡化(huà)整體解決方案的(de)實施運維。

■大(dà)數據技術支持:支持主流的(de)關系型數據庫,NOSQL數據庫,全文庫處理(lǐ)等主流大(dà)數據産品的(de)抽取入庫,以及異構庫之間的(de)抽取入庫。

■低廉的(de)硬件成本:使用(yòng)x86架構的(de)PCServer,無需昂貴的(de)unix服務器。

技術亮點

高(gāo)性能

■任務的(de)水(shuǐ)平切分(fēn)

一個(gè)分(fēn)布式ETL任務會根據分(fēn)區(qū)自動被分(fēn)片到多(duō)台ETL-執行引擎中,每個(gè)執行引擎的(de)執行容器使用(yòng)多(duō)線程并發的(de)對(duì)數據進行加工處理(lǐ)後加載到數據倉庫中。當源頭庫單表數據量巨大(dà)時(shí),可(kě)極大(dà)提升整體的(de)數據集成效率和(hé)性能

■任務拓撲切分(fēn)

一個(gè)任務的(de)各個(gè)步驟,可(kě)根據現場(chǎng)物(wù)理(lǐ)設備的(de)實際配置,合理(lǐ)地安排到不同的(de)物(wù)理(lǐ)設備上,保證硬件資源滿足步驟的(de)執行

高(gāo)擴展

■集群處理(lǐ)能力的(de)線性擴展

Ø 集群處理(lǐ)能力的(de)快(kuài)速擴充

Ø 集群自動識别和(hé)熱(rè)部署新增執行引擎

■多(duō)集群組

Ø 根據業務劃分(fēn)集群組,使關注點分(fēn)離

Ø 集群組有利于異常幹擾的(de)隔離

■單任務并行計算(suàn)

Ø 任務步驟的(de)獨立線程數可(kě)配置

Ø IO的(de)合理(lǐ)平衡

Ø 内存空間的(de)合理(lǐ)利用(yòng),減少内存垃圾回收率

■任務的(de)分(fēn)布式調度

Ø 帶權重的(de)負載均衡算(suàn)法,可(kě)根據設備處理(lǐ)能力安排并發任務數

Ø 控制中心對(duì)集群環境的(de)自動負載均衡

高(gāo)可(kě)用(yòng)

■異常數據分(fēn)流

Ø 可(kě)選的(de)異常數據分(fēn)流機制,保證不影(yǐng)響正常流程的(de)情況下(xià)異常數據分(fēn)流

Ø 保證每個(gè)步驟出現的(de)異常數據轉儲到指定地點,不丢失

■控制中心HA

■任務的(de)異常處理(lǐ)

Ø 自動感知執行引擎異常,将異常設備的(de)任務轉發到正常設備上重新執行

Ø 任務在一台設備上執行過程出現錯誤,自動重新在另外一台設備重新執行

掃一掃分(fēn)享當前頁面
分(fēn)享到