×
NEWS CENTER

新聞中心

巨龍信息大(dà)數據時(shí)代的(de)自主ETL軟件

時(shí)間:2021-10-27 15:48:55 次數:3664

技術背景

大(dà)數據時(shí)代的(de)到來(lái),數據正以前所未有的(de)速度爆發性增長(cháng),數據已經成爲土地、能源等傳統資源之外的(de)一種新資源。大(dà)量的(de)數據來(lái)自不同的(de)源頭,雜(zá)亂無章(zhāng),質量參差不齊。一般單位少則十幾個(gè)信息系統,多(duō)則幾十上百個(gè),這(zhè)些系統之間若溝通(tōng)不暢,會産生數據孤島,造成工作效率低下(xià)。一方面大(dà)量數據閑置,無法有效被利用(yòng),另一方面數據被重複錄入,費時(shí)費力,容易産生差錯。




隻有可(kě)管理(lǐ),可(kě)調用(yòng),可(kě)計算(suàn),可(kě)變現的(de)數據資源才能成爲資産,才能服務政府,城(chéng)市和(hé)産業,幫助實時(shí)統籌科學決策。正确決策來(lái)源于對(duì)實際情況的(de)了(le)解,某種意義上說,就是對(duì)來(lái)自各方的(de)各類數據的(de)正确彙集、整理(lǐ)、歸納、分(fēn)析,從而得(de)出正确的(de)結論。


數據集成是把不同來(lái)源、格式、特點性質的(de)數據在邏輯上或物(wù)理(lǐ)上有機地集中,通(tōng)過應用(yòng)間的(de)數據交換從而達到集成,解決數據的(de)分(fēn)布性和(hé)異構性的(de)問題,從而爲企業提供全面的(de)數據共享。


産品簡介


巨龍信息大(dà)數據集成系統是一款基于分(fēn)布式并行計算(suàn)架構開發的(de)ETL數據集成系統。采用(yòng)組件化(huà)設計,适配混合主流雲,提供多(duō)種類型的(de)數據抽取、整合插件、監控組件、作業流程模型,支持快(kuài)速定制插件開發,具備高(gāo)吞吐、高(gāo)可(kě)用(yòng)、高(gāo)擴展特性,爲海量數據的(de)超大(dà)規模數據倉庫建設提供抽取、整合、清洗、入庫等集成業務。


技術架構

系統主要包含配置管理(lǐ)、任務調度、監控中心、元數據管理(lǐ)等


運行架構

系統運行具有高(gāo)可(kě)用(yòng)的(de)特性,會自動感知執行引擎異常,将異常設備的(de)任務轉發到正常設備上重新執行。運行架構如下(xià)圖:


部署架構


系統部署包含應用(yòng)端、調度引擎、執行引擎。

ETL-應用(yòng): 完成數據集成邏輯的(de)工作流建模和(hé)日常監控管理(lǐ)。

ETL調度引擎:統一執行邏輯的(de)調度控制和(hé)任務分(fēn)發,分(fēn)布式管理(lǐ)。

ETL-執行引擎:ETL任務的(de)具體執行器。

部署架構如下(xià)圖所示:



産品優勢


高(gāo)吞吐處理(lǐ)能力:采用(yòng)多(duō)線程處理(lǐ)算(suàn)法,高(gāo)效的(de)内存利用(yòng)率;任務運行過程無需本地磁盤IO操作,提升整體單位時(shí)間的(de)大(dà)批量處理(lǐ)能力;支持TB/h級的(de)大(dà)數據集成業務性能。


高(gāo)擴展、高(gāo)可(kě)靠:并行架構提升單機處理(lǐ)能力的(de)線性擴展;新增執行引擎的(de)快(kuài)速部署和(hé)自動識别,分(fēn)布式架構提升多(duō)機處理(lǐ)能力的(de)線性擴展;執行引擎宕機的(de)自動識别和(hé)任務轉移,保證任務的(de)順利執行。


可(kě)視化(huà)流程配置:通(tōng)過簡單的(de)圖形拖拽配置數據集成流程,簡單易用(yòng)的(de)專業化(huà)配置。


集成業務全流程監控:可(kě)對(duì)處理(lǐ)過程的(de)每個(gè)步驟,每個(gè)子流程處理(lǐ)進行實時(shí)監控,簡單快(kuài)速發現處理(lǐ)過程遇到的(de)漏數據,錯處理(lǐ)等問題。


統一的(de)元數據模型:基于統一公共倉庫元模型,可(kě)與産品線其他(tā)産品無縫對(duì)接,簡化(huà)整體解決方案的(de)實施運維。


大(dà)數據技術支持:支持主流的(de)關系型數據庫,NOSQL數據庫,全文庫處理(lǐ)等主流大(dà)數據産品的(de)抽取入庫,以及異構庫之間的(de)抽取入庫。


低廉的(de)硬件成本:使用(yòng)x86架構的(de)PCServer,無需昂貴的(de)unix服務器。


數據源支持:支持超過40+數據源的(de)鏈接包括國産數據庫。


業務規則支持:支持自定義數據檢查規則、質量規則、補全規則等,可(kě)以實現複雜(zá)的(de)數據集成需求。


處理(lǐ)模式:支持批流一體化(huà)處理(lǐ),大(dà)幅提升數據的(de)采集和(hé)同步時(shí)間。


快(kuài)速擴展支持:提供插件開發SDK,可(kě)快(kuài)速定制開發所需的(de)業務插件。


應用(yòng)案例




1、系統在某地配置管理(lǐ)2000餘個(gè)大(dà)數據治理(lǐ)作業,支撐日增量百億級别的(de)數據抽取、整合、清洗、轉換、入庫等集成業務,運行穩定。


2、系統在多(duō)地已經分(fēn)别與華爲雲、騰訊雲、華三雲、阿裏雲,甚至是一地多(duō)雲進行适配對(duì)接,完成數據的(de)抽取、整合、清洗、轉換,入庫等集成業務。






掃一掃分(fēn)享當前頁面
分(fēn)享到