apache atlas是hadoop社區為解決hadoop生態系統的元數據治理問題而產生的開源項目,它為hadoop集群提供了包括數據分類、集中策略引擎、數據血緣、安全和生命周期管理在內的元數據治理核心能力。
apache Atlas是Apache基金會的孵化項目,是Hadoop生態圈的數據治理和元數據框架(Data Governance and Metadata framework)。Atlas是一套核心基礎治理服務的集合,有很好的伸縮性和可擴展性,能夠滿足企業對Hadoop生態系統的多樣性需求,并能和企業的數據生態系統集成。
Apache Atlas的架構如下圖所示:
核心特性
Apache Atlas為Hadoop的元數據治理提供了以下特性:
1、數據分類
● 為元數據導入或定義業務導向的分類注釋
● 定義,注釋,以及自動捕獲數據集和底層元素之間的關系
● 導出元數據到第三方系統
2、集中審計
● 捕獲與所有應用,過程以及與數據交互的安全訪問信息
● 捕獲執行,步驟,活動等操作的信息
3、搜索與血緣
● 預定義的導航路徑用來探索數據分類以及審計信息
● 基于文本的搜索特性來快速和準確的定位相關聯的數據和審計事件
● 對數據集血緣關系的可視化瀏覽使用戶可以下鉆到操作,安全以及數據起源相關的信息
4、安全與策略引擎
● 基于數據分類模式,屬性以及角色的運行時合理合規策略
● 基于分類-預測的高級策略定義以防止數據推導
● 基于cell的屬性和值的行/列級別的masking
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
THE END