Data Catalog 是 Dataplex 中的一种可伸缩的全代管式元数据管理服务。
为什么需要 Data Catalog?
如今,大多数组织需要处理海量并且还在不断增长的数据资产。
一个组织中的数据利益相关方(使用者、生产者和管理员)面临着多个挑战:
搜索可提供洞见的数据:
数据使用者不知道数据的位置和来源。它们必须导航数据 “沼泽”。
数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
了解数据:
数据是否新鲜、干净、经过验证并且获准用于生产环境?
在多个重复的数据集中,哪个数据集相关且处于最新状态?
一个数据集与另一个数据集有何关系?
谁在使用数据?谁是数据的所有者?
谁以及哪些进程在转换数据?
使数据有用:
数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。
如果数据使用者不得不查找请求数据访问权限的方法、请求数据、在响应时间未知的情况下等待、上报,然后再次等待,则会浪费宝贵的时间。
如果没有合适的工具,面临的挑战将成为有效使用数据的主要障碍。Data Catalog 提供了一个集中的位置,供组织实现以下目的:
获得统一视图,减少搜索正确数据的麻烦。
通过技术和业务元数据丰富数据,支持数据驱动型决策并加快数据分析速度。
改善数据管理,从而提高运营效率和工作效率。
掌握数据的所有权,从而增强对数据的信心。
Data Catalog 功能
Data Catalog 提供三个主要函数:
搜索您有权访问的数据条目
使用元数据标记数据条目
为 BigQuery 表提供列级安全性
此外,Data Catalog 还可以利用 Cloud Data Loss Prevention (DLP) 扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。
Data Catalog 的工作原理
Data Catalog 可以对来自不同 Google Cloud 系统的资产元数据进行编目。
您还可以使用 Data Catalog API 与自定义数据源集成。
为数据编制目录后,您可以使用标签向这些资产添加自己的元数据。
图 1. Data Catalog 的架构
Data Catalog 元数据
Data Catalog 可处理两种类型的元数据:技术元数据和业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据。
搜索和发现
Data Catalog 可为与数据条目关联的技术和业务元数据提供简单但基于谓词的搜索体验。您必须具有读取数据条目的元数据,才能对元数据应用搜索和发现。Data Catalog 不会将数据条目中的数据编入索引。Data Catalog 只会将描述资产的元数据编入索引。
Data Catalog 可控制某些元数据,例如用户生成的标记。对于源自底层存储系统的所有元数据,Data Catalog 是一项只读服务,反映了底层存储系统提供的元数据和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。
如需详细了解 Data Catalog 搜索,请参阅使用 Data Catalog 搜索数据资源。
自动编制资产目录
对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:
BigQuery 数据集、表、视图。
Pub/Sub 主题。
Dataplex 数据湖、可用区、表和文件集。
Analytics Hub 关联的数据集。
(公开预览版):Dataproc Metastore 服务、数据库和表。
除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。编制非 GCP 资产目录,如需对非 GCP 系统中的元数据进行编目,您可以使用以下项目:社区提供的连接器,可连接到多个常用的本地数据源,手动利用适用于自定义条目的 Data Catalog API。