本指南介绍 Dataplex 元数据以及如何使用 Dataplex API 来管理它。
概述
Dataplex 扫描以下内容:
数据湖中的结构化和半结构化数据资产,将表元数据提取到表实体中
非结构化数据,例如图像和文本,将文件集元数据提取到文件集实体中
您可以使用 Dataplex 元数据 API 执行以下任一操作:
查看、编辑和删除表和文件集实体元数据
创建自己的表或文件集实体元数据
您还可以通过以下任一方式分析 Dataplex 元数据:
数据目录,用于搜索和标记
Dataproc Metastore 和 BigQuery,用于表元数据查询和分析处理。
Dataplex API
本节总结了 Dataplex API 和它们的关键资源。
控制平面 API
Dataplex 控制平面 API 允许创建和管理数据湖、区域和资产资源。
Lake:一个 Dataplex 服务实例,允许跨组织内的项目管理存储资源。
Zone:湖中资产的逻辑分组。使用数据湖中的多个区域,根据准备情况、工作负载或组织结构来组织数据。
资产:存储资源,数据存储在 Cloud Storage 存储桶或 BigQuery 数据集中,附加到湖中的区域。
元数据API
使用 Dataplex 元数据 API 在表和文件集实体和分区中创建和管理元数据。Dataplex 扫描湖中或您提供的数据资产,以创建实体和分区。实体和分区维护对关联资产和物理存储位置的引用。
关键概念
表实体:具有明确定义架构的结构化数据的元数据。表实体由实体 ID 和数据位置唯一标识。表实体元数据可在 BigQuery 和 Dataproc Metastore 中查询:
Cloud Storage 对象:Cloud Storage 对象的元数据,可通过 Cloud Storage API 访问。
BigQuery 表: BigQuery 数据集的元数据,可通过 BigQuery API 访问。
文件集实体: 关于非结构化(通常是无模式)数据的元数据。文件集由实体 ID 和数据位置唯一标识。每个文件集都有一种数据格式。
分区:表或文件集实体中数据子集的元数据,由一组键/值对和数据位置标识。
试用 API
使用 Dataplex lakes.zones.entities 和lakes.zones.partitions API 参考文档页面查看与每个 API 关联的参数和字段。使用每个 API 方法的参考文档附带的试用此 API面板,使用不同的参数和字段发出 API 请求。您可以构造、查看和提交请求而无需生成凭据,然后查看服务返回的响应。
以下部分提供的信息可帮助您了解和使用 Dataplex 元数据 API。