本页介绍区域并说明如何将区域添加到 Dataplex 湖。
Dataplex 区域概念
数据区域是 Dataplex 湖中的命名实体。它们是非结构化、半结构化和结构化数据的逻辑分组,由多个资产组成,例如 Cloud Storage 存储桶、BigQuery 数据集和 BigQuery 表。
一个湖泊可以包括一个或多个区域。虽然一个区域只能是一个湖泊的一部分,但它可能包含指向资源的资产,这些资源是其父项目之外的项目的一部分。
您可以为 Dataplex 中的区域选择配置。您可以选择两种类型的区域:原始区域和精选区域。
原始区
原始区域以任何格式存储来自外部源的结构化、半结构化和非结构化数据。这对于在执行任何转换之前暂存原始数据很有用。数据可以存储在 Cloud Storage 存储桶或 BigQuery 数据集中。
原始区域支持桶级别或数据集级别的读写权限粒度。有关更多信息,请参阅IAM 和访问控制。
可以存储在原始区域中的数据类型没有限制。
精选区
精选区域存储结构化数据。数据可以存储在 Cloud Storage 存储桶或 BigQuery 数据集中。
Cloud Storage 存储桶支持的格式包括 Parquet、Avro 和 ORC。这对于暂存需要在用于分析之前进行处理的数据或为准备好进行分析的数据提供服务非常有用。
对于 BigQuery 表,您必须具有定义明确的架构和 Hive 样式的分区。当您为精选区域中的给定表提供架构时,数据应符合为表定义的架构,没有架构漂移。
这意味着数据应该与为表定义的架构兼容,并且新分区不应具有与表架构冲突的架构。
精选区域支持 Cloud Storage 存储桶级别或 BigQuery 数据集级别的读写权限粒度。有关更多信息,请参阅使用 IAM 进行访问控制。
在你开始之前
在向湖中添加区域之前,您必须有一个湖。如果您还没有,请创建一个湖。
大多数gcloud lake命令都需要一个位置。您可以通过设置--location参数来指定位置。
访问控制
要添加区域,您必须被授予包含dataplex.lakes.createIAM 权限的 IAM 角色。Dataplex 特定角色roles/dataplex.admin可用于授予添加权限。
有关详细信息,请参阅使用 IAM 进行 Dataplex 访问控制。
添加区域
lakes.zones.create 您可以通过发出 Dataplex API 方法或在 Google Cloud 控制台中添加区域来创建新区域并将其添加到现有湖中。
您可以将多个区域添加到您的湖中。您可以一次添加一个区域,但在创建区域时仍然可以使用您的湖泊。
安慰,休息,在 Google Cloud 控制台中,转到 Dataplex:
前往数据中心,导航到“管理”视图。
在“管理”视图中,单击您要向其添加区域的湖泊的名称。
在“区域”选项卡中,单击add 添加区域。
输入区域的显示名称。
注意:区域 ID 是自动为您生成的。您也可以提供自己的 ID。选择一个有意义的 ID,因为它用于创建数据集和数据库名称。
单击类型下拉列表。选择Raw Zone或Curated Zone。详细了解支持的区域类型。
可选:输入描述。
在数据位置下,选择区域或多区域。您选择的内容以后无法更改。单地域和多地域数据不能在同一个可用区中混用。
可选:启用元数据发现,这允许 Dataplex 自动扫描并从您的区域中的数据中提取元数据:
单击发现设置。
确保选中启用元数据发现。
可选:在包含模式下,列出要包含在发现扫描中的文件。
可选:在排除模式下,列出要在发现扫描中排除的文件。如果您同时输入包含和排除模式,则首先应用排除模式。
单击重复下拉菜单并选择一个频率。
单击时区下拉菜单并选择一个时区。
如果您在Repeats下选择了Custom,请在Schedule下输入作业计划。否则,Schedule值会自动为您填充。
单击创建。创建区域可能需要几分钟时间。Zone创建成功后,Zone自动进入active状态。如果失败,则湖将回滚到以前的状态。创建区域后,您可以将存储在 Cloud Storage 存储桶和 BigQuery 数据集中的数据映射为区域中的资产。