首页 科技开发工具 娱乐游玩工具 热门工具   APP 登录/注册 联系/合作
   
 
新功能 — 适用于 Apache Spark 的 Amazon Athena
当 Jeff Barr 在 2016 年首次宣布推出 Amazon Athena时,它改变了我对与数据交互的看法。借助Amazon Athena,我只需几个步骤即可与我的数据进行交互 — 从在 Athena 中创建表开始,使用连接器加载数据,以及使用 ANSI SQL 标准进行查询。

随着时间的推移,金融服务、医疗保健和零售等各个行业都需要对各种格式和大小的数据进行更复杂的分析。为了促进复杂的数据分析,组织采用了Apache Spark。Apache Spark 是一种流行的开源分布式处理系统,旨在为任何规模的数据运行快速分析工作负载。

但是,为交互式应用程序构建运行 Apache Spark 的基础架构并不容易。客户需要在应用程序之上供应、配置和维护基础设施。更不用说执行最佳调整资源以避免应用程序启动缓慢和闲置成本。

介绍 Amazon Athena for Apache Spark
今天,我很高兴地宣布推出Amazon Athena for Apache Spark。借助此功能,我们可以运行 Apache Spark 工作负载,使用 Jupyter Notebook 作为接口在 Athena 上执行数据处理,并使用 Athena API 以编程方式与 Spark 应用程序交互。我们可以在一秒钟内启动 Apache Spark,而无需手动配置基础设施。

当 Jeff Barr 在 2016 年首次宣布推出 Amazon Athena时,它改变了我对与数据交互的看法。借助Amazon Athena,我只需几个步骤即可与我的数据进行交互 — 从在 Athena 中创建表开始,使用连接器加载数据,以及使用 ANSI SQL 标准进行查询。

随着时间的推移,金融服务、医疗保健和零售等各个行业都需要对各种格式和大小的数据进行更复杂的分析。为了促进复杂的数据分析,组织采用了Apache Spark。Apache Spark 是一种流行的开源分布式处理系统,旨在为任何规模的数据运行快速分析工作负载。

但是,为交互式应用程序构建运行 Apache Spark 的基础架构并不容易。客户需要在应用程序之上供应、配置和维护基础设施。更不用说执行最佳调整资源以避免应用程序启动缓慢和闲置成本。

介绍 Amazon Athena for Apache Spark
今天,我很高兴地宣布推出Amazon Athena for Apache Spark。借助此功能,我们可以运行 Apache Spark 工作负载,使用 Jupyter Notebook 作为接口在 Athena 上执行数据处理,并使用 Athena API 以编程方式与 Spark 应用程序交互。我们可以在一秒钟内启动 Apache Spark,而无需手动配置基础设施。

这是一个快速预览:
在 Athena 控制台上,您现在可以使用 Jupyter 笔记本运行笔记本并使用 Python 运行 Spark 应用程序。在这个 Jupyter notebook 中,客户可以使用 Spark 应用程序查询各种来源的数据并执行多次计算和数据可视化,而无需上下文切换。

Amazon Athena 与AWS Glue Data Catalog集成,可帮助客户使用 AWS Glue Data Catalog 中的任何数据源,包括 Amazon S3 中的数据。这为客户构建应用程序以分析和可视化数据、探索数据、为机器学习管道准备数据集提供了可能性。

正如我在演示预览部分演示的那样,运行 Apache Spark 引擎的工作组的初始化需要不到一秒钟的时间来运行交互式工作负载的资源。为实现这一点,Amazon Athena for Apache Spark 使用了Firecracker,这是一种轻量级微型虚拟机,它允许即时启动时间并消除了维护热资源池的需要。这有利于希望执行交互式数据探索以获得洞察力而无需准备资源来运行 Apache Spark 的客户。

开始使用适用于 Apache Spark 的 Amazon Athena
让我们看看如何使用适用于 Apache Spark 的 Amazon Athena。在这篇文章中,我将逐步解释如何开始使用此功能。

第一步是创建工作组。在 Athena 的上下文中,工作组帮助我们分离用户和应用程序之间的工作负载。

要创建工作组,请从 Athena 仪表板中选择创建工作组。
在下一页,我给出了这个工作组的名称和描述。
在同一页面上,我可以选择 Apache Spark 作为 Athena 的引擎。此外,我还需要指定一个具有适当权限的服务角色,以便在 Jupyter 笔记本中使用。然后,我检查了 Turn on example notebook,这使我可以轻松开始在 Athena 中使用 Apache Spark。我还可以选择加密由 Athena 管理的 Jupyter 笔记本或使用我在AWS Key Management Service (AWS KMS)中配置的密钥。

之后,我需要定义一个Amazon Simple Storage Service (Amazon S3)存储桶来存储来自 Jupyter notebook 的计算结果。一旦我确定了该工作组的所有配置,我只需选择Create workgroup。
现在,我可以看到已经在 Athena 中创建的工作组。
要查看此工作组的详细信息,我可以从工作组中选择链接。由于我在创建此工作组时还检查了打开示例笔记本,因此我有一个 Jupyter 笔记本来帮助我入门。Amazon Athena 还让我可以灵活地导入现有笔记本,我可以使用导入文件从我的笔记本电脑上传这些笔记本,或者通过选择创建笔记本 从头开始创建新笔记本。
当我选择 Jupyter notebook 示例时,我可以开始构建我的 Apache Spark 应用程序。
当我运行 Jupyter notebook 时,它会自动在工作组中创建一个会话。随后,每次我在 Jupyter Notebook 中运行计算时,所有结果都会记录在会话中。这样,Athena 通过选择计算 ID为我提供了完整的信息来查看每个计算,这将我带到了计算详细信息页面。在这里,我可以查看代码 和 计算结果 。
在会话中,我可以调整Coordinator 大小和Executor 大小,默认为 1 个数据处理单元 (DPU)。一个 DPU 由 4 个 vCPU 和 16 GB RAM 组成。如果我有复杂的计算,更改为更大的 DPU 可以让我更快地处理任务。
编程 API 访问
除了使用 Athena 控制台外,我还可以使用编程访问与 Athena 内部的 Spark 应用程序进行交互。例如,我可以使用create-work-group命令创建一个工作组,使用 启动一个笔记本create-notebook,然后使用 运行一个笔记本会话start-session。

当我需要在不打开 Jupyter notebook 的情况下执行构建报告或计算数据等命令时,使用编程访问非常有用。

使用我之前创建的 Jupyter 笔记本,我可以通过使用 AWS CLI 运行以下命令来启动会话:
除了使用内联代码和--code-block标志,我还可以使用以下命令从 Python 文件传递??输入:
定价和可用性Amazon Athena for Apache Spark 现已在以下 AWS 区域推出:美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(爱尔兰)。要使用此功能,您需要根据数据处理单元或 DPU 每小时定义的计算使用量付费。如需更多信息,请在此处查看我们的定价页面。
要开始使用此功能,请参阅Amazon Athena for Apache Spark以从文档中了解更多信息、了解定价并按照分步演练进行操作。撰写,唐尼普拉科索,Donnie Prakoso 是 AWS 的一名软件工程师、自称咖啡师和首席开发倡导者。拥有超过 17 年的技术行业经验,从电信、银行到初创公司。他现在专注于帮助开发人员了解各种技术,以将他们的想法转化为执行。他喜欢喝咖啡,喜欢讨论从微服务到 AI/ML 的任何话题。

最新文章:
所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。
工具综合排行榜
TOP 1
双计算器 双计算器
同时用两个计算器,用于价格对比、数字分别计算等
TOP 2
推算几天后的日期 推算几天后的日期
推算从某天开始,增加或减少几天后的日期
TOP 3
随机密码生成 随机密码生成
随机生成安全复杂的密码,自由设置密码长度及复杂度
TOP 4
推算孩子的血型 推算孩子的血型
根据父母的血型推测子女的血型
TOP 5
日期转中文大写 日期转中文大写
把数字日期转成中文大写,是财务或商务合同常用的工具
热门内容:       双计算器       推算孩子的血型       随机密码生成       日期转中文大写       推算几天后的日期       达轻每日一景       高校分数线       高校查询       周公解梦大全
首页 科技开发工具大全
娱乐游玩工具大全
登录/注册
联系我们
  用户咨询/建议
kf@ss3316.com


商务合作/推广
hz@ss3316.com

达轻工具 APP

访问手机版网站
使用本平台必读并同意:任何内容仅供谨慎参考,不构成建议,不保证正确,平台不承担任何责任,同意用户协议隐私政策   
BaiduTrust安全认证签章
© 达轻科技 版权所有 增值电信业务经营许可证 ICP备 沪B2-20050023-3