首页 科技开发工具 娱乐游玩工具 热门工具   APP 登录/注册 联系/合作
   
 
如何使用 BigQuery ML 和 Vertex AI 简化非结构化数据分析
众所周知,图像、语音和文本数据等非结构化数据难以管理,更难分析。非结构化数据的分析包括用例,例如使用 OCR 从图像中提取文本、对客户评论进行情感分析以及简化分析翻译。所有这些数据都需要存储、管理并可用于机器学习。

新的 BigQuery ML 推理引擎使从业者能够使用预训练的 AI 模型对非结构化数据进行推理。可以分析这些推论的结果以提取见解并改进决策制定。这一切都可以在 BigQuery 中完成,只需使用几行 SQL。

在此博客中,我们将探讨如何使用新的 BigQuery ML 推理引擎对 BigQuery 中的非结构化数据运行推理。我们将演示如何检测和翻译电影海报图像中的文本,以及如何对电影评论进行情感分析。

BigQuery ML 的新推理引擎
Google Cloud 拥有一套预训练的 AI 模型和 API。BigQuery ML 推理引擎可以调用这些 API 并代表您管理响应。您所要做的就是定义要使用的模型并对数据运行推理。所有这些都是使用 SQL 在 BigQuery 中完成的。推理结果以 JSON 格式返回,并存储在 BigQuery 中以供分析。

为什么要在 BigQuery 中运行推理?
传统上,使用 AI 模型运行推理需要 Python 等编程语言方面的专业知识。仅使用 SQL 在 BigQuery 中运行推理的能力可以使使用 AI 从数据中生成见解变得简单且易于访问。BigQuery 也是无服务器的,因此您可以专注于分析数据,而不必担心可扩展性和基础架构。

推理结果存储在 BigQuery 中,这使您可以立即分析非结构化数据,而无需移动或复制数据。这里的一个关键优势是,这种分析还可以与存储在 BigQuery 中的结构化数据相结合,让您有机会加深您的洞察力。这可以简化数据管理并最大限度地减少所需的数据移动和复制量。

支持哪些型号?
目前,BigQuery ML 推理引擎可以与这些预训练的 Vertex AI 模型一起使用:

Vision AI API:此模型可用于从由BigQuery 对象表管理并存储在 Cloud Storage 上的图像中提取特征。例如,Vision AI 可以检测和分类对象,或阅读手写文本。

Translation AI API:该模型可用于将 BigQuery 表中的文本翻译成一百多种语言。

自然语言处理 API:此模型可用于从存储在 BigQuery 表中的文本数据中获取含义。例如,情感分析等功能可用于确定文本的情感基调是积极的还是消极的。
那么,这在实践中如何运作?让我们看一个使用电影海报图像的例子
我们将在 BigQuery ML 中为 Vision AI、Translation AI 和 NLP AI 定义预训练模型。

然后,我们将使用 Vision AI 从一些经典电影海报图像中检测文本。 

接下来,我们将使用 Translation AI 检测任何外国海报并将其翻译成我们选择的语言 - 在本例中为英语。 

最后,我们将在 BigQuery 中将非结构化数据与结构化数据结合起来。

我们将使用从电影海报中提取的电影标题从 BigQuery IMDB 公共数据集中查找观众评论。然后,我们可以使用 NLP AI 对这些评论进行情绪分析。

注意:BigQuery ML 推理引擎目前处于预览阶段。您需要填写此登记表,才能将您的项目列入白名单,以便与 BQML 推理引擎一起使用。
我们将提供定义模型和运行推理所需的 BigQuery SQL 示例。您需要查看我们的笔记本以获取有关如何在您的 Google Cloud 项目中启动和运行它的详细指南。

1. 在 BigQuery 中定义您的 AI 模型
您将需要启用下面列出的 API,还需要创建云资源连接以使 BigQuery 能够与这些服务进行交互。
然后,您可以为每个 AI 服务运行 CREATE MODEL 查询以创建预训练模型,并根据需要替换 model_name。
2. 使用 Vision AI API 检测存储在 Cloud Storage 中的图像中的文本
您需要在 Cloud Storage 中为图像创建一个对象表。此只读对象表提供存储在 Cloud Storage 中的图像的元数据:
要从我们的海报中检测文本,您可以使用ML.ANNOTATE_IMAGE并指定 text_detection 功能。
JSON 响应将返回到 BigQuery,其中包括文本内容和文本的语言代码。您可以使用上面突出显示的点注释将 JSON 解析为标量结果。
3.使用Translation AI API翻译外国电影片名 
ML.TRANSLATE现在可用于将我们从图像中提取的外国标题翻译成英文。您只需要指定翻译的目标语言和电影海报表:
注意:包含要翻译的文本的表列必须命名为 text_content:结果表将包含可以解析以提取原始语言和翻译文本的 json。在这种情况下,模型检测到标题文本是法语并将其翻译成英语:
4. 最后,使用自然语言处理 (NLP) 对电影评论进行情感分析
您可以轻松地将非结构化数据的推理结果与其他 BigQuery 数据集结合起来,以支持您的分析。例如,我们现在可以将从海报中提取的电影标题与存储在 BigQuery 的 IMDB 公共数据集中的数千条电影评论结合起来`bigquery-public-data.imdb.reviews`。

您可以使用ML.UNDERSTAND_TEXT和analyze_sentiment功能对其中一些评论进行情绪分析,以确定它们是正面的还是负面的:
注意:包含要分析的文本的表列必须命名为 text_content:JSON 响应将包含分数和量级。分数表示文本的整体情感,而大小表示存在多少情感内容:
那么,失落的世界与当年的其他电影相比如何?
最后,我们将比较 1925 年失落的世界电影与当年上映的其他电影的平均评分,看看哪部更受欢迎。这可以使用熟悉的 SQL 分析来完成:
看起来 The Lost World 与 Sawdust 的 Sally 差点夺冠!想了解更多?查看我们的笔记本,了解有关在 Google Cloud 中使用 BQML 推理引擎处理非结构化数据的分步指南。
最新文章:
所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。
工具综合排行榜
TOP 1
双计算器 双计算器
同时用两个计算器,用于价格对比、数字分别计算等
TOP 2
推算几天后的日期 推算几天后的日期
推算从某天开始,增加或减少几天后的日期
TOP 3
随机密码生成 随机密码生成
随机生成安全复杂的密码,自由设置密码长度及复杂度
TOP 4
推算孩子的血型 推算孩子的血型
根据父母的血型推测子女的血型
TOP 5
日期转中文大写 日期转中文大写
把数字日期转成中文大写,是财务或商务合同常用的工具
热门内容:       双计算器       推算孩子的血型       随机密码生成       日期转中文大写       推算几天后的日期       达轻每日一景       高校分数线       高校查询       周公解梦大全
首页 科技开发工具大全
娱乐游玩工具大全
登录/注册
联系我们
  用户咨询/建议
kf@ss3316.com


商务合作/推广
hz@ss3316.com

达轻工具 APP

访问手机版网站
使用本平台必读并同意:任何内容仅供谨慎参考,不构成建议,不保证正确,平台不承担任何责任,同意用户协议隐私政策   
BaiduTrust安全认证签章
© 达轻科技 版权所有 增值电信业务经营许可证 ICP备 沪B2-20050023-3