新闻动态

2026-01-27 13:10:04

使用生成性人工智能与 Amazon EMR、Amazon Bedrock 和 Apache Spar

使用生成 AI 结合 Amazon EMR、Amazon Bedrock 和 Apache Spark 的 English SDK 解锁洞察

作者：Saurabh Bhutyani 和 Harsh Vardhan Singh Gaur，发布于 2023 年 11 月 16 日在Amazon Bedrock、Amazon EMR、分析等分类下。

重点总结

在大数据时代，企业不断寻找创新方法从海量数据中提取价值。借助于 Apache Spark、Amazon EMR 和生成 AI 技术，组织可以更高效地分析数据并获得重要洞察。此外，使用 pysparkai 库将使得与 Spark 的交互更加顺畅。以下是本文章的一些关键点：

大数据处理：使用 Amazon EMR 和 Apache Spark 实现快速、大规模的数据处理。生成 AI 技术：通过 Amazon Bedrock 引入先进的生成 AI，简化数据分析过程。简化交互：pysparkai 库允许用户使用自然语言与数据交互，生成 SQL 查询。

在当今的大数据时代，各机构都在不断探索如何从庞大的数据集中提取价值和洞察。Apache Spark 提供了高效处理大量数据所需的可扩展性和速度。Amazon EMR 是业界领先的云大数据解决方案，用于处理 PB 级数据、进行互动分析及机器学习ML，它支持 Apache Spark、Apache Hive 和 Presto 等开源框架。

使用 Amazon EMR，您可以轻松地创建和管理托管的 Spark 集群，从 AWS 管理控制台、AWS 命令行界面AWS CLI或 Amazon EMR API 快速启动集群。此外，Amazon EMR 还支持快速的 Amazon S3 连接、与 Amazon EC2 Spot 市场和 AWS Glue 数据目录集成，并能够动态地添加或移除集群中的实例。EMR Studio 是一个集成开发环境IDE，为数据科学家和数据工程师提供了开发、可视化和调试 R、Python、Scala 和 PySpark 应用的简捷方式。

解决方案概述

我们将探讨如何利用 Amazon EMR 和 Amazon Bedrock 的生成 AI 超级增强数据分析功能。

在我们的方法中，EMR Studio 作为一个基于网页的 IDE，运行在 EMR 集群上。我们将使用纽约市出租车的开放数据集，通过自然语言提问获取洞察。pysparkai 库会将这些问题转化为 SQL 查询，并使用 Spark SQL 执行查询。

该解决方案要求您在 AWS 帐户中创建并配置所需资源。通过使用 AWS CloudFormation 模板，可以轻松实现自动化资源创建。

资源描述VPC 堆栈包含公有和私有子网，适用于 EMR Studio。EMR 集群安装 Python 39，并附加相关软件包。S3 桶用于存储 EMR Studio 工作区及笔记本。IAM 角色和策略用于设置 EMR Studio、接入 Amazon Bedrock，以及运行笔记本。

模板供演示使用，不建议在未经修改的情况下进行生产使用。确保在使用后按照文章末尾的步骤清理资源。

前提条件

在启动 CloudFormation 堆栈之前，请确保您具备以下条件：

拥有访问 AWS 服务的 AWS 账户。拥有配置 AWS CLI 的访问密钥和秘密密钥的 IAM 用户，以及创建 IAM 角色和 CloudFormation 堆栈的权限。Titan Text G1 Express 模型目前处于预览阶段，您需要获得预览访问以在本文章中使用。

使用 AWS CloudFormation 创建资源

启动 CloudFormation 堆栈

选择 Launch Stack：

选择我确认该模板可能会创建 IAM 资源。

CloudFormation 堆栈的创建大约需要 2030 分钟。您可以在 AWS CloudFormation 控制台上监控其进度。当状态显示为 CREATECOMPLETE 时，您的 AWS 账户将具备实施此解决方案所需的资源。

创建 EMR Studio

接下来，您可以创建一个 EMR Studio 和工作区来处理笔记本代码。请按照以下步骤操作：

在 EMR Studio 控制台，选择创建工作室。将工作室名称输入为 GenAIEMRStudio，并提供描述。在网络和安全部分，指定如下内容：对于 VPC，选择您在 CloudFormation 堆栈中创建的 VPC。对于子网，选择所有四个子网。选择自定义安全组作为安全性和访问。选择 EMRSparkAIClusterEndpointSG 作为集群/终端安全组。选择 EMRSparkAIWorkspaceSG 作为工作区安全组。在工作室服务角色部分，指定如下内容：对于身份验证，选择 AWS 身份和访问管理 (IAM)。选择 EMRSparkAIStudioServiceRole 作为 AWS IAM 服务角色。在工作区存储部分，浏览并选择以 emrsparkailtaccountidgt 开头的 S3 桶进行存储。选择创建工作室。

现在，您已经成功创建了 EMR Studio。

使用 Apache Spark 进行大数据分析

完成设置后，您可以开始使用 Apache Spark、Amazon EMR 和生成 AI 进行大数据分析。

下载笔记本文件 NYTaxiipynb，并通过选择上传图标上传至您的工作区。打开导入的笔记本，选择 PySpark 作为内核。

PySpark AI 默认使用 OpenAI 的 ChatGPT40 作为 LLM 模型，同时也可以集成 Amazon Bedrock 和其他第三方模型。以下是如何使用 Amazon Bedrock Titan 模型生成 SQL 查询的步骤：

将工作区与计算层关联，选择 Compute 图标并选择 CloudFormation 堆栈创建的 EMR 集群。配置使用 Amazon EMR 的 Python 39 包的 Python 参数。导入必要的库。定义 Amazon Bedrock 的 LLM 模型。连接 Spark AI 与 Amazon Bedrock LLM 模型以生成基于自然语言问题的 SQL 查询。

通过以下命令读取 NYC Taxi 数据并施加生成 AI 的强大能力：

pythontaxirecordsaitransform(count the number of records in this dataset)show()

飞跃vnp

这将生成如下输出，显示数据集中的记录数量。

清理

清空 S3 桶 emrsparkailtaccountidgt 的内容，删除本文章中创建的 EMR Studio 工作区，然后删除您部署的 CloudFormation 堆栈。

结论

本文演示了如何通过 Apache Spark 和 Amazon EMR，与 Amazon Bedrock 结合使用生成 AI 来增强大数据分析。PySpark AI 包使您能够从数据中提取有意义的洞察，减少开发和分析时间，使您能够专注于业务案例。

关于作者

Saurabh Bhutyani 是 AWS 的首席分析专家解决方案架构师，热衷于新技术，自 2019 年以来在 AWS 工作，与客户合作，提供运行生成 AI 用例、可扩展分析解决方案和数据网格架构的架构指导。

Harsh Vardhan 是 AWS 的高级解决方案架构师，专注于分析，拥有超过 8 年的大数据和数据科学领域的经验。他热衷于帮助客户采用最佳实践并发掘数据中的洞察。

使用生成性人工智能与 Amazon EMR、Amazon Bedrock 和 Apache Spar

飞跃加速器下载安卓

新闻动态

使用生成性人工智能与 Amazon EMR、Amazon Bedrock 和 Apache Spar

使用生成 AI 结合 Amazon EMR、Amazon Bedrock 和 Apache Spark 的 English SDK 解锁洞察

重点总结

解决方案概述

前提条件

使用 AWS CloudFormation 创建资源

启动 CloudFormation 堆栈

创建 EMR Studio

使用 Apache Spark 进行大数据分析

清理

结论

关于作者

亚马逊网络服务与Convene合作，提升虚拟和混合会议及活动商业生产力

在 Amazon Bedrock 中微调 Anthropic 的 Claude 3 Haiku，以提

飞跃加速器下载安卓

新闻动态

使用生成性人工智能与 Amazon EMR、Amazon Bedrock 和 Apache Spar

使用生成 AI 结合 Amazon EMR、Amazon Bedrock 和 Apache Spark 的 English SDK 解锁洞察

重点总结

解决方案概述

前提条件

使用 AWS CloudFormation 创建资源

启动 CloudFormation 堆栈

创建 EMR Studio

使用 Apache Spark 进行大数据分析

清理

结论

关于作者

亚马逊网络服务与Convene合作，提升虚拟和混合会议及活动 商业生产力

在 Amazon Bedrock 中微调 Anthropic 的 Claude 3 Haiku，以提

亚马逊网络服务与Convene合作，提升虚拟和混合会议及活动商业生产力