如何在AWS上存储表格数据（如何在AWS上存储表格数据）

主机参考：VPS测评参考推荐/专注分享VPS服务器优惠信息！若您是商家可以在本站进行投稿，查看详情！此外我们还提供软文收录、PayPal代付、广告赞助等服务，查看详情！

我们发布的部分优惠活动文章可能存在时效性，购买时建议在本站搜索商家名称可查看相关文章充分了解该商家！若非中文页面可使用Edge浏览器同步翻译！PayPal代付/收录合作

.extra-menu {背景颜色：#f3f3f3; 填充：20px; .extra-menu .extra-menu-h {高度：36px; .extra-menu .extra-menu-h h3 { 显示：内联块 } 。额外菜单 ul a{ 文本装饰：无 .extra-menu .menu-child { 文本缩进：4em; .extra-menu .menu-child:before { left: 4em } .extra-menu .extra-menu-h h3 { line-height: 36px } .collapse-toggle { float: right; } 光标：指针；用户选择：无。显示：内联弯曲；对齐：中心； .collapse-toggle img {宽度：30％； .collapse-content { margin-bottom：0px ！ 20 像素！重要；溢出：隐藏；过渡：最大高度 0.3 秒缓出。 .collapse-content.expanded {max-height: 1000px; /* 设置足够大的值以允许内容完全展开 */ } .ph-id {position:relative; } jQuery(document).准备好（函数（$）{$（'.collapse-toggle'）.on（'点击'，function（）{var内容= document.querySelector('.collapse-content'); 内容 classList.toggle('expanded'); if (content.classList.contains('expanded')) { $(this).find('div').text ( '折叠'); $(this).find('img').css('变换','旋转(180deg)'); this).find('div').text('expand'); $( this).find('img').css('transform','rotate(0deg)');})

AWS 上的 Amazon S3 表是我们使用 Amazon Athena、Amazon EMR 和 Apache Spark 提供的针对表格数据（例如日常购买交易数据、流式传感器数据和广告曝光数据）的优化存储方法。用于查询数据的查询引擎。与自管理表存储相比，您可以将查询性能提高多达 3 倍，将每秒事务数提高多达 10 倍。本教程详细介绍了如何在 AWS 上使用 Amazon S3 存储表数据。

Iceberg 已成为管理 Parquet 文件最常用的方法。许多 AWS 客户使用 Iceberg 查询数十亿个包含 PB 甚至 EB 数据的文件。

文章内容折叠 1. 桶、表以及表的命名空间 2. 使用命令行创建桶和表 3. 使用控制台创建桶和表 4. 创建表的桶和表维护 5. 注意事项

1. 表存储桶、表和命名空间

Amazon Simple Storage Service（整个流程简称为Amazon Simple Storage Service）是一种对象存储服务，提供可扩展性和数据可用性，同时也注重安全性。 Amazon S3 适用于多种使用场景，包括在线归档、灾难恢复和数据可视化。 Amazon S3 目前为新用户提供 12 个月的免费试用，在此期间您可以获得 5 GB 标准存储、20,000 个 Get 请求和 100 GB 数据传输，且无容量限制。我们提供 250 多种以存储为中心的解决方案。

点击访问AWS官网：https://www.amazonaws.cn/（Amazon S3免费试用12个月）

表存储桶是第三种类型。 Amazon S3 存储桶类型。除了现有的通用和目录桶之外。您可以将表桶视为一个分析数据仓库，可以存储各种结构的 Iceberg 表。除了 S3 固有的耐用性、可用性、可扩展性和高性能功能之外，Amazon S3 表还包括：自动优化存储以最大限度地提高查询性能并降低成本。

每个表存储桶必须部署在特定的 AWS 区域中，并且存储桶名称在您当前 AWS 账户的相应区域中必须是唯一的。您可以通过指定存储桶的ARN来引用相应的存储桶，也可以使用资源策略进行访问控制。此外，每个存储桶中的表按命名空间进行逻辑分组。

表是存储在表桶中的结构化数据集。表与桶一样，表也有相应的ARN和资源策略，并且属于桶命名空间。表通过可配置和持续的自动维护进行全面管理，包括压缩、旧快照的管理以及未引用文件的删除。每个表都有一个 S3 API 端点，用于访问数据等操作。

为了简化访问管理，您可以在访问策略中引用命名空间。

2. 使用命令行创建存储桶和表

现在让我们创建一个存储桶并在其中存储一或两张表。我们使用了 AWS 命令行工具 (AWS CLI)，但您也可以使用 AWS 管理控制台和 API。为了便于显示，我通过 jq 管道化了长命令的输出，并仅显示最相关的值。

1. 创建表存储桶

$ aws s3tables create-table-bucket –name jbarr-table-bucket-2 | jq .arn "arn:aws:s3tables: us- east-2:123456789012:bucket/jbarr-table-bucket-2"

表存储桶 ARN 使用创建环境变量

$ Export ARN="arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"

然后，所有表存储桶将被列出。

$ aws s3tables list-table-buckets | jq .tableBuckets[].arn"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-1""arn :aws:s3tables:us-east-2:123456789012:bucket/jbarr -table-bucket-2”

您可以访问该表在本实验中，您将安装 Apache Spark 并使用命令行参数。要调用 Spark shell，请使用 Apache Iceberg 的 Amazon S3 表目录包，并将 mytablebucket 设置为表的 ARN。我将其设置为 .

创建命名空间（mydata）来对表进行分组：

scala>spark.sql("""CREATE NAMESPACE IF NOT EXISTS mytablebucket.mydata"" ")

接下来，在命名空间中创建一个简单的 Iceberg 表。

spark.sql("""如果不存在则创建表 mytablebucket.mydata.table1( id INT,name STRING,value INT)USING Iceberg""")

下一步 s3tables 运行检查命名空间和表是否匹配的命令。已成功创建：

$ aws s3tables list-namespaces –tabjq .namespaces[].namespace[]"mydata"$$ aws s3tables list-tables –table-bucket-arn $ARN | jq .namespaces[].namespace[]"mydata"$$ jq 。 table1"

接下来，返回Spark shell并向表中添加几行数据。

spark.sql("""插入) mytablebucket.mydata.table1VALUES(1, '杰夫', 100),(2, '卡门', 200),(3, '斯蒂芬', 300 ),(4, '安迪', 400),(5, '蒂娜', 500),(6, '比安卡', 600),(7, 'Grace', 700)""")

3. 使用控制台创建存储桶和表。使用控制台创建存储桶和表

您还可以使用 Amazon S3 控制台创建和管理表存储桶。单击“表存储桶”即可立即开始创建存储桶。

在创建第一个存储桶之前，您可以单击“启用集成”功能。这使得您的表存储桶可以从 Amazon Athena、Amazon Redshift、Amazon EMR 和其他 AWS 查询引擎访问。（如果需要，您也可以先创建一个存储桶，然后再启用此功能。）

仔细阅读弹出的说明，然后单击“启用集成”。启用集成功能后，会在 AWS Glue 数据目录中自动创建相应的 IAM 角色和条目。

等待几秒钟即可成功启用集成。然后单击创建表桶继续。

输入名称（jbarr-table-bucket-3）并单击创建表桶。

成功创建表桶后，您可以继续创建和使用表。

4.表维护

表桶可以自动处理一些重要的维护任务。如果您使用自托管 Iceberg 表，则必须自行执行这些维护任务。为了减轻您的负担并让您有更多时间设计和管理业务相关表，AWS 系统自动执行以下维护操作。

1. 压缩

将多个小表对象合并为一个大对象以提高查询性能，目标是生成 64MiB 到 512MiB 之间的文件大小。新对象将被重写为新快照。

2.快照管理

根据您的设置自动标记过期的表快照并最终删除表快照。配置选项包括要保留的最小快照数量和保留快照的最长时间。过期快照将标记为非当前快照，并在指定天数后删除。

3.删除未引用的文件。

删除表快照未引用的对象。

5. 注意

1. AWS 表和 AWS Glue 数据目录集成仍处于实验阶段。通过 Amazon Athena、Amazon Redshift、Amazon EMR 和 Amazon QuickSigh 进行集成使用 t 和其他 AWS 分析服务查询和可视化 S3 表存储桶中的数据。

2、S3 API支持：表桶支持相关的S3 API函数，如GetObject、HeadObject、PutObject、分片上传等操作。

3.安全性：表桶中存储的所有对象都会自动加密。表存储桶配置为强制公共访问。

4. 定价：您必须支付存储费、请求处理费、对象监控费和压缩费。有关更多信息，请参阅 Amazon 云存储 Amazon S3 定价基础。

5. 区域：当前支持此功能的 AWS 区域包括美国东部（俄亥俄）、美国东部（弗吉尼亚北部）和美国西部（俄勒冈）。

这几篇文章你可能也喜欢：

本文由主机参考刊发，转载请注明：如何在AWS上存储表格数据（如何在AWS上存储表格数据） https://zhujicankao.com/141613.html

如何在AWS上存储表格数据（如何在AWS上存储表格数据）

这几篇文章你可能也喜欢：

相关推荐

评论抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

这几篇文章你可能也喜欢：

相关推荐

评论 抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

评论抢沙发