Em Re: Invent 2024, lançamos Tabelas Amazon S3o primeiro armazenamento de objetos em nuvem com embutido Apache iceberg Suporte para otimizar dados de armazenamento de dados tabulares em escala e Amazon Sagemaker Lakehouse Para simplificar a análise e a IA com uma casa de dados unificada, aberta e segura. Também visualizamos a integração de tabelas S3 com Amazon Internet Companies (AWS) Serviços de análise para você transmitir, consultar e visualizar dados de tabelas S3 usando Amazon AthenaAssim, Amazon Information FirehoseAssim, Amazon emrAssim, Aws colaAssim, Amazon Redshifte Amazon Quicksight.
Nossos clientes queriam simplificar o gerenciamento e otimização de seu armazenamento do Apache Iceberg, o que levou ao desenvolvimento de tabelas S3. Eles estavam trabalhando simultaneamente para dividir os silos de dados que impedem a colaboração da análise e a geração de insights usando o Sagemaker Lakehouse. Quando combinados com as tabelas S3 e o Sagemaker Lakehouse, além da integração interna com os serviços de análise da AWS, eles podem obter um acesso abrangente da plataforma que unifica o acesso a várias fontes de dados que permitem os fluxos de trabalho de análise e aprendizado de máquina (ML).
Hoje, estamos anunciando a disponibilidade geral de Amazon S3 Integração com a Amazon Sagemaker Lakehouse Para fornecer acesso ao Unified S3 Tables Information Acesso em vários mecanismos e ferramentas de análise. Você pode acessar o Sagemaker Lakehouse de Amazon Sagemaker Unified Studioum único ambiente de desenvolvimento de dados e IA que reúne funcionalidades e ferramentas da AWS Analytics e serviços de IA/ML. Todas as tabelas S3 Dados integrados ao Sagemaker Lakehouse podem ser consultados do Sagemaker Unified Studio e motores como Amazon Athena, Amazon EMR, Amazon Redshift e Apache Iceberg Compatificle Motores como Apache Spark ou Pyiceberg.
Com essa integração, você pode simplificar a construção de fluxos de trabalho analíticos seguros, onde pode ler e escrever em tabelas S3 e unir com dados nos knowledge warehouses do Amazon Redshift e nas fontes de dados de terceiros e federados, como como Amazon DynamoDB ou PostgreSQL.
Você também pode configurar e gerenciar centralmente as permissões de acesso com granulação de fino nos dados nas tabelas S3, juntamente com outros dados no Sagemaker Lakehouse e aplicá-los consistentemente em todos os motores de análise e consulta.
S3 Tabels Integration com Sagemaker Lakehouse em ação
Para começar, vá para o Amazon S3 Console e escolha Baldes de mesa No painel de navegação e selecione Ativar integração Para acessar os baldes de tabela da AWS Analytics Companies.
Agora você pode criar seu balde de mesa para se integrar ao Sagemaker Lakehouse. Para saber mais, visite Introdução com mesas S3 na documentação da AWS.
1. Crie uma tabela com Amazon Athena no console Amazon S3
Você pode criar uma tabela, preencher -a com dados e consultá -los diretamente do console do Amazon S3 usando a Amazon Athena com apenas algumas etapas. Selecione um balde de tabela e selecione Crie a tabela com Athenaou você pode selecionar uma tabela existente e selecionar Mesa de consulta com Athena.
Quando você deseja criar uma tabela com Athena, você deve primeiro especificar um espaço para nome para sua mesa. O espaço para nome em um balde de tabela S3 é equivalente a um banco de dados na AWS Glue e você usa o espaço para nome da tabela como o banco de dados em suas consultas Athena.
Escolha um espaço para nome e selecione Crie a tabela com Athena. Vai para o Editor de consulta no console de Athena. Você pode criar uma tabela no seu balde de tabela S3 ou dados de consulta na tabela.
2. Consulta com Sagemaker Lakehouse no Sagemaker Unified Studio
Agora você pode acessar dados unificados em lagos de dados S3, Warehouses de dados do Redshift, fontes de dados de terceiros e federados em Sagemaker Lakehouse diretamente do Sagemaker Unified Studio.
Para começar, vá para o Console de Sagemaker e crie um domínio de estúdio unificado e projete usando um exemplo de perfil de projeto de amostra: Análise de dados e desenvolvimento de modelos AI-ML. Para saber mais, visite Crie um domínio do Studio Unified Studio da Amazon Sagemaker na documentação da AWS.
Depois que o projeto for criado, navegue até a visão geral do projeto e position para baixo até os detalhes do projeto para anotar a função do projeto Amazon Useful resource Identify (ARN).
Vá para o Console de formação do lago AWS e conceder permissões para AWS Identification and Entry Administration (IAM) usuários e funções. No Diretores Seção, selecione o
observado no parágrafo anterior. Escolher Recursos de catálogo de dados nomeados no LF-Tags ou Catalog Sources seção e selecione o nome do balde da tabela para você criou Catálogos. Para saber mais, visite Visão geral das permissões de formação do lago na documentação da AWS.
Quando você retorna ao Sagemaker Unified Studio, você pode ver seu projeto de balde de mesa em Lakehouse no Dados Menu no painel de navegação esquerda da página do projeto. Quando você escolhe Açõesvocê pode selecionar como consultar os dados do balde de tabela no Amazon Athena, Amazon Redshift ou Jupyterlab Pocket book.
Quando você escolhe Consulta com Athenaele vai automaticamente para Editor de consulta Para executar consultas de linguagem de consulta de dados (DQL) e linguagem de manipulação de dados (DML) em tabelas S3 usando Athena.
Aqui está uma amostra de consulta usando Athena:
choose * from "s3tablecatalog/s3tables-integblog-bucket”.”proddb"."buyer" restrict 10;
Para consultar o Amazon Redshift, você deve configurar Amazon Redshift sem servidor Calcule recursos para análise de consultas de dados. E então você escolhe Consulta com desvio para o vermelho e executar SQL no Editor de consulta. Se você quiser usar o JupyterLab Pocket book, você deve criar um novo espaço JupyterLab em Amazon EMR Sem servidor.
3. Junte -se a dados de outras fontes com dados de tabelas S3
Com os dados do S3 Tabels agora disponíveis no Sagemaker Lakehouse, você pode se juntar a eles com dados de fontes de knowledge de knowledge de knowledge, On-line Processing (OLTP), como banco de dados relacional ou não relacional, tabelas de iceberg e outras fontes de terceiros para obter insights mais abrangentes e mais profundos.
Por exemplo, você pode adicionar conexões a fontes de dados, como Amazon DocumentDBAmazon DynamoDB, Amazon Redshift, PostgreSQL, MySQL, Google BigQuery ou Snowflake e combinam dados usando scripts SQL sem extração, transformação e carga (ETL).
Agora você pode executar a consulta SQL no editor de consultas para ingressar nos dados nas tabelas S3 com os dados no DynamoDB.
Aqui está uma amostra de consulta para participar entre Athena e DynamoDB:
choose * from "s3tablescatalog/s3tables-integblog-bucket"."blogdb"."buyer",
"dynamodb1"."default"."customer_ddb" the place cust_id=pid restrict 10;
Para saber mais sobre essa integração, visite Amazon S3 Integração com a Amazon Sagemaker Lakehouse na documentação da AWS.
Agora disponível
S3 Tabels Integration com Sagemaker Lakehouse agora está geralmente disponível em todas as regiões da AWS, onde As tabelas S3 estão disponíveis. Para saber mais, visite o Página do produto S3 Tabelas e o Sagemaker Lakehouse Página.
Experimente as mesas S3 no Sagemaker Unified Studio hoje e envie suggestions para AWS Re: Put up for Amazon S3 e AWS Re: Put up for Amazon Sagemaker ou através de seus contatos habituais de suporte da AWS.
Na celebração anual do Lançamento da Amazon S3apresentaremos lançamentos mais impressionantes para a Amazon S3 e a Amazon Sagemaker. Para saber mais, junte -se ao Evento do Aws Pi Day em 14 de março.
– Canal
–
Como está o weblog de notícias? Pegue isso 1 minuto de pesquisa!
(Esse enquete é hospedado por uma empresa externa. AWS lida com suas informações conforme descrito no Aviso de privacidade da AWS. A AWS possuirá os dados coletados por meio desta pesquisa e não compartilharão as informações coletadas com os entrevistados.)