Integração de dados do Amazon Qlançado em janeiro de 2024, permite que você use linguagem pure para criar trabalhos e operações de extração, transformação, carregamento (ETL) em Cola AWS abstração de dados específicos Quadro Dinâmico. Esta postagem apresenta novos recursos interessantes para integração de dados do Amazon Q que funcionam juntos para tornar o desenvolvimento de ETL mais eficiente e intuitivo. Adicionamos suporte para geração de código baseado em DataFrame que funciona em qualquer ambiente Spark. Também introduzimos o desenvolvimento com reconhecimento de contexto imediato que aplica detalhes de suas conversas, funcionando perfeitamente com uma nova experiência de desenvolvimento iterativo. Isso significa que você pode refinar seus trabalhos de ETL por meio de perguntas naturais de acompanhamento, começando com um pipeline de dados básico e adicionando progressivamente transformações, filtros e lógica de negócios por meio de conversas. Essas melhorias estão disponíveis através do Amazon Q experiência de bate-papo no Console de gerenciamento da AWSe o Estúdio unificado Amazon SageMaker (prévia) interfaces visuais de ETL e pocket book.
A geração de código do DataFrame agora vai além do AWS Glue DynamicFrame para oferecer suporte a uma variedade mais ampla de cenários de processamento de dados. Agora você pode gerar trabalhos de integração de dados para diversas fontes e destinos de dados, incluindo Serviço de armazenamento simples da Amazon (Amazon S3) knowledge lakes com formatos de arquivo populares como CSV, JSON e Parquet, bem como formatos de tabela modernos, como Apache Hudi, Deltae Iceberg Apache. Amazon Q pode gerar trabalhos ETL para conexão mais de 20 fontes de dados diferentesincluindo bancos de dados relacionais como PostgreSQL, MySQL e Oracle; armazéns de dados como Redshift da AmazonFloco de neve e Google BigQuery; Bancos de dados NoSQL como Amazon DynamoDBMongoDB e OpenSearch; tabelas definidas no Catálogo de dados do AWS Glue; e conectores JDBC e Spark personalizados fornecidos pelo usuário. Os trabalhos gerados podem usar uma variedade de transformações de dados, incluindo filtros, projeções, uniões, junções e agregações, proporcionando flexibilidade para lidar com requisitos complexos de processamento de dados.
Nesta postagem, discutimos como a integração de dados do Amazon Q transforma o desenvolvimento de fluxo de trabalho ETL.
Recursos aprimorados de integração de dados do Amazon Q
Anteriormente, a integração de dados do Amazon Q gerava apenas código com valores de modelo que exigiam o preenchimento handbook de configurações, como propriedades de conexão para fonte de dados e coletor de dados, além de configurações para transformações. Com reconhecimento de contexto imediato, agora você pode incluir essas informações em sua consulta em linguagem pure, e a integração de dados do Amazon Q irá extraí-las e incorporá-las automaticamente ao fluxo de trabalho. Além disso, o ETL visible generativo no editor visible do SageMaker Unified Studio (pré-visualização) permite reiterar e refinar seu fluxo de trabalho ETL com novos requisitos, permitindo o desenvolvimento incremental.
Visão geral da solução
Esta postagem descreve as experiências do usuário ponta a ponta para demonstrar como a integração de dados do Amazon Q e o SageMaker Unified Studio (visualização) simplificam suas tarefas de integração e engenharia de dados com os novos aprimoramentos, criando um low-code no-code (LCNC) Fluxo de trabalho ETL que permite a ingestão e transformação contínua de dados em diversas fontes de dados.
Demonstramos como fazer o seguinte:
- Conecte-se a diversas fontes de dados
- Executar junções de tabelas
- Aplicar filtros personalizados
- Exportar dados processados para o Amazon S3
O diagrama a seguir ilustra a arquitetura.
Usar a integração de dados do Amazon Q com o Amazon SageMaker Unified Studio (pré-visualização)
No primeiro exemplo, usamos o Amazon SageMaker Unified Studio (visualização) para desenvolver um fluxo de trabalho de ETL visible de forma incremental. Esse pipeline lê dados de diferentes tabelas do Knowledge Catalog baseadas no Amazon S3, executa transformações nos dados e grava os dados transformados de volta em um Amazon S3. Nós usamos o allevents_pipe
e venue_pipe
arquivos do BILHETE conjunto de dados para demonstrar essa capacidade. O conjunto de dados TICKIT registra atividades de vendas no website fictício TICKIT, onde os usuários podem comprar e vender ingressos on-line para diferentes tipos de eventos, como jogos esportivos, exhibits e concertos.
O processo envolve a fusão dos allevents_pipe
e venue_pipe
arquivos do conjunto de dados TICKIT. Em seguida, os dados mesclados são filtrados para incluir apenas uma região geográfica específica. Em seguida, os dados de saída transformados são salvos no Amazon S3 para processamento adicional no futuro.
Preparação de dados
Os dois conjuntos de dados são hospedados como duas tabelas do Knowledge Catalog, venue
e occasion
em um projeto no Amazon SageMaker Unified Studio (visualização), conforme mostrado nas capturas de tela a seguir.
Processamento de dados
Para processar os dados, execute as seguintes etapas:
- No console do Amazon SageMaker Unified Studio, na página Construir menu, escolha Fluxo ETL visible.
Uma janela de bate-papo do Amazon Q ajudará você a fornecer uma descrição para o fluxo ETL a ser criado.
- Para esta postagem, insira o seguinte texto:
Create a Glue ETL stream hook up with 2 Glue catalog tables venue and occasion in my database glue_db_4fthqih3vvk1if, be a part of the outcomes on the venue’s venueid and occasion’s e_venueid, and write output to a S3 location.
(O nome do banco de dados é gerado automaticamente com o ID do projeto sufixado ao nome do banco de dados fornecido). - Escolher Enviar.
Um fluxo inicial de integração de dados será gerado conforme mostrado na captura de tela a seguir para ler as duas tabelas do Knowledge Catalog, unir os resultados e gravar no Amazon S3. Podemos ver que as condições de junção foram inferidas corretamente de nossa solicitação a partir da configuração do nó de junção exibida.
Vamos adicionar outra transformação de filtro com base no estado do native como DC.
- Escolha o sinal de mais e escolha o ícone Amazon Q para fazer uma pergunta de acompanhamento.
- Insira as instruções
filter on venue state with situation as venuestate==‘DC’ after becoming a member of the outcomes
para modificar o fluxo de trabalho.
O fluxo de trabalho é atualizado com uma nova transformação de filtro.
Ao verificar o destino de dados S3, podemos ver que o caminho S3 agora é um espaço reservado
e o formato de saída é Parquet.
- Podemos fazer a seguinte pergunta no Amazon Q:
replace the s3 sink node to put in writing to s3://xxx-testing-in-356769412531/output/ in CSV format
da mesma maneira para atualizar o destino de dados do Amazon S3. - Escolher Mostrar roteiro para ver que o código gerado é baseado em DataFrame, com todo o contexto de toda a nossa conversa.
- Finalmente, podemos visualizar os dados a serem gravados no caminho S3 de destino. Observe que os dados são um resultado combinado com apenas o DC do estado do native incluído.
Com a integração de dados do Amazon Q com o Amazon SageMaker Unified Studio (pré-visualização), um usuário LCNC pode criar o fluxo de trabalho de ETL visible fornecendo prompts ao Amazon Q e o contexto para fontes de dados e transformações é preservado. Posteriormente, o Amazon Q também gerou o código baseado em DataFrame para engenheiros de dados ou usuários mais experientes usarem o código gerado por ETL automático para fins de script.
Integração de dados do Amazon Q com o pocket book Amazon SageMaker Unified Studio (pré-visualização)
A integração de dados do Amazon Q também está disponível na experiência de pocket book Amazon SageMaker Unified Studio (pré-visualização). Você pode adicionar uma nova célula e inserir seu comentário para descrever o que deseja alcançar. Depois de pressionar Guia e Digitaro código recomendado é mostrado.
Por exemplo, fornecemos a mesma pergunta inicial:
Create a Glue ETL stream to hook up with 2 Glue catalog tables venue and occasion in my database glue_db_4fthqih3vvk1if, be a part of the outcomes on the venue’s venueid and occasion’s e_venueid, and write output to a S3 location.
Semelhante à experiência de bate-papo do Amazon Q, o código é recomendado. Se você pressionar Guiao código recomendado será escolhido.
O vídeo a seguir fornece uma demonstração completa dessas duas experiências no Amazon SageMaker Unified Studio (visualização).
Usar a integração de dados do Amazon Q com o AWS Glue Studio
Nesta seção, percorremos as etapas para usar a integração de dados do Amazon Q com o AWS Glue Studio
Preparação de dados
Os dois conjuntos de dados são hospedados em duas tabelas do Knowledge Catalog baseadas no Amazon S3, occasion
e venue
no banco de dados glue_db
que podemos consultar a partir de Amazon Atenas. A captura de tela a seguir mostra um exemplo da tabela de locais.
Processamento de dados
Para começar a usar o recurso de geração de código do AWS Glue, use o ícone do Amazon Q no console do AWS Glue Studio. Você pode começar a criar um novo trabalho e fazer a pergunta ao Amazon Q para criar o mesmo fluxo de trabalho:
Create a Glue ETL stream hook up with 2 Glue catalog tables venue and occasion in my database glue_db, be a part of the outcomes on the venue’s venueid and occasion’s e_venueid, after which filter on venue state with situation as venuestate=='DC' and write to s3://
Você pode ver que o mesmo código é gerado com todas as configurações em vigor. Com esta resposta, você pode aprender e entender como criar código do AWS Glue de acordo com suas necessidades. Você pode copiar e colar o código gerado no editor de script. Depois de configurar um Gerenciamento de identidade e acesso da AWS (IAM) no trabalho, salve e execute o trabalho. Quando o trabalho for concluído, você poderá começar a consultar os dados exportados para o Amazon S3.
Após a conclusão do trabalho, você poderá verificar os dados associados verificando o caminho S3 especificado. Os dados são filtrados por estado do native como DC e agora estão prontos para processamento de cargas de trabalho downstream.
O vídeo a seguir fornece uma demonstração completa da experiência com o AWS Glue Studio.
Conclusão
Nesta postagem, exploramos como a integração de dados do Amazon Q transforma o desenvolvimento de fluxo de trabalho de ETL, tornando-o mais intuitivo e eficiente em termos de tempo, com o mais recente aprimoramento de reconhecimento de contexto imediato para gerar com precisão um fluxo de integração de dados com alucinações reduzidas e multi-voltas. recursos de chat para atualizar gradativamente o fluxo de integração de dados, adicionar novas transformações e atualizar nós DAG. Esteja você trabalhando com o console ou outros ambientes Spark no SageMaker Unified Studio (pré-visualização), esses novos recursos podem reduzir significativamente o tempo e a complexidade de desenvolvimento.
Para saber mais, consulte Integração de dados do Amazon Q no AWS Glue.
Sobre os Autores
Bo Li é engenheiro sênior de desenvolvimento de software program na equipe AWS Glue. Ele se dedica a projetar e construir soluções completas para atender às necessidades de análise e processamento de dados dos clientes com tecnologias baseadas em nuvem e com uso intensivo de dados.
Stuti Deshpande é arquiteto de soluções especialista em Massive Knowledge na AWS. Ela trabalha com clientes em todo o mundo, fornecendo orientação estratégica e arquitetônica sobre a implementação de soluções analíticas usando AWS. Ela tem vasta experiência em massive knowledge, ETL e análises. Nas horas vagas, Stuti gosta de viajar, aprender novas formas de dança e aproveitar momentos de qualidade com a família e amigos.
Kartik Panjabi é gerente de desenvolvimento de software program na equipe AWS Glue. Sua equipe cria recursos generativos de IA para integração de dados e sistema distribuído para integração de dados.
Shubham Mehta é gerente de produto sênior da AWS Analytics. Ele lidera o desenvolvimento de recursos de IA generativos em serviços como AWS Glue, Amazon EMR e Amazon MWAA, usando IA/ML para simplificar e aprimorar a experiência de profissionais de dados que criam aplicativos de dados na AWS.