Engenharia de dados na period da IA ​​– O’Reilly



Engenharia de dados na period da IA ​​– O’Reilly

Tal como a introdução do computador pessoal, da Web e do iPhone na esfera pública, os desenvolvimentos recentes no espaço da IA, desde a IA generativa até à IA agente, mudaram fundamentalmente a forma como as pessoas vivem e trabalham. Desde o lançamento do ChatGPT no last de 2022, atingiu um limite de 700 milhões de usuários por semana, aproximadamente 10% da população adulta world. E de acordo com um Relatório de 2025 pela Capgemini, espera-se que a adoção de IA por agentes cresça 48% até o last do ano. Está bastante claro que esta última iteração da tecnologia de IA transformou praticamente todos os setores e profissões, e a engenharia de dados não é exceção.

Como Naveen Sharma, vice-presidente sênior e chefe de prática world da Cognizant, observa“O que torna a engenharia de dados singularmente essencial é que ela forma a base dos sistemas modernos de IA, é onde esses modelos se originam e o que permite sua inteligência.” Assim, não é surpreendente que os últimos avanços na IA tenham um impacto considerável na disciplina, talvez até existencial. Com o maior adoção das ferramentas de codificação de IA que levam à redução de muitos cargos de TI de nível inicial, os engenheiros de dados deveriam ter cuidado com um resultado semelhante para sua própria profissão? Khushbu Shah, diretor associado da ProjectPro, coloca esta mesma questãoobservando que “entrámos numa nova fase da engenharia de dados, onde as ferramentas de IA não apenas apoiam o trabalho de um engenheiro de dados; elas começam a fazer isso por você… Onde isso deixa o engenheiro de dados? A IA substituirá os engenheiros de dados?”

Apesar da onda crescente de GenAI e IA de agência, os engenheiros de dados não serão substituídos tão cedo. Embora as ferramentas de IA mais recentes possam ajudar a automatizar e concluir tarefas rotineiras, os engenheiros de dados ainda são muito necessários para manter e implementar a infraestrutura que abriga os dados necessários para o treinamento de modelos, construir pipelines de dados que garantam dados precisos e acessíveis e monitorar e permitir a implantação de modelos. E, como Shah aponta, “as ferramentas orientadas por immediate são ótimas para escrever código, mas não conseguem raciocinar sobre a lógica de negócios, as compensações no design do sistema ou o custo sutil de uma consulta lenta em um painel de produção”. Assim, embora as suas tarefas diárias habituais possam mudar com a crescente adoção das mais recentes ferramentas de IA, os engenheiros de dados ainda têm um papel importante a desempenhar nesta revolução tecnológica.

O papel dos engenheiros de dados na nova period da IA

Para se adaptarem a esta nova period da IA, a coisa mais importante que os engenheiros de dados podem fazer envolve uma mudança de mentalidade bastante evidente. Simplificando, os engenheiros de dados precisam entender a IA e como os dados são usados ​​nos sistemas de IA. Como Mike Loukides, vice-presidente de estratégia de conteúdo da O’Reilly, disse para mim em uma conversa recente: “A engenharia de dados não vai desaparecer, mas você não será capaz de fazer engenharia de dados para IA se não entender a parte da equação sobre IA. E acho que é aí que as pessoas ficarão presas. Elas pensarão: ‘A mesma coisa de sempre’, e não é. Um pipeline de dados ainda é um pipeline de dados, mas você precisa saber o que esse pipeline está alimentando”.

Então, como exatamente os dados são usados? Como todos os modelos requerem enormes quantidades de dados para o treinamento inicial, a primeira etapa envolve a coleta de dados brutos de diversas fontes, sejam elas bancos de dados, conjuntos de dados públicos ou APIs. E como os dados brutos são muitas vezes desorganizados ou incompletos, é necessário pré-processá-los para prepará-los para o treinamento, o que envolve limpar, transformar e organizar os dados para torná-los adequados para o modelo de IA. A próxima etapa diz respeito ao treinamento do modelo, onde os dados pré-processados ​​são inseridos no modelo de IA para aprender padrões, relacionamentos ou recursos. Depois vem o pós-treinamento, onde o modelo é ajustado com dados importantes para a organização que está construindo o modelo, etapa que também requer uma quantidade significativa de dados. Relacionado a esta etapa está o conceito de geração aumentada de recuperação (RAG), uma técnica que fornece informações contextualmente relevantes em tempo actual a um modelo, a fim de melhorar a precisão das respostas.

Outras maneiras importantes pelas quais os engenheiros de dados podem se adaptar a este novo ambiente e ajudar a apoiar as iniciativas atuais de IA é melhorar e manter a alta qualidade dos dados, projetar pipelines e sistemas operacionais robustos e garantir que as medidas de privacidade e segurança sejam cumpridas.

Em seu testemunho Para um comitê da Câmara dos Representantes dos EUA sobre o tema da inovação em IA, o cofundador da Gecko Robotics, Troy Demmer, afirmou um axioma de ouro da indústria: “As aplicações de IA são tão boas quanto os dados nos quais são treinadas. Uma IA confiável requer entradas de dados confiáveis”. É a razão pela qual aproximadamente 85% de todos os projetos de IA falham, e muitos profissionais de IA sinalize-o como uma grande fonte de preocupação: sem dados de alta qualidade, mesmo os modelos e agentes de IA mais sofisticados podem dar errado. Como a maioria dos modelos GenAI dependem de grandes conjuntos de dados para funcionar, são necessários engenheiros de dados para processar e estruturar esses dados para que sejam limpos, rotulados e relevantes, garantindo resultados de IA confiáveis.

Igualmente importante é que os engenheiros de dados precisam projetar e construir pipelines e infraestruturas mais novos e mais robustos que possam ser dimensionados de acordo com os requisitos da geração AI. Como Adi Polak, Diretor de IA e Streaming de Dados da Confluent, notas“a próxima geração de sistemas de IA requer contexto em tempo actual e pipelines responsivos que apoiam decisões autônomas em sistemas distribuídos”, muito além dos pipelines de dados tradicionais que só podem suportar modelos treinados em lote ou relatórios avançados. Em vez disso, os engenheiros de dados agora têm a tarefa de criar pipelines mais ágeis que possam processar e oferecer suporte a dados de streaming em tempo actual para inferência, dados históricos para ajuste fino de modelo, controle de versão e rastreamento de linhagem. Eles também devem ter um conhecimento sólido de padrões e conceitos de streaming, desde arquitetura orientada a eventos até ciclos de recuperação e suggestions, a fim de construir pipelines de alto rendimento que possam dar suporte a agentes de IA.

Embora a utilidade do GenAI seja indiscutível neste ponto, a tecnologia apresenta desvantagens notáveis. É mais provável que ocorram alucinações quando um modelo não possui os dados adequados necessários para responder a uma determinada pergunta. Tal como muitos sistemas que dependem de vastos fluxos de informação, os sistemas de IA mais recentes não estão imunes à exposição de dados privados, aos resultados tendenciosos e à utilização indevida da propriedade intelectual. Assim, cabe aos engenheiros de dados garantir que os dados utilizados por estes sistemas sejam devidamente governados e protegidos, e que os próprios sistemas cumpram os dados relevantes e os regulamentos de IA. Como engenheiro de dados Axel Schwanke observa astutamenteessas medidas podem incluir “limitar o uso de grandes modelos a conjuntos de dados, usuários e aplicativos específicos, documentar alucinações e seus gatilhos e garantir que os aplicativos GenAI divulguem suas fontes de dados e proveniência quando geram respostas”, bem como higienizar e validar todas as entradas e saídas do GenAI. Um exemplo de modelo que aborda as últimas medidas é O’Reilly Respostasum dos primeiros modelos que fornece citações para o conteúdo que cita.

A estrada à frente

Os engenheiros de dados devem continuar a ter empregos remunerados à medida que a próxima geração de IA continua na sua trajetória ascendente, mas isso não significa que não haja desafios significativos ao virar da esquina. À medida que os agentes autónomos continuam a evoluir, surgem questões sobre a melhor infraestrutura e ferramentas para os apoiar. Como Ben Lorica pondera“O que isso significa para nossa infraestrutura de dados? Estamos projetando sistemas inteligentes e autônomos com base em bancos de dados construídos para interações previsíveis e orientadas por humanos. O que acontece quando o software program que escreve software program também provisiona e gerencia seus próprios dados? Esta é uma incompatibilidade arquitetural esperando para acontecer e que exige uma nova geração de ferramentas.” Uma dessas ferramentas potenciais já surgiu na forma de AgenteDBum banco de dados projetado especificamente para trabalhar de forma eficaz com agentes de IA.

Na mesma linha, um artigo de pesquisa recente, “Apoiando Nossos Senhores Supremos da IA”, opina que os sistemas de dados devem ser reprojetados para priorizar o agente. Com base nesse argumento, Ananth Packkildurai observa que “é tentador acreditar que o Mannequin Context Protocol (MCP) e as camadas de integração de ferramentas resolvem o problema de incompatibilidade entre agente e dados. … No entanto, essas melhorias não abordam a incompatibilidade arquitetônica elementary. Qualquer que seja o resultado deste debate, os engenheiros de dados provavelmente ajudarão a moldar a futura infraestrutura subjacente utilizada para apoiar agentes autónomos.

Outro desafio para os engenheiros de dados será navegar com sucesso no cenário sempre amorfo da privacidade de dados e das regulamentações de IA, especialmente nos EUA. Com o Uma grande e bela lei deixando a regulamentação da IA ​​sob a égide de leis estaduais individuais, os engenheiros de dados precisam se manter atualizados sobre quaisquer legislações locais que possam impactar o uso de dados de sua empresa para iniciativas de IA, como o recentemente assinado SB 53 na Califórniae ajustar as suas estratégias de governação de dados em conformidade. Além disso, quais dados são usados ​​e como eles são obtidos devem estar sempre em mente, com o objetivo da Anthropic liquidação recente de um processo por violação de direitos autorais servindo como um lembrete claro desse imperativo.

Por último, o impulso rápido da IA ​​mais recente levou a uma explosão de novas ferramentas e plataformas. Embora os engenheiros de dados sejam responsáveis ​​por acompanhar essas inovações, pode ser mais fácil falar do que fazer isso, devido às curvas de aprendizado acentuadas e ao tempo necessário para realmente aprimorar as habilidades em algo, em comparação com a roda perpétua de mudança da IA. É um ato de equilíbrio precário, que os engenheiros de dados devem entender rapidamente para permanecerem relevantes.

Apesar desses desafios, no entanto, as perspectivas futuras da profissão não são sombrias. Embora o campo venha a sofrer grandes mudanças num futuro próximo devido à inovação da IA, ainda será reconhecidamente engenharia de dados, uma vez que mesmo tecnologias como a GenAI requerem dados limpos e governados e a infraestrutura subjacente para os apoiar. Em vez de serem substituídos, é mais provável que os engenheiros de dados surjam como atores-chave no grande projeto de um futuro avançado em IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *