Esta postagem foi escrita com Avinash Erupaka da Bayer (IT PH, plataforma de inovação em medicamentos)
Como podem as empresas farmacêuticas desbloquear todo o potencial dos seus dados para impulsionar inovações revolucionárias? Bayerlíder world em saúde e nutrição, dedica-se a enfrentar os desafios prementes do nosso tempo, incluindo uma população crescente e envelhecida e a pressão sobre os ecossistemas do nosso planeta. A sua missão de “Saúde para Todos, Fome para Ninguém” impulsiona o seu compromisso de responder às necessidades sociais e ambientais através de investigação inovadora. A Bayer está focada no desenvolvimento de soluções inovadoras que façam uma diferença tangível no mundo e valorizem seus clientes, funcionários e partes interessadas. Com sede em Leverkusen, Alemanha, a Bayer opera em 80 países e é pioneira num ecossistema de ciência de dados que transforma a forma como as equipas de investigação acedem, analisam e obtêm insights a partir de dados científicos complexos.
Ao aproveitar o poder dos dados, análises, inteligência synthetic e aprendizado de máquina (AI/ML) e IA generativa, a Bayer está criando um ecossistema de pesquisa e desenvolvimento científico de dados (DSE) farmacêutico baseado em nuvem na AWS que potencializa tecnologias e conceitos de ponta com gerenciamento robusto de dados. Ao fazer isso, as equipes de P&D podem aproveitar plenamente o potencial dos dados e análises unificados.
Neste submit, discutimos como a Bayer usou a próxima geração do SageMaker para construir uma solução que unifique a ingestão de dados, armazenamento, análise e fluxos de trabalho de IA/ML. Construído com base nos princípios de malha de dados, o DSE da Bayer integra ingestão avançada de dados, armazenamento, análise e fluxos de trabalho de ML para permitir experimentação ágil e geração de insights escaláveis. Ele democratiza o acesso à análise, promove a colaboração entre regiões e fornece integração flexível de dados estruturados, semiestruturados e não estruturados.
Desafios na pesquisa farmacêutica
Na investigação farmacêutica, os dados tornaram-se o ativo mais crítico para impulsionar a inovação. No entanto, a gestão eficaz destes dados apresenta desafios sem precedentes e as abordagens tradicionais de gestão de dados estão a tornar-se cada vez mais inadequadas para iniciativas de investigação globais complexas. Muitas organizações de P&D farmacêuticas enfrentam um ecossistema complexo de obstáculos relacionados a dados e análises que dificultam a descoberta científica e a eficiência operacional:
- Conjuntos de dados isolados – Os conjuntos de dados de pesquisa ficam isolados em vários domínios, limitando a reutilização e retardando a descoberta.
- Múltiplas modalidades de dados – Dados de ensaios clínicos (estruturados), evidências do mundo actual (semiestruturados) e arquivos genômicos (não estruturados) existiam isoladamente, complicando a integração e a análise.
- Capacidades de ingestão inflexíveis – Sistemas que suportam processamento em lote (como dados de testes), fluxos de dados em tempo actual (por exemplo, de equipamentos de laboratório) e ingestão orientada a eventos (como atualizações regulatórias).
- Aumento dos custos de P&D – Tecnologias díspares e sistemas desconectados criam ineficiências operacionais e aumentam os custos de licenciamento e manutenção.
- Cenário inconsistente para usar totalmente o ML – A ausência de uma arquitetura de dados unificada e de fluxos de trabalho de MLOps padronizados e independentes de domínio significa que a inovação em dados e análises é muitas vezes advert hoc e não repetível. As equipes não têm uma maneira simplificada de dimensionar padrões bem-sucedidos, resultando em esforços redundantes, ciclos de desenvolvimento mais longos e oportunidades perdidas de sinergia entre domínios.
- Arquiteturas desconectadas – As soluções de software program não estão integradas no ecossistema unificado mais amplo, resultando em silos, redundâncias e ineficiências.
Reconhecendo estes desafios sistémicos, a Bayer embarcou numa jornada transformadora. O DSE não é apenas uma solução tecnológica, mas uma reimaginação estratégica de como os dados e análises de investigação podem ser utilizados numa organização world. Ao reunir tecnologias de ponta, estruturas padronizadas, uma malha de dados colaborativa e uma arquitetura lakehouse, a Bayer decidiu ajudar pesquisadores e engenheiros a acelerar a inovação farmacêutica.
Encontrando uma solução com a próxima geração do SageMaker
A Bayer imaginou um ecossistema unificado de ciência de dados que forneceria o seguinte:
- Uma experiência unificada de desenvolvimento colaborativo para todos os cientistas de dados, independentemente de sua localização ou especialização
- Acesso contínuo a dados estruturados e não estruturados por meio de uma interface consistente
- Governança integrada e controles de conformidade apropriados para pesquisa farmacêutica
- Recursos computacionais escaláveis para lidar com as cargas de trabalho analíticas mais complexas
A Bayer conduziu uma avaliação abrangente de várias soluções antes de selecionar a próxima geração do SageMaker como a pedra angular do seu novo ecossistema de ciência de dados. Embora outras opções tivessem méritos, a Bayer priorizou as seguintes capacidades:
- Acesso a dados multimodais – Essencial para genômica, proteômica e pesquisa avançada de biomarcadores
- Mercado centralizado de ativos – Hub central para descobrir e reutilizar dados, recursos, modelos e outros ativos empresariais
- Ecossistema de ferramentas integrado – Acesso simplificado às principais ferramentas como Git, ETL, MLflow e criadores de aplicativos generativos de IA em um só lugar
- Suporte a vários domínios e entre regiões – Crítico para a colaboração em pesquisa world
- Preço-desempenho – Necessário para uma expansão sustentável e de longo prazo
As capacidades de Estúdio unificado Amazon SageMaker e Catálogo Amazon SageMaker alinhado com a visão da Bayer de execução de malha descentralizada combinada com descoberta e governança centralizadas. Eles permitiram que as equipes trabalhassem com suas ferramentas preferidas, como Jupyter Notebooks ou construtores de fluxo de trabalho, mantendo a capacidade de descoberta e reutilização dos ativos.
Visão geral da solução
Esta seção descreve os principais recursos e a arquitetura do DSE da Bayer construído no SageMaker. A solução DSE aborda os desafios identificados através de uma arquitetura multicamadas:
- Quebrando silos de dados – Os recursos de ingestão de dados multimodais da solução quebram silos de dados, permitindo armazenamento unificado e processamento de dados estruturados, semiestruturados e não estruturados por meio de pipelines em lote, streaming e orientados a eventos.
- Lidando com diversas modalidades de dados – Um híbrido arquitetura da casa do lagoconstruído sobre Serviço de armazenamento simples da Amazon (Amazon S3)Apache Iceberg e Redshift da Amazonfornece uma base flexível para lidar com diversas modalidades e maturidades de dados, ao mesmo tempo que fornece consistência e acessibilidade aos dados.
- Redução de custos através da padronização – Para lidar com os custos crescentes de P&D e as ineficiências operacionais, os ambientes de trabalho analíticos pré-conectados oferecem modelos padronizados e ambientes de desenvolvimento integrados (IDEs) que reduzem a redundância e aceleram o desenvolvimento do fluxo de trabalho.
- Desbloqueando IA/ML com Amazon SageMaker AI e Amazon Bedrock – Recursos avançados de IA/ML, desenvolvidos por IA do Amazon SageMaker e Base Amazônicacrie um ambiente MLOps padronizado e independente de domínio que permite inovação repetível e sinergia entre domínios.
- Gerenciando ecossistema de ferramentas com observabilidade de ponta a ponta – Recursos robustos de governança e observabilidade proporcionam conformidade e confiabilidade do sistema, ao mesmo tempo que integram ferramentas anteriormente desconectadas em um ecossistema unificado e bem monitorado que elimina silos arquitetônicos e promove a utilização eficiente de recursos.
A arquitetura DSE implementa princípios de malha de dados onde os domínios de dados (ômicos, regulatórios, ensaios clínicos) são tratados como produtos, com responsabilidades de propriedade e gerenciamento atribuídas a especialistas no domínio. Esses domínios são descentralizados para execução, mas permanecem detectáveis e reutilizáveis por meio do Catálogo SageMaker. No centro da arquitetura está uma arquitetura híbrida mesh lakehouse que combina o Amazon S3 e o Iceberg, proporcionando flexibilidade para lidar com dados estruturados e não estruturados com eficiência. O SageMaker Unified Studio fornece uma camada analítica onde os pesquisadores podem acessar o conjunto completo de ferramentas necessárias para seu trabalho. O diagrama a seguir ilustra essa arquitetura.
Impacto
A primeira fase do DSE da Bayer confirmou a próxima geração do SageMaker como uma base poderosa para o seu DSE de I&D – concebido para equilibrar a inovação descentralizada com a governação centralizada através de uma arquitetura de malha de dados escalável. Com esta solução, a Bayer pode catalogar e gerenciar ativos de dados multimodais – incluindo dados estruturados e não estruturados, recursos de ML, modelos e ativos científicos personalizados – com metadados ricos em contexto em diversos domínios de P&D farmacêutico. A Bayer está agora posicionada para integrar mais de 300 TB de dados de biomarcadores e integrar repositórios isolados de dados ômicos, clínicos e químicos em um ambiente coeso. Com ferramentas integradas como JupyterLab Areas, MLflow e SageMaker AI Studio, a plataforma DSE está lançando as bases para um ambiente de trabalho de ML abrangente e com reconhecimento de GxP, abrindo caminho para operacionalizar mais de 25 casos de uso de ML de alto valor e oferecer suporte a mais de 100 cientistas de dados em toda a organização.
“O ecossistema de ciência de dados é important para o desenvolvimento de nossos medicamentos”, afirma Daniel Gusenleitner, líder de missão do ecossistema de ciência de dados de P&D. “Ele aprimora nossos fluxos de trabalho de negócios com análises avançadas, ajudando-nos a acelerar a busca por novos tratamentos. Ao integrar dados de todo o processo de pesquisa e desenvolvimento, aumentamos as probabilities de sucesso técnico e garantimos que nossos esforços sejam eficientes. O desbloqueio de nossos dados também facilita a descoberta de alvos, levando a avanços inovadores no atendimento ao paciente.”
Próximas etapas
A Bayer iniciou com sucesso seu ecossistema de ciência de dados na próxima geração do Amazon SageMaker e está trabalhando para integrar o primeiro caso de uso de pesquisa avançada de biomarcadores. Com base nesta base sólida, a Bayer também está acelerando a evolução da solução DSE com as seguintes melhorias principais:
- Catálogos federados e integração entre domínios – Permitir a pesquisa e reutilização de ativos de dados em áreas terapêuticas e unidades de negócios
- Ontologia avançada e camada semântica – Enriquecimento de metadados com conhecimento de domínio para apoiar pesquisa, descoberta e raciocínio baseados em IA
- Adoção de fluxos de trabalho de IA generativos e de agência – Impulsionar a descoberta de novos medicamentos e acelerar a geração de hipóteses
Conclusão
Ao aproveitar a próxima geração do Amazon SageMaker para construir seu ecossistema de ciência de dados baseado em nuvem, a Bayer está criando uma base para pesquisas e descobertas mais rápidas e eficientes. O Amazon SageMaker está unificando diversos tipos de dados, permitindo a colaboração world e padronizando fluxos de trabalho de ML para ajudar a posicionar a Bayer na vanguarda da inovação orientada por dados.
Para saber mais e começar com a próxima geração do SageMaker, consulte Amazon Sage Maker ou o Console AWS.
