Temos o prazer de anunciar a disponibilidade geral do serviço Cloudera AI Inference, desenvolvido por Microsserviços NVIDIA NIMparte do NVIDIA IA Empresarial plataforma, para acelerar implantações generativas de IA para empresas. Este serviço oferece suporte a uma variedade de modelos de IA otimizados, permitindo inferência de IA contínua e escalonável.
Fundo
O panorama da IA generativa está a evoluir a um ritmo rápido, marcado por um crescimento explosivo e uma adoção generalizada em todos os setores. Em 2022, o lançamento do ChatGPT atraiu mais de 100 milhões de usuários em apenas dois meses, demonstrando a acessibilidade da tecnologia e seu impacto em vários níveis de habilidade do usuário.
Em 2023, o foco mudou para a experimentação. Os desenvolvedores empresariais começaram a explorar provas de conceitos (POCs) para aplicações generativas de IA, aproveitando serviços de API e modelos abertos, como Llama 2 e Mistral. Estas inovações ampliaram os limites do que a IA generativa poderia alcançar.
Agora, em 2024, a IA generativa está entrando na fase de produção para muitas empresas. As empresas estão agora a alocar orçamentos dedicados e a construir infraestruturas para apoiar aplicações de IA em ambientes do mundo actual. No entanto, esta transição apresenta desafios significativos. As empresas estão cada vez mais preocupadas em proteger a propriedade intelectual (PI), manter a integridade da marca e proteger a confidencialidade do cliente, ao mesmo tempo que cumprem os requisitos regulamentares.
Um grande risco é a exposição de dados – os sistemas de IA devem ser projetados para se alinharem à ética da empresa e atenderem a padrões regulatórios rígidos sem comprometer a funcionalidade. Garantir que os sistemas de IA evitem violações da confidencialidade dos clientes, das informações de identificação pessoal (PII) e da segurança dos dados é essential para mitigar estes riscos.
As empresas também enfrentam o desafio de manter o controle sobre o desenvolvimento e implantação de IA em ambientes distintos. Eles exigem soluções que ofereçam segurança, propriedade e governança robustas em todo o ciclo de vida da IA, desde o POC até a produção completa. Além disso, há necessidade de software program de nível empresarial que simplifique essa transição e, ao mesmo tempo, atenda a requisitos de segurança rigorosos.
Para aproveitar com segurança todo o potencial da IA generativa, as empresas devem enfrentar estes desafios de frente. Normalmente, as organizações abordam AI POCs generativos de duas maneiras: usando serviços de terceiros, que são fáceis de implementar, mas exigem o compartilhamento externo de dados privados, ou desenvolvendo soluções auto-hospedadas usando uma combinação de ferramentas comerciais e de código aberto.
Na Cloudera, nosso foco é simplificar o desenvolvimento e a implantação de modelos generativos de IA para aplicações de produção. Nossa abordagem fornece infraestrutura acelerada, escalável e eficiente, juntamente com segurança e governança de nível empresarial. Essa combinação ajuda as organizações a adotarem IA generativa com confiança, ao mesmo tempo que protegem sua propriedade intelectual, reputação de marca e conformidade com padrões regulatórios.
Serviço de inferência Cloudera AI
O novo serviço Cloudera AI Inference fornece serviço de modelo acelerado, permitindo que as empresas implantem e dimensionem aplicativos de IA com maior velocidade e eficiência. Ao aproveitar o NVIDIA NeMo plataforma e versões otimizadas de modelos de código aberto como Llama 3 e Mistral, as empresas podem aproveitar os avanços mais recentes em processamento de linguagem pure, visão computacional e outros domínios de IA.
Cloudera AI Inference: serviço de modelo escalonável e seguro
O serviço Cloudera AI Inference oferece uma combinação poderosa de desempenho, segurança e escalabilidade projetada para aplicativos modernos de IA. Equipado com NVIDIA NIM, ele oferece desempenho líder de mercado com economia substancial de tempo e custos. As otimizações de {hardware} e software program permitem inferência até 36 vezes mais rápida com computação acelerada NVIDIA e quase quatro vezes o rendimento em CPUs, acelerando a tomada de decisões.
Integração com NVIDIA Tritão Servidor de inferência melhora ainda mais o serviço. Ele fornece implantação padronizada e eficiente com suporte para protocolos abertos, reduzindo o tempo e a complexidade da implantação.
Em termos de segurança, o serviço Cloudera AI Inference oferece proteção e controle robustos. Os clientes podem implantar modelos de IA em sua nuvem privada digital (VPC), mantendo privacidade e controle rigorosos sobre dados confidenciais na nuvem. Todas as comunicações entre os aplicativos e os endpoints do modelo permanecem dentro do ambiente seguro do cliente.
Proteções abrangentes, incluindo autenticação e autorização, garantem que apenas usuários com acesso configurado possam interagir com o endpoint do modelo. O serviço também atende aos padrões de segurança e conformidade de nível empresarial, registrando todas as interações do modelo para governança e auditoria.
O serviço Cloudera AI Inference também oferece escalabilidade e flexibilidade excepcionais. Ele oferece suporte a ambientes híbridos, permitindo transições perfeitas entre implantações locais e na nuvem para maior flexibilidade operacional.
A integração perfeita com pipelines de CI/CD aprimora os fluxos de trabalho de MLOps, enquanto o dimensionamento dinâmico e o serviço distribuído otimizam o uso de recursos. Esses recursos reduzem custos sem comprometer o desempenho. Os recursos de alta disponibilidade e recuperação de desastres ajudam a permitir operação contínua e tempo de inatividade mínimo.
Destaques dos recursos:
- Suporte Híbrido e Multi-Cloud: Permite a implantação em ambientes locais*, em nuvem pública e híbridos, oferecendo flexibilidade para atender às diversas necessidades de infraestrutura empresarial.
- Integração de registro de modelo: Integra-se perfeitamente com Registro Cloudera AIum repositório centralizado para armazenamento, controle de versão e gerenciamento de modelos, permitindo consistência e fácil acesso a diferentes versões de modelos.
- Dados detalhados e rastreamento de linhagem de modelo*: Garante rastreamento e documentação abrangentes de transformações de dados e eventos do ciclo de vida do modelo, melhorando a reprodutibilidade e a auditabilidade.
- Segurança de nível empresarial: Implementa medidas de segurança robustas, incluindo autenticação, autorização* e criptografia de dados, ajudando a garantir que os dados e modelos sejam protegidos tanto em trânsito quanto em repouso.
- Capacidades de inferência em tempo actual: Fornece previsões em tempo actual com baixa latência e processamento em lote para grandes conjuntos de dados, oferecendo flexibilidade no atendimento de modelos de IA com base em diferentes necessidades.
- Alta disponibilidade e escalonamento dinâmico: Apresenta configurações de alta disponibilidade e recursos de escalonamento dinâmico para lidar com cargas variadas com eficiência e, ao mesmo tempo, fornecer serviço contínuo.
- Modelo de linguagem avançado: Suporte com mecanismos otimizados pré-gerados para uma ampla gama de arquiteturas LLM de ponta.
- Integração flexível: Integre-se facilmente com fluxos de trabalho e aplicativos existentes. Os desenvolvedores recebem APIs de protocolo de inferência aberta para modelos de ML tradicionais e uma API compatível com OpenAI para LLMs.
- Suporte a múltiplas estruturas de IA: Integra-se perfeitamente com estruturas populares de aprendizado de máquina, como TensorFlow, PyTorch, Scikit-learn e Hugging Face Transformers, facilitando a implantação de uma ampla variedade de tipos de modelos.
- Padrões de implantação avançados: Oferece suporte a estratégias de implantação sofisticadas, como implantações canário e azul-verde*, bem como testes A/B*, permitindo implementações seguras e graduais de novas versões de modelos.
- APIs abertas: Fornece APIs abertas e em conformidade com os padrões para implantação, gerenciamento e monitoramento de modelos e aplicativos on-line*, bem como para facilitar a integração com pipelines de CI/CD e outras ferramentas de MLOps.
- Monitoramento e registro de desempenho: Fornece recursos abrangentes de monitoramento e registro, rastreando métricas de desempenho como latência, taxa de transferência, utilização de recursos e integridade do modelo, dando suporte à solução de problemas e à otimização.
- Monitoramento de Negócios*: Oferece suporte ao monitoramento contínuo das principais métricas generativas do modo de IA, como sentimento, suggestions do usuário e desvios, que são cruciais para manter a qualidade e o desempenho do modelo.
O serviço Cloudera AI Inference, desenvolvido com microsserviços NVIDIA NIM, oferece inferência de modelo de IA contínua e de alto desempenho em ambientes locais e em nuvem. Apoiando modelos de comunidade de código aberto, Modelos NVIDIA AI Basise modelos de IA personalizados, oferece flexibilidade para atender a diversas necessidades de negócios. O serviço permite a rápida implementação de aplicações generativas de IA em escala, com um forte foco na privacidade e segurança, para ajudar as empresas que desejam desbloquear todo o potencial dos seus dados com modelos de IA em ambientes de produção.
* recurso em breve – entre em contato conosco se tiver dúvidas ou quiser saber mais.