
Luis Ceze é muitas coisas: ele é CEO e cofundador da OctoAI, professor titular da Lazowska na Universidade de Washington, cofundador do projeto Apache TVM e também uma das personalidades a serem observadas pela BigDATA Wire de 2024.
Recentemente, conversamos com Ceze para fazer algumas perguntas sobre seus muitos empreendimentos. Aqui está o que ele disse:
BigDATA Wire: Você mudou o nome da sua empresa de OctoML para OctoAI em janeiro. Pode elaborar sobre a mudança?
Luis Ceze: Mudamos nosso nome de OctoML para OctoAI para refletir melhor a expansão e a evolução do nosso conjunto de produtos, que atende de forma mais ampla às crescentes necessidades do mercado no espaço de IA generativa.
No último ano, expandimos significativamente nossa plataforma para desenvolvedores criarem aplicativos de produção com modelos de IA generativos. Isso significa que as empresas podem executar qualquer modelo de sua escolha — seja pronto para uso, personalizado ou de código aberto — e implantá-los no native dentro de seus próprios ambientes ou na nuvem.
Nossa oferta mais recente é o OctoStack, uma plataforma de produção pronta para uso que fornece inferência altamente otimizada, personalização de modelos e gerenciamento de ativos em escala para grandes empresas. Isso dá às empresas autonomia complete de IA ao construir e executar aplicativos de IA generativa diretamente em seus próprios ambientes.
Já temos dezenas de clientes de IA generativa de alto crescimento — como Apate.ai, Otherside AI, Latitude Video games e Capitol AI usando a plataforma para transportar perfeitamente essa infraestrutura altamente confiável, personalizável e eficiente diretamente para seu próprio ambiente. Essas empresas agora estão firmemente no controle de como e onde trabalham com modelos e se beneficiam de nossa pilha de serviços sem manutenção.
BDW: Você é cofundador do projeto Apache TVM, que permite que modelos de machine studying sejam otimizados e compilados para diferentes hardwares. Mas GPUs estão na moda. Deveríamos estar mais abertos a executar modelos de ML em outros hardwares?
Ceze: Nós vivenciamos mais inovação em IA nos últimos 18 meses do que nunca. De um dia para o outro, a IA mudou do laboratório para um driver de negócios viável. Está claro que para a IA escalar, precisamos ser capazes de executá-la em uma ampla gama de {hardware}, de knowledge facilities a dispositivos móveis e de ponta.
Mas estamos em uma conjuntura que lembra os dias da nuvem. Naquela época, as empresas queriam a liberdade de hospedar dados em mais de uma nuvem, ou uma combinação de nuvem e native.
Hoje, as empresas também querem acessibilidade e escolha ao construir com IA. Elas querem a escolha de executar qualquer modelo, seja ele personalizado, proprietário ou de código aberto. Elas querem a liberdade de executar os ditos modelos em qualquer nuvem ou ponto closing native, sem algemas.
Essa foi nossa missão com o Apache TVM desde o início, e isso continuou durante meu trabalho na OctoAI. OctoAI SaaS e OctoStack são projetados com o princípio de independência de {hardware} e portabilidade para diferentes ambientes de clientes.
BDW: O GenAI passará de um período de experimentação em 2023 para implantação em 2024. Quais são as chaves para tornar os LLMs mais impactantes para as empresas?
Ceze: Acreditamos fortemente que 2024 é o ano em que a IA generativa sairá do desenvolvimento e entrará em produção. Mas para concretizar isso, as empresas terão que se concentrar em algumas coisas importantes.
O primeiro é controlar o custo para que a economia unitária dos LLMs trabalhe a seu favor. O treinamento do modelo é uma despesa previsível, mas a inferência (chamar um modelo de execução em produção) pode ficar muito cara, especialmente se o uso aumentar além do que você planejou.
O segundo é selecionar o modelo certo para seu caso de uso. Está ficando mais desafiador por causa do grande número de LLMs para escolher (há 80.000 e contando) e a fadiga do modelo está começando a se instalar. Encontrar um que seja poderoso o suficiente para entregar a qualidade que você precisa e que funcione de forma eficiente para ser econômico – esse é o equilíbrio que você quer atingir.
Terceiro, técnicas como fine-tuning são incrivelmente importantes para ajudar a personalizar esses LLMs para funcionalidade única. Uma tendência que observamos é que os próprios LLMs são cada vez mais comoditizados, e o valor actual vem da personalização para atender a um caso de uso específico e de alto valor.
BDW: Fora da esfera profissional, o que você pode compartilhar sobre si mesmo que seus colegas possam se surpreender ao saber – algum passion ou história única?
Ceze: Comida para mim é mais do que nutrição :). Adoro aprender sobre comida; adoro cozinhá-la; adoro comê-la.
Gosto de entender a comida “cross-stack”, desde aspectos culturais até a química. E então comer/beber ;).
Outra parte divertida: parte da minha pesquisa foi sobre armazenamento de dados de DNA, e meu trabalho viajou recentemente para a Lua!
Você pode ler mais sobre o BigDATA Wire Individuals to Watch de 2024 aqui.