O seu produto de IA está realmente funcionando? Como desenvolver o sistema métrico certo


Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Na minha primeira passagem como gerente de produto de aprendizado de máquina (ML), uma pergunta simples inspirou debates apaixonados entre funções e líderes: como sabemos se este produto está realmente funcionando? O produto em questão que eu consegui atendi aos clientes internos e externos. O modelo permitiu que as equipes internas identificassem os principais problemas enfrentados por nossos clientes para que eles pudessem priorizar o conjunto certo de experiências para corrigir problemas de clientes. Com uma rede tão complexa de interdependências entre clientes internos e externos, escolhendo o métricas corretas Capturar o impacto do produto foi elementary para orientá -lo para o sucesso.

Não rastrear se o seu produto está funcionando bem é como conseguir um avião sem nenhuma instruções do controle de tráfego aéreo. Não há absolutamente nenhuma maneira de tomar decisões informadas para o seu cliente sem saber o que está dando certo ou errado. Além disso, se você não definir ativamente as métricas, sua equipe identificará suas próprias métricas de backup. O risco de ter vários sabores de uma métrica de ‘precisão’ ou ‘qualidade’ é que todos desenvolverão sua própria versão, levando a um cenário em que você não pode estar todos trabalhando para o mesmo resultado.

Por exemplo, quando revisei minha meta anual e a métrica subjacente à nossa equipe de engenharia, o suggestions imediato foi: “Mas essa é uma métrica de negócios, já rastreamos precisão e recordação”.

Primeiro, identifique o que você deseja saber sobre seu produto de IA

Depois de chegar à tarefa de definir as métricas do seu produto – por onde começar? Na minha experiência, a complexidade de operar um Produto ML Com vários clientes, também se traduz em definir métricas para o modelo. O que eu uso para medir se um modelo está funcionando bem? Medir o resultado de equipes internas para priorizar os lançamentos com base em nossos modelos não seria rápido o suficiente; Medir se o cliente adotou soluções recomendadas pelo nosso modelo, poderia arriscar -nos tirar conclusões de uma métrica de adoção muito ampla (e se o cliente não adotasse a solução porque só queria alcançar um agente de suporte?).

Avanço rápido para a period de grandes modelos de linguagem (LLMS) – Onde não temos apenas uma única saída de um modelo ML, também temos respostas de texto, imagens e músicas como saídas. As dimensões do produto que exigem métricas agora aumentam rapidamente – formatos, clientes, tipo… a lista continua.

Em todos os meus produtos, quando tento criar métricas, meu primeiro passo é destilar o que quero saber sobre seu impacto nos clientes em algumas perguntas importantes. Identificar o conjunto certo de perguntas facilita a identificação do conjunto certo de métricas. Aqui estão alguns exemplos:

  1. O cliente obteve uma saída? → Métrica para cobertura
  2. Quanto tempo demorou para o produto fornecer uma saída? → Métrica para latência
  3. O usuário gostou da saída? → Métricas para suggestions do cliente, adoção do cliente e retenção

Depois de identificar suas perguntas-chave, a próxima etapa é identificar um conjunto de sub-perguntas para os sinais de ‘entrada’ e ‘saída’. As métricas de saída são indicadores de atraso, onde você pode medir um evento que já aconteceu. Métricas de entrada e indicadores principais podem ser usados ​​para identificar tendências ou prever resultados. Veja abaixo as maneiras de adicionar as sub-perguntas corretas para atrasar e liderar indicadores às perguntas acima. Nem todas as perguntas precisam ter indicadores de liderança/atraso.

  1. O cliente obteve uma saída? → Cobertura
  2. Quanto tempo demorou para o produto fornecer uma saída? → Latência
  3. O usuário gostou da saída? → Suggestions do cliente, adoção do cliente e retenção
    1. O usuário indicou que a saída está certa/errada? (saída)
    2. A saída foi boa/justa? (entrada)

A terceira e última etapa é identificar o método para reunir métricas. A maioria das métricas é coletada em escala por nova instrumentação through engenharia de dados. No entanto, em alguns casos (como a pergunta 3 acima), especialmente para produtos à base de ML, você tem a opção de avaliações manuais ou automatizadas que avaliam as saídas do modelo. Embora seja sempre melhor desenvolver avaliações automatizadas, começando com as avaliações manuais para “foi a saída boa/justa” e criar uma rubrica para as definições de boa, justa e não boa ajudará você a estabelecer as bases para um processo de avaliação automatizado rigoroso e testado.

Exemplo de uso de casos: pesquisa de IA, listando descrições

A estrutura acima pode ser aplicada a qualquer Produto baseado em ML para identificar a lista de métricas primárias para o seu produto. Vamos fazer uma pesquisa como exemplo.

Pergunta MétricasNatureza da métrica
O cliente obteve uma saída? → Cobertura% sessões de pesquisa com resultados de pesquisa mostrados ao cliente
Saída
Quanto tempo demorou para o produto fornecer uma saída? → LatênciaTempo necessário para exibir os resultados da pesquisa para o usuárioSaída
O usuário gostou da saída? → Suggestions do cliente, adoção do cliente e retenção

O usuário indicou que a saída está certa/errada? (Saída) A saída foi boa/justa? (Entrada)

% das sessões de pesquisa com suggestions ‘polegares’ sobre os resultados da pesquisa do cliente ou % das sessões de pesquisa com cliques do cliente

% dos resultados da pesquisa marcados como ‘boa/justa’ para cada termo de pesquisa, por rubrica de qualidade

Saída

Entrada

Que tal um produto para gerar descrições para uma listagem (seja um merchandise de menu em DoorDash ou uma listagem de produtos na Amazon)?

Pergunta MétricasNatureza da métrica
O cliente obteve uma saída? → Cobertura% listagens com descrição gerada
Saída
Quanto tempo demorou para o produto fornecer uma saída? → LatênciaTempo necessário para gerar descrições para o usuárioSaída
O usuário gostou da saída? → Suggestions do cliente, adoção do cliente e retenção

O usuário indicou que a saída está certa/errada? (Saída) A saída foi boa/justa? (Entrada)

% das listagens com descrições geradas que exigiam edições da equipe de conteúdo técnico/vendedor/cliente

% das descrições de listagem marcadas como ‘boa/justa’, por rubrica de qualidade

Saída

Entrada

A abordagem descrita acima é extensível a vários produtos baseados em ML. Espero que essa estrutura ajude você a definir o conjunto certo de métricas para o seu modelo ML.

Sharanya Rao é gerente de produto em grupo em Intuit.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *