Pontuação F1 no aprendizado de máquina: fórmula, precisão e recall


Em aprendizado de máquinanem sempre é verdade que alta precisão é o objetivo remaining, especialmente quando se lida com conjuntos de dados desequilibrados.

Por exemplo, que haja um exame médico, que é 95% preciso na identificação de pacientes saudáveis, mas não identifica a maioria dos casos reais de doenças. Sua alta precisão, no entanto, oculta uma fraqueza significativa. É aqui que a pontuação da F1 se mostra útil.

É por isso que a pontuação da F1 dá igual importância à precisão (a porcentagem de itens selecionados relevantes) e recall (a porcentagem de itens escolhidos relevantes) para fazer com que os modelos tenham desempenho de forma estável, mesmo no caso de viés de dados.

Qual é a pontuação da F1 no aprendizado de máquina?

A pontuação F1 é uma medida de desempenho widespread usada com mais frequência no aprendizado de máquina e mede o traço de precisão e recall juntos. É benéfico para tarefas de classificação com dados desequilibrados porque a precisão pode ser enganosa.

A pontuação F1 fornece uma medida precisa do desempenho de um modelo, que não favorece falsas negativos ou falsos positivos exclusivamente, pois funciona com a média de precisão e recordação; Ambos os positivos incorretamente rejeitados e os negativos aceitos incorretamente foram considerados.

Compreendendo o básico: precisão, precisão e recall

1. Precisão

Definição: A precisão mede a correção geral de um modelo calculando a proporção de observações previstas corretamente (tanto positivos verdadeiros quanto verdadeiros negativos) e o número whole de observações.

Fórmula:

Precisão = (Tp + tn) / (tp + tn + fp + fn)

  • TP: True Positives
  • TN: Verdadeiros negativos
  • FP: Falsos positivos
  • FN: Falsos negativos

Quando a precisão é útil:

  • Excellent quando o conjunto de dados é equilibrado e falsos positivos e negativos têm consequências semelhantes.
  • Comuns em problemas de classificação de uso geral, onde os dados são distribuídos uniformemente entre as lessons.

Limitações:

  • Pode ser enganoso em conjuntos de dados desequilibrados.
    Exemplo: em um conjunto de dados em que 95% das amostras pertencem a uma classe, prevendo todas as amostras como essa classe oferece precisão de 95%, mas o modelo aprende nada útil.
  • Não diferencia entre os tipos de erros (falsos positivos vs. falsos negativos).

2. Precisão

Definição: A precisão é a proporção de observações positivas previstas corretamente para o whole de positivos previstos. Ele nos diz quantos dos casos positivos previstos foram positivos.

Fórmula:

Precisão = Tp / (tp + fp)

Explicação Intuitiva:

De todas as instâncias que o modelo classificou como positivo, quantos são verdadeiramente positivos? Alta precisão significa menos falsos positivos.

Quando a precisão é importante:

  • Quando o custo de um falso positivo é alto.
  • Exemplos:
    • Detecção de spam por e-mail: não queremos que e-mails essenciais (não spam) sejam marcados como spam.
    • Detecção de fraude: evite sinalizar muitas transações legítimas.

3. Lembre -se (sensibilidade ou taxa positiva verdadeira)

Definição: Recall é a proporção de casos positivos reais que o modelo identificou corretamente.

Fórmula:

Lembrar = Tp / (tp + fn)

Explicação Intuitiva:

De todos os casos positivos reais, quantos o modelo detectou com sucesso? Recall alto significa menos falsos negativos.

Quando o recall é crítico:

  • Quando um caso positivo tem sérias conseqüências.
  • Exemplos:
    • Diagnóstico médico: falta de uma doença (fapredictive AnalyticsLSE negativo) pode ser deadly.
    • Sistemas de segurança: não detectando um intruso ou ameaça.

Precisão e recall fornecem uma compreensão mais profunda do desempenho de um modelo, especialmente quando apenas a precisão não é suficiente. A troca deles é frequentemente tratada usando a pontuação da F1, que exploraremos a seguir.

A matriz de confusão: Fundação para métricas

Matriz de confusãoPontuação F1 no aprendizado de máquina: fórmula, precisão e recall

UM matriz de confusão é uma ferramenta elementary no aprendizado de máquina que visualiza o desempenho de um modelo de classificação comparando os rótulos previstos com os rótulos reais. Ele categoriza previsões em quatro resultados distintos.

Previsto positivoNegativo previsto
Positivo actualVerdadeiro positivo (TP)Falso negativo (fn)
Negativo actualFalso positivo (FP)Verdadeiro negativo (TN)

Compreendendo os componentes

  • Verdadeiro positivo (TP): Instâncias positivas corretamente previstas.
  • Verdadeiro negativo (TN): Instâncias negativas corretamente previstas.
  • Falso positivo (FP): Previsto incorretamente como positivo quando negativo.
  • Falso negativo (fn): Previsto incorretamente como negativo quando positivo.

Esses componentes são essenciais para calcular várias métricas de desempenho:

Calcular as principais métricas de chave

  • Precisão: Mede a correção geral do modelo.
    Fórmula: Precisão = (tp + tn) / (tp + tn + fp + fn)
  • Precisão: Indica a precisão das previsões otimistas.
    Fórmula: Precisão = tp / (tp + fp)
  • Lembre -se (sensibilidade): Mede a capacidade do modelo de identificar todas as instâncias positivas.
    Fórmula: Recall = tp / (tp + fn)
  • Pontuação F1: Média harmônica de precisão e recordação, equilibrando os dois.
    Fórmula: F1 Rating = 2 * (Precision * Recall) / (Precision + Recall)

Essas métricas calculadas da matriz de confusão permitem que o desempenho de vários modelos de classificação seja avaliado e otimizado em relação à meta em questão.

Pontuação F1: a média harmônica de precisão e recall

Definição e fórmula:

A pontuação da F1 é a pontuação média da F1 de precisão e recall. Ele fornece um único valor de quão bom (ou ruim) é um modelo, pois considera os falsos positivos e negativos.

Média harmônica de precisão e recordaçãoMédia harmônica de precisão e recordação

Por que a média harmônica é usada:

A média harmônica é usada em vez da média aritmética, porque o valor aproximado atribui um peso maior ao menor dos dois (precisão ou recall). Isso garante que, se um deles for baixo, a pontuação da F1 será significativamente afetada, enfatizando a importância relativamente igual das duas medidas.

Gama de pontuação F1:

  • 0 a 1: A pontuação F1 varia de 0 (pior) a 1 (melhor).
    • 1: Precisão e recordação perfeitas.
    • 0: Precisão ou recall é 0, indicando um desempenho ruim.

Exemplo de cálculo:

Dada uma matriz de confusão com:

  • TP = 50Assim, FP = 10Assim, Fn = 5
  • Precisão = 5050+10 = 0,833 frac {50} {50+10} = 0,83350+1050 = 0,833
  • Lembrar = 5050+5 = 0,909 frac {50} {50+5} = 0,90950+550 = 0,909

Portanto, ao calcular a pontuação de F1 de acordo com a fórmula acima, a pontuação da F1 será de 0,869. Está em um nível razoável porque possui um equilíbrio brilhante entre precisão e recall.

Comparando métricas: quando usar a pontuação da F1 sobre a precisão

Quando usar a pontuação F1?

  1. Conjuntos de dados desequilibrados:

É mais apropriado usar a pontuação de F1 quando as lessons são desequilibradas no conjunto de dados (detecção de fraude, diagnóstico da doença). Nessas situações, a precisão é bastante enganosa, como um modelo que pode ter alta precisão devido à classificação correta da maioria dos dados da classe majoritária, pode ter baixa precisão nos dados da classe minoritária.

  1. Reduzindo o número de verdadeiros positivos e verdadeiros negativos

A pontuação F1 é mais adequada quando os riscos empíricos de falsos positivos, também chamados de erros do tipo I, e falsos negativos, também conhecidos como erros do tipo II, são caros. Por exemplo, se os casos falsos positivos ou falsos negativos ocorrem é quase igualmente essential nos testes médicos ou na detecção de spam.

Como a pontuação da F1 equilibra precisão e recall:

A pontuação F1 é a medida ‘direita’, combinando precisão (quantos desses casos foram identificados corretamente) e recall (quantos foram previstos com precisão como casos positivos).

Isso ocorre porque quando uma das medições é baixa, a pontuação F1 reduz esse valor, portanto o modelo mantém uma boa média.

Esse é especialmente o caso nos problemas em que é inocente ter um desempenho superficial nos dois objetivos, e isso pode ser visto em muitos campos necessários.

Usar casos em que a pontuação F1 é preferida:

1. Diagnóstico médico

Para algo como o câncer, queremos um teste que não perca o paciente com câncer, mas também não identificaremos mal um indivíduo saudável como positivo. Até certo ponto, a pontuação da F1 ajuda a manter os dois tipos de erros quando usados.

2. Detecção de fraude

No processamento de transações financeiras, os modelos de detecção de fraude devem detectar ou identificar transações fraudulentas (alta recordação) enquanto identifica e rotulando simultaneamente um número excessivo de transações genuínas como fraudulenta (alta precisão). A pontuação da F1 garante esse equilíbrio.

Quando a precisão é suficiente?

  1. Conjuntos de dados equilibrados

Especificamente, quando as lessons no conjunto de dados são equilibradas, a precisão geralmente é uma taxa razoável para medir o desempenho do modelo, pois um bom modelo deve trazer previsões razoáveis ​​para ambas as lessons.

  1. Baixo impacto de falsos positivos/negativos

Altos níveis de falsos positivos e negativos podem não ser uma questão considerável em alguns casos, tornando a precisão uma boa medida para o modelo.

Takeaway -chave

A pontuação de F1 deve ser usada quando os dados estiverem desequilibrados, a detecção falsa positiva e falsa negativa são igualmente importantes e em áreas de alto risco, como diagnóstico médico, detecção de fraude and so on.

Use a precisão quando as lessons estiverem equilibradas, e falsos negativos e positivos não são um grande problema com o resultado do teste.

Como a pontuação da F1 considera precisão e recall, pode ser conveniente em tarefas em que o custo dos erros pode ser significativo.

Interpretando a pontuação da F1 na prática

O que constitui uma pontuação F1 “boa”?

Os valores da pontuação F1 variam de acordo com o contexto e a categoria em um aplicativo específico.

  • Alta pontuação F1 (0,8-1,0): Significa boas condições do modelo relativas ao valor de precisão e recall do modelo.
  • Pontuação F1 moderada (0,6-0,8): Assertivamente e positivamente recomendam melhor desempenho, mas fornece recomendações mostrando amplo espaço que precisa ser coberto.
  • Pontuação F1 baixa (<0,6): Sinal fraco que mostra que há muito a melhorar no modelo.

Às vezes, como no diagnóstico ou no manuseio de casos de fraude, mesmo uma pontuação de métricas de F1 pode ser muito alta ou moderada, e pontuações mais altas são preferíveis.

Usando a pontuação F1 para seleção e ajuste de modelo

A pontuação da F1 é elementary em:

  • Comparando modelos: Oferece uma medida objetiva e justa para avaliação, especialmente quando comparada aos casos de desequilíbrio de classe.
  • Ajuste hiperparâmetro: Isso pode ser realizado alterando os valores padrão de um único parâmetro para aumentar a medida F1 do modelo.
  • Ajuste do limite: Os limiares ajustáveis ​​para diferentes decisões da CPU podem ser usados ​​para controlar a precisão e o tamanho do conjunto de informações relevantes e, portanto, aumentar a pontuação da F1.

Por exemplo, podemos aplicar validação cruzada para ajustar os hiperparâmetros para obter a pontuação F1 mais alta ou usar as técnicas de pesquisa aleatória ou de grade.

Macro, micro e pontuações F1 ponderadas para problemas de várias lessons

Na classificação de várias lessons, os métodos de média são usados ​​para calcular a pontuação F1 em várias lessons:

  • Macro F1 pontuação: Primeiro, ele mede a pontuação F1 para cada classe e depois leva a média das pontuações. Como destrói todas as lessons, independentemente da frequência com que elas ocorrem, isso as trata igualmente.
  • Pontuação Micro F1: Combina os resultados obtidos em todas as lessons para obter a pontuação média da F1. Isso certamente posiciona as aulas frequentes em uma escala mais alta do que outras lessons com menor participação nos alunos.
  • Pontuação F1 ponderada: A média da pontuação F1 de cada classe é calculada usando a fórmula f1 = 2 (recall de precisão x) / (recordação de precisão +) para cada classe, com uma ponderação adicional para vários positivos verdadeiros. Isso aborda o desequilíbrio da classe atribuindo pesos extras a lessons mais povoadas no conjunto de dados.

A seleção do método de média é baseada nos padrões do aplicativo específico e na natureza dos dados utilizados.

Conclusão

O Pontuação F1 é uma métrica essential no aprendizado de máquina, especialmente ao lidar com conjuntos de dados desequilibrados ou quando falsos positivos e negativos têm consequências significativas. Sua capacidade de equilibrar precisão e recall o torna indispensável no diagnóstico médico e na detecção de fraude.

O MIT IDSS Ciência de dados e aprendizado de máquina O programa oferece treinamento abrangente para os profissionais aprofundarem sua compreensão de tais métricas e suas aplicações.

Este curso on-line de 12 semanas, desenvolvido pela MIT College, abrange tópicos essenciais, incluindo análise preditivaavaliação de modelos e estudos de caso do mundo actual, equipando os participantes com as habilidades para tomar decisões informadas e orientadas a dados.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *