YOLOv11: O próximo salto na detecção de objetos em tempo actual


A série YOLO (You Solely Look As soon as) tornou possível a identificação de objetos em tempo actual. A versão mais recente, YOLOv11, melhora o desempenho e a eficiência. Este artigo fornece discussões aprofundadas sobre os principais avanços do YOLOv11, paralelos com modelos YOLO anteriores e usos práticos. Ao compreender seus desenvolvimentos, podemos observar por que se espera que o YOLOv11 se torne uma ferramenta chave na detecção de objetos em tempo actual.

YOLOv11: O próximo salto na detecção de objetos em tempo actual

Objetivos de aprendizagem

  1. Compreenda os princípios básicos e a evolução do algoritmo de detecção de objetos YOLO.
  2. Identifique os principais recursos e inovações introduzidos no YOLOv11.
  3. Evaluate o desempenho e a arquitetura do YOLOv11 com versões anteriores do YOLO.
  4. Discover as aplicações práticas do YOLOv11 em vários cenários do mundo actual.
  5. Aprenda como implementar e treinar um modelo YOLOv11 para tarefas personalizadas de detecção de objetos.

Este artigo foi publicado como parte do Blogatona de Ciência de Dados.

O que é YOLO?

É um sistema de detecção de objetos em tempo actual e também pode ser chamada de família de algoritmos de detecção de objetos. Ao contrário dos métodos tradicionais, que acionariam múltiplas passagens sobre uma imagem, o YOLO pode detectar instantaneamente objetos e suas localizações em apenas uma passagem, resultando em algo eficiente para tarefas que precisam ser realizadas em alta velocidade, sem comprometer a precisão. Joseph Redmon introduziu o YOLO em 2016 e mudou o campo de detecção de objetos processando imagens como um todo, não por região, o que torna as detecções muito mais rápidas, mantendo uma precisão decente.

Evolução dos modelos YOLO

YOLO evoluiu através de múltiplas iterações, cada uma melhorando a versão anterior. Aqui está um rápido resumo:

Versão YOLOPrincipais recursosLimitações
YOLOv1 (2016)Primeiro modelo de detecção em tempo actualLuta com pequenos objetos
YOLOv2 (2017)Adicionadas caixas de âncora e normalização de loteAinda fraco na detecção de pequenos objetos
YOLOv3 (2018)Detecção multiescalaMaior custo computacional
YOLOv4 (2020)Maior velocidade e precisãoCommerce-offs em casos extremos
YOLOv5Implementação PyTorch amigávelNão é um lançamento oficial
YOLOv6/YOLOv7Arquitetura aprimoradaMelhorias incrementais
YOLOv8/YOLOv9Melhor manuseio de objetos densosComplexidade crescente
YOLOv10 (2024)Transformadores introduzidos, treinamento sem NMSEscalabilidade limitada para dispositivos de borda
YOLOv11 (2024)Cabeça dinâmica baseada em transformador, treinamento sem NMS, módulos PSAEscalabilidade desafiadora para dispositivos de borda altamente restritos

Cada versão de YOLO trouxe melhorias na velocidade, precisão e capacidade de detectar objetos menores, sendo o YOLOv11 o mais avançado até agora.

Leia também: YOLO: uma solução definitiva para detecção e classificação de objetos

Principais inovações no YOLOv11

YOLOv11 apresenta vários recursos inovadores que o distinguem de seus antecessores:

  • Spine baseado em transformador: Ao contrário das CNNs tradicionais, o YOLOv11 usa um spine baseado em transformador, que captura dependências de longo alcance e melhora a detecção de pequenos objetos.
  • Design Dinâmico da Cabeça: Isso permite que o YOLOv11 se adapte com base na complexidade da imagem, otimizando a alocação de recursos para um processamento mais rápido e eficiente.
  • Treinamento sem NMS: YOLOv11 substitui a supressão não máxima (NMS) por um algoritmo mais eficiente, reduzindo o tempo de inferência enquanto mantém a precisão.
  • Atribuição de etiqueta dupla: melhora a detecção em objetos sobrepostos e densamente compactados usando uma abordagem de atribuição de rótulo um para um e um para muitos.
  • Grandes convoluções do kernel: Permite melhor extração de recursos com menos recursos computacionais, melhorando o desempenho geral do modelo.
  • Autoatenção Parcial (PSA): Aplica mecanismos de atenção seletivamente a certas partes do mapa de características, melhorando o aprendizado da representação international sem aumentar os custos computacionais.

Leia também: Um guia prático para detecção de objetos usando o in style framework YOLO – Parte III (com códigos Python)

Comparação de modelos YOLO

O YOLOv11 supera as versões anteriores do YOLO em termos de velocidade e precisão, conforme mostrado na tabela abaixo:

ModeloVelocidade (FPS)Precisão (mAP)ParâmetrosCaso de uso
YOLOv330 FPS53,0%62 milhõesDesempenho equilibrado
YOLOv440 FPS55,4%64 milhõesDetecção em tempo actual
YOLOv545 FPS56,8%44 milhõesModelo leve
YOLOv1050 FPS58,2%48 milhõesImplantação de borda
YOLOv1160 FPS61,5%40 milhõesMais rápido e preciso

Com menos parâmetros, o YOLOv11 consegue melhorar a velocidade e a precisão, tornando-o superb para uma variedade de aplicações.

Ultralíticos YOLO
Fonte: Ultralíticos YOLO

Leia também: YOLOv7 – Detecção de objetos em tempo actual no seu melhor

Referência de desempenho

YOLOv11 demonstra melhorias significativas em diversas métricas de desempenho:

  • Latência: latência 25-40% menor em comparação com YOLOv10, perfeita para aplicações em tempo actual.
  • Precisão: melhoria de 10-15% no mAP com menos parâmetros.
  • Velocidade: Capaz de processar 60 quadros por segundo, tornando-o um dos modelos de detecção de objetos mais rápidos.

Arquitetura modelo de YOLOv11

A arquitetura do YOLOv11 integra as seguintes inovações:

  • Transformer Spine: Melhora a capacidade do modelo de capturar o contexto international.
  • Design Dinâmico da Cabeça: Adapta o processamento à complexidade de cada imagem.
  • Módulo PSA: aumenta a representação international sem adicionar muito custo computacional.
  • Atribuição de rótulo duplo: melhora a detecção de vários objetos sobrepostos.

Essa arquitetura permite que o YOLOv11 seja executado com eficiência em sistemas de última geração e dispositivos de ponta, como telefones celulares.

Exemplo de uso do YOLOv11

Etapa 1: instalar dependências YOLOv11

Primeiro, instale os pacotes necessários:

!pip set up ultralytics
!pip set up torch torchvision

Etapa 2: carregar o modelo YOLOv11

Você pode carregar o modelo pré-treinado YOLOv11 diretamente usando a biblioteca Ultralytics.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n mannequin
mannequin = YOLO('yolo11n.pt')

Etapa 3: treinar o modelo no conjunto de dados

Treine o modelo em seu conjunto de dados com o número apropriado de épocas

# Prepare the mannequin on the COCO8 instance dataset for 100 epochs
outcomes = mannequin.practice(knowledge="coco8.yaml", epochs=100, imgsz=640)

Teste o modelo

Você pode salvar o modelo e testá-lo em imagens não vistas, conforme necessário.

# Run inference on a picture
outcomes = mannequin("path/to/your/picture.png")

# Show outcomes
outcomes(0).present()

Imagem authentic e de saída

Tenho imagens inéditas para verificar a previsão do modelo e isso forneceu o resultado mais preciso

SAÍDA
saída
Saída
saída

Aplicações de YOLOv11

Os avanços do YOLOv11 o tornam adequado para várias aplicações do mundo actual:

  1. Veículos autônomos: A detecção aprimorada de objetos pequenos e obstruídos aumenta a segurança e a navegação.
  2. Assistência médica: A precisão do YOLOv11 ajuda em tarefas de imagens médicas, como detecção de tumores, onde a precisão é crítica.
  3. Gerenciamento de varejo e estoque: Rastreia o comportamento do cliente, monitora o estoque e aumenta a segurança em ambientes de varejo.
  4. Vigilância: Sua velocidade e precisão o tornam perfeito para vigilância em tempo actual e detecção de ameaças.
  5. Robótica: O YOLOv11 permite que os robôs naveguem melhor nos ambientes e interajam com os objetos de forma autônoma.

Conclusão

YOLOv11 estabelece um novo padrão para detecção de objetos, combinando velocidade, precisão e flexibilidade. Sua arquitetura baseada em transformador, design dinâmico de cabeçote e atribuição de rótulo duplo permitem que ele se destaque em uma variedade de aplicações em tempo actual, desde veículos autônomos até assistência médica. O YOLOv11 está prestes a se tornar uma ferramenta crítica para desenvolvedores e pesquisadores, abrindo caminho para avanços futuros na tecnologia de detecção de objetos.

Se você está procurando um curso de IA generativa on-line, discover: Programa Pináculo GenAI.

Principais conclusões

  1. YOLOv11 apresenta um spine baseado em transformador e design de cabeçote dinâmico, aprimorando a detecção de objetos em tempo actual com maior velocidade e precisão.
  2. Ele supera os modelos YOLO anteriores ao atingir 60 FPS e 61,5% mAP com menos parâmetros, tornando-o mais eficiente.
  3. Inovações importantes, como treinamento sem NMS, atribuição de rótulo duplo e autoatenção parcial, melhoram a precisão da detecção, especialmente para objetos sobrepostos.
  4. As aplicações práticas do YOLOv11 abrangem veículos autônomos, saúde, varejo, vigilância e robótica, beneficiando-se de sua velocidade e precisão.
  5. O YOLOv11 reduz a latência em 25-40% em comparação com o YOLOv10, solidificando sua posição como ferramenta líder para tarefas de detecção de objetos em tempo actual.

A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do Autor.

Pergunta frequente

Q1. O que é YOLO?

Resp. YOLO, ou “You Solely Look As soon as”, é um sistema de detecção de objetos em tempo actual que pode identificar objetos em uma única passagem sobre uma imagem, tornando-o eficiente e rápido. Foi introduzido por Joseph Redmon em 2016 e revolucionou o campo de detecção de objetos ao processar imagens como um todo, em vez de analisar regiões separadamente.

Q2. Quais são os principais recursos do YOLOv11?

Resp. YOLOv11 apresenta várias inovações, incluindo um spine baseado em transformador, design de cabeçote dinâmico, treinamento sem NMS, atribuição de rótulo duplo e autoatenção parcial (PSA). Esses recursos melhoram a velocidade, a precisão e a eficiência, tornando-o adequado para aplicações em tempo actual.

Q3. Como o YOLOv11 se compara às versões anteriores?

Resp. YOLOv11 supera as versões anteriores com velocidade de processamento de 60 FPS e precisão de mAP de 61,5%. Possui menos parâmetros (40M) em comparação com 48M do YOLOv10, oferecendo detecção de objetos mais rápida e precisa, mantendo a eficiência.

This fall. Quais são as aplicações práticas do YOLOv11?

Resp. O YOLOv11 pode ser usado em veículos autônomos, saúde (por exemplo, imagens médicas), gerenciamento de varejo e estoque, vigilância em tempo actual e robótica. Sua velocidade e precisão o tornam superb para cenários que exigem detecção rápida e confiável de objetos.

Q5. Quais avanços no YOLOv11 o tornam eficiente para uso em tempo actual?

Resp. O uso de um spine baseado em transformador, design de cabeçote dinâmico que se adapta à complexidade da imagem e treinamento sem NMS ajuda o YOLOv11 a reduzir a latência em 25-40% em comparação com o YOLOv10. Essas melhorias permitem processar até 60 quadros por segundo, superb para tarefas em tempo actual.

Sou Neha Dwivedi, entusiasta de ciência de dados, trabalho na SymphonyTech e graduada pela MIT World Peace College. Sou apaixonado por análise de dados e aprendizado de máquina. Estou animado para compartilhar ideias e aprender com esta comunidade!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *