A série YOLO (You Solely Look As soon as) tornou possível a identificação de objetos em tempo actual. A versão mais recente, YOLOv11, melhora o desempenho e a eficiência. Este artigo fornece discussões aprofundadas sobre os principais avanços do YOLOv11, paralelos com modelos YOLO anteriores e usos práticos. Ao compreender seus desenvolvimentos, podemos observar por que se espera que o YOLOv11 se torne uma ferramenta chave na detecção de objetos em tempo actual.

Objetivos de aprendizagem
- Compreenda os princípios básicos e a evolução do algoritmo de detecção de objetos YOLO.
- Identifique os principais recursos e inovações introduzidos no YOLOv11.
- Evaluate o desempenho e a arquitetura do YOLOv11 com versões anteriores do YOLO.
- Discover as aplicações práticas do YOLOv11 em vários cenários do mundo actual.
- Aprenda como implementar e treinar um modelo YOLOv11 para tarefas personalizadas de detecção de objetos.
Este artigo foi publicado como parte do Blogatona de Ciência de Dados.
O que é YOLO?
É um sistema de detecção de objetos em tempo actual e também pode ser chamada de família de algoritmos de detecção de objetos. Ao contrário dos métodos tradicionais, que acionariam múltiplas passagens sobre uma imagem, o YOLO pode detectar instantaneamente objetos e suas localizações em apenas uma passagem, resultando em algo eficiente para tarefas que precisam ser realizadas em alta velocidade, sem comprometer a precisão. Joseph Redmon introduziu o YOLO em 2016 e mudou o campo de detecção de objetos processando imagens como um todo, não por região, o que torna as detecções muito mais rápidas, mantendo uma precisão decente.
Evolução dos modelos YOLO
YOLO evoluiu através de múltiplas iterações, cada uma melhorando a versão anterior. Aqui está um rápido resumo:
Versão YOLO | Principais recursos | Limitações |
---|---|---|
YOLOv1 (2016) | Primeiro modelo de detecção em tempo actual | Luta com pequenos objetos |
YOLOv2 (2017) | Adicionadas caixas de âncora e normalização de lote | Ainda fraco na detecção de pequenos objetos |
YOLOv3 (2018) | Detecção multiescala | Maior custo computacional |
YOLOv4 (2020) | Maior velocidade e precisão | Commerce-offs em casos extremos |
YOLOv5 | Implementação PyTorch amigável | Não é um lançamento oficial |
YOLOv6/YOLOv7 | Arquitetura aprimorada | Melhorias incrementais |
YOLOv8/YOLOv9 | Melhor manuseio de objetos densos | Complexidade crescente |
YOLOv10 (2024) | Transformadores introduzidos, treinamento sem NMS | Escalabilidade limitada para dispositivos de borda |
YOLOv11 (2024) | Cabeça dinâmica baseada em transformador, treinamento sem NMS, módulos PSA | Escalabilidade desafiadora para dispositivos de borda altamente restritos |
Cada versão de YOLO trouxe melhorias na velocidade, precisão e capacidade de detectar objetos menores, sendo o YOLOv11 o mais avançado até agora.
Leia também: YOLO: uma solução definitiva para detecção e classificação de objetos
Principais inovações no YOLOv11
YOLOv11 apresenta vários recursos inovadores que o distinguem de seus antecessores:
- Spine baseado em transformador: Ao contrário das CNNs tradicionais, o YOLOv11 usa um spine baseado em transformador, que captura dependências de longo alcance e melhora a detecção de pequenos objetos.
- Design Dinâmico da Cabeça: Isso permite que o YOLOv11 se adapte com base na complexidade da imagem, otimizando a alocação de recursos para um processamento mais rápido e eficiente.
- Treinamento sem NMS: YOLOv11 substitui a supressão não máxima (NMS) por um algoritmo mais eficiente, reduzindo o tempo de inferência enquanto mantém a precisão.
- Atribuição de etiqueta dupla: melhora a detecção em objetos sobrepostos e densamente compactados usando uma abordagem de atribuição de rótulo um para um e um para muitos.
- Grandes convoluções do kernel: Permite melhor extração de recursos com menos recursos computacionais, melhorando o desempenho geral do modelo.
- Autoatenção Parcial (PSA): Aplica mecanismos de atenção seletivamente a certas partes do mapa de características, melhorando o aprendizado da representação international sem aumentar os custos computacionais.
Leia também: Um guia prático para detecção de objetos usando o in style framework YOLO – Parte III (com códigos Python)
Comparação de modelos YOLO
O YOLOv11 supera as versões anteriores do YOLO em termos de velocidade e precisão, conforme mostrado na tabela abaixo:
Modelo | Velocidade (FPS) | Precisão (mAP) | Parâmetros | Caso de uso |
---|---|---|---|---|
YOLOv3 | 30 FPS | 53,0% | 62 milhões | Desempenho equilibrado |
YOLOv4 | 40 FPS | 55,4% | 64 milhões | Detecção em tempo actual |
YOLOv5 | 45 FPS | 56,8% | 44 milhões | Modelo leve |
YOLOv10 | 50 FPS | 58,2% | 48 milhões | Implantação de borda |
YOLOv11 | 60 FPS | 61,5% | 40 milhões | Mais rápido e preciso |
Com menos parâmetros, o YOLOv11 consegue melhorar a velocidade e a precisão, tornando-o superb para uma variedade de aplicações.

Leia também: YOLOv7 – Detecção de objetos em tempo actual no seu melhor
Referência de desempenho
YOLOv11 demonstra melhorias significativas em diversas métricas de desempenho:
- Latência: latência 25-40% menor em comparação com YOLOv10, perfeita para aplicações em tempo actual.
- Precisão: melhoria de 10-15% no mAP com menos parâmetros.
- Velocidade: Capaz de processar 60 quadros por segundo, tornando-o um dos modelos de detecção de objetos mais rápidos.
Arquitetura modelo de YOLOv11
A arquitetura do YOLOv11 integra as seguintes inovações:
- Transformer Spine: Melhora a capacidade do modelo de capturar o contexto international.
- Design Dinâmico da Cabeça: Adapta o processamento à complexidade de cada imagem.
- Módulo PSA: aumenta a representação international sem adicionar muito custo computacional.
- Atribuição de rótulo duplo: melhora a detecção de vários objetos sobrepostos.
Essa arquitetura permite que o YOLOv11 seja executado com eficiência em sistemas de última geração e dispositivos de ponta, como telefones celulares.
Exemplo de uso do YOLOv11
Etapa 1: instalar dependências YOLOv11
Primeiro, instale os pacotes necessários:
!pip set up ultralytics
!pip set up torch torchvision
Etapa 2: carregar o modelo YOLOv11
Você pode carregar o modelo pré-treinado YOLOv11 diretamente usando a biblioteca Ultralytics.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n mannequin
mannequin = YOLO('yolo11n.pt')
Etapa 3: treinar o modelo no conjunto de dados
Treine o modelo em seu conjunto de dados com o número apropriado de épocas
# Prepare the mannequin on the COCO8 instance dataset for 100 epochs
outcomes = mannequin.practice(knowledge="coco8.yaml", epochs=100, imgsz=640)
Teste o modelo
Você pode salvar o modelo e testá-lo em imagens não vistas, conforme necessário.
# Run inference on a picture
outcomes = mannequin("path/to/your/picture.png")
# Show outcomes
outcomes(0).present()
Imagem authentic e de saída
Tenho imagens inéditas para verificar a previsão do modelo e isso forneceu o resultado mais preciso




Aplicações de YOLOv11
Os avanços do YOLOv11 o tornam adequado para várias aplicações do mundo actual:
- Veículos autônomos: A detecção aprimorada de objetos pequenos e obstruídos aumenta a segurança e a navegação.
- Assistência médica: A precisão do YOLOv11 ajuda em tarefas de imagens médicas, como detecção de tumores, onde a precisão é crítica.
- Gerenciamento de varejo e estoque: Rastreia o comportamento do cliente, monitora o estoque e aumenta a segurança em ambientes de varejo.
- Vigilância: Sua velocidade e precisão o tornam perfeito para vigilância em tempo actual e detecção de ameaças.
- Robótica: O YOLOv11 permite que os robôs naveguem melhor nos ambientes e interajam com os objetos de forma autônoma.
Conclusão
YOLOv11 estabelece um novo padrão para detecção de objetos, combinando velocidade, precisão e flexibilidade. Sua arquitetura baseada em transformador, design dinâmico de cabeçote e atribuição de rótulo duplo permitem que ele se destaque em uma variedade de aplicações em tempo actual, desde veículos autônomos até assistência médica. O YOLOv11 está prestes a se tornar uma ferramenta crítica para desenvolvedores e pesquisadores, abrindo caminho para avanços futuros na tecnologia de detecção de objetos.
Se você está procurando um curso de IA generativa on-line, discover: Programa Pináculo GenAI.
Principais conclusões
- YOLOv11 apresenta um spine baseado em transformador e design de cabeçote dinâmico, aprimorando a detecção de objetos em tempo actual com maior velocidade e precisão.
- Ele supera os modelos YOLO anteriores ao atingir 60 FPS e 61,5% mAP com menos parâmetros, tornando-o mais eficiente.
- Inovações importantes, como treinamento sem NMS, atribuição de rótulo duplo e autoatenção parcial, melhoram a precisão da detecção, especialmente para objetos sobrepostos.
- As aplicações práticas do YOLOv11 abrangem veículos autônomos, saúde, varejo, vigilância e robótica, beneficiando-se de sua velocidade e precisão.
- O YOLOv11 reduz a latência em 25-40% em comparação com o YOLOv10, solidificando sua posição como ferramenta líder para tarefas de detecção de objetos em tempo actual.
A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do Autor.
Pergunta frequente
Resp. YOLO, ou “You Solely Look As soon as”, é um sistema de detecção de objetos em tempo actual que pode identificar objetos em uma única passagem sobre uma imagem, tornando-o eficiente e rápido. Foi introduzido por Joseph Redmon em 2016 e revolucionou o campo de detecção de objetos ao processar imagens como um todo, em vez de analisar regiões separadamente.
Resp. YOLOv11 apresenta várias inovações, incluindo um spine baseado em transformador, design de cabeçote dinâmico, treinamento sem NMS, atribuição de rótulo duplo e autoatenção parcial (PSA). Esses recursos melhoram a velocidade, a precisão e a eficiência, tornando-o adequado para aplicações em tempo actual.
Resp. YOLOv11 supera as versões anteriores com velocidade de processamento de 60 FPS e precisão de mAP de 61,5%. Possui menos parâmetros (40M) em comparação com 48M do YOLOv10, oferecendo detecção de objetos mais rápida e precisa, mantendo a eficiência.
Resp. O YOLOv11 pode ser usado em veículos autônomos, saúde (por exemplo, imagens médicas), gerenciamento de varejo e estoque, vigilância em tempo actual e robótica. Sua velocidade e precisão o tornam superb para cenários que exigem detecção rápida e confiável de objetos.
Resp. O uso de um spine baseado em transformador, design de cabeçote dinâmico que se adapta à complexidade da imagem e treinamento sem NMS ajuda o YOLOv11 a reduzir a latência em 25-40% em comparação com o YOLOv10. Essas melhorias permitem processar até 60 quadros por segundo, superb para tarefas em tempo actual.