Explorando a remoção de fundo da imagem usando RMGB v2.0 -itstec.com.br. All rights reserved.

Segmentação de imagem Os modelos trouxeram maneiras de concluir tarefas em várias dimensões. O espaço de código aberto supervisionou diferentes tarefas de visão computacional e seus aplicativos. A remoção de fundo é outra tarefa de segmentação de imagem que os modelos continuaram a explorar ao longo dos anos.

O RMGB v2.0 da BRIA é um modelo de ponta que executa a remoção de fundo com grande precisão e precisão. Este modelo é uma melhoria da versão RMGB 1.4 mais antiga. Esse modelo de código aberto vem com precisão, eficiência e versatilidade em diferentes benchmarks.

Este modelo possui aplicações em vários campos, desde jogos até geração de imagens de estoque. Seus recursos também podem estar associados aos seus dados e arquitetura de treinamento, permitindo que opere em vários contextos.

Objetivos de aprendizado

Entenda as capacidades e avanços do modelo RMGB V2.0 da Braiai.
Discover a arquitetura do modelo e como o Birefnet aprimora a remoção de fundo.
Aprenda a configurar e executar o RMGB v2.0 para tarefas de segmentação de imagens.
Descubra aplicativos do mundo actual do RMGB v2.0 em jogos, comércio eletrônico e publicidade.
Analise as melhorias de desempenho sobre RMGB v1.4 na detecção e precisão de arestas.

Este artigo foi publicado como parte do Information Science Blogathon.

Como funciona o RGMB?

Este modelo tem um princípio de trabalho simples. Ele leva imagens como entrada (em vários formatos, como JPEG, PNG, and so forth.). Após o processamento das imagens, os modelos fornecem uma saída de uma área de imagem segmentada, removendo o plano de fundo ou o primeiro plano.

O RGMB também pode fornecer uma máscara para processar mais a imagem ou adicionar um novo plano de fundo.

Referência de desempenho do RGMB v2.0

O desempenho deste modelo supera seu antecessor-o RGMB v1.4-com desempenho e precisão. Os resultados do teste de algumas imagens destacaram como o V2.0 apresentou um fundo mais limpo.

Embora a versão anterior tenha um bom desempenho, o RGMB v2.0 outline um novo padrão para entender cenas e detalhes complexos nas bordas, melhorando a remoção de fundo em geral.

Confira este hyperlink para testar a versão anterior com o mais recente pode ser encontrado aqui.

Arquitetura de modelo do RGMB v2.0

Desenvolvido pela Brai AI, o RMGB é baseado no mecanismo BirefNet. Essa estrutura é uma arquitetura que permite tarefas de alta resolução envolvendo separação de imagens.

Explorando a remoção de fundo da imagem usando RMGB v2.0

Essa abordagem combina a representação de representação de duas fontes em um modelo de restauração de alta resolução. Este método combina o entendimento geral da cena (localização geral) com informações detalhadas das arestas (native), permitindo detecção de limites clara e precisa.

O RGMB v2.0 usa um modelo de dois estágios para alavancar a arquitetura Birefnet: os módulos de localização e restauração.

O módulo de localização gera o mapa semântico geral que representa as áreas primárias da imagem. Esse componente garante que o modelo represente com precisão a estrutura da imagem. Com essa estrutura, o modelo pode identificar onde a localização dos objetos na imagem, considerando o plano de fundo.

Por outro lado, o módulo de restauração ajuda nos limites da restauração do objeto na imagem. Ele realiza esse processo em alta resolução, em comparação com o primeiro estágio, onde a geração de mapa semântica é feita em uma resolução mais baixa.

O módulo de restauração possui duas fases: a referência unique, um mapa de pixels da imagem unique, fornece contexto de fundo. A segunda fase é a referência de gradiente, que fornece os detalhes das bordas finas. A referência de gradiente também pode ajudar com precisão, fornecendo contexto a imagens com limites nítidos e cores complexas.

Essa abordagem produz excelentes resultados em separação de objetos, especialmente em imagens de alta resolução. A arquitetura Brirefnet e o conjunto de dados de treinamento de modelos podem fornecer os melhores resultados em vários benchmarks.

Como executar este modelo

Você pode executar a inferência neste modelo, mesmo em ambientes de baixo recurso. Você pode executar completamente uma separação precisa trabalhando com uma imagem de fundo simples.

Vamos mergulhar em como podemos executar o modelo RGMB v2.0;

Etapa 1: Preparando o ambiente

pip set up kornia

A instalação de Konia é relevante para esta tarefa, pois é uma biblioteca Python essencial para vários modelos de visão computacional. A Konia é uma tarefa de visão computacional diferenciável criada em Pytorch que fornece funcionalidades para processamento de imagens, transformações geométricas, filtragem e aplicações de aprendizado profundo.

Etapa 2: Importando bibliotecas necessárias

 from PIL import Picture
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

Essas bibliotecas são todos essenciais para executar este modelo. ‘Pil’ sempre é útil para tarefas de processamento de imagens como carregar e abrir imagens, enquanto ‘Matpotlib’ é ótimo para exibir imagens e desenhar gráficos.

A ‘Torch’ transforma as imagens em um formato compatível com modelos de aprendizado profundo. Finalmente, usamos ‘AutomodelForimagesementation’, que nos permite usar o modelo pré-treinado para segmentação de imagens.

Etapa 3: Carregando o modelo pré-treinado

mannequin = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(('excessive', 'highest')(0))
mannequin.to('cuda')
mannequin.eval()

Este código carrega o modelo pré-treinado para remoção de fundo e aplica o ‘confiança_remote_code = true’, pois permite a execução do código Python personalizado. A próxima linha otimiza o desempenho usando multiplicações da matriz.

Por fim, movemos o modelo para usar a GPU disponível e prepará -la para a inferência.

Etapa 4: Pré -processamento de imagem

Este código outline o estágio de processamento da imagem redimensionando a imagem para 1024 x 1024 e convertendo -a em tensores. Portanto, temos os valores de pixel na média e no desvio padrão.

A função ‘rework.compose’ ajuda a processar a operação da imagem de entrada em uma transformação semelhante à cadeia para garantir que ela seja processada de maneira uniforme. Esta etapa também mantém os valores de pixel em um intervalo consistente.

image_size = (1024, 1024)
transform_image = transforms.Compose((
   transforms.Resize(image_size),
   transforms.ToTensor(),
   transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))
))

Etapa 5: carregando a imagem

 picture = Picture.open("/content material/Boy utilizing a pc.jpeg")
input_images = transform_image(picture).unsqueeze(0).to('cuda')

Aqui, carregamos a imagem e a preparamos para o modelo. Primeiro, ele abre a imagem usando ‘pil’. Em seguida, ele o redimensiona e o converte em tensores. Uma dimensão additional em lote também é adicionada à imagem antes de movê -la para ‘CUDA’ para a GPU acelerar a inferência e garantir a compatibilidade com o modelo.

Etapa 6: Remoção de fundo

Esse código take away o plano de fundo gerando uma máscara de segmentação a partir das previsões do modelo e aplicando -a à imagem unique.

 with torch.no_grad():
   preds = mannequin(input_images)(-1).sigmoid().cpu()
pred = preds(0).squeeze()
pred_pil = transforms.ToPILImage()(pred)
masks = pred_pil.resize(picture.measurement)
picture.putalpha(masks)

Este código take away o plano de fundo obtendo uma máscara de transparência do modelo. Ele executa o modelo sem rastreamento de gradiente, aplica sigmoid () para obter probabilidades de pixels e transfer o resultado para a CPU. A máscara é redimensionada para corresponder à imagem unique e definir como seu canal alfa, tornando o fundo transparente.

O resultado da imagem de entrada está abaixo, com o fundo removido e separado do objeto primário (o garoto).

Aqui está o arquivo para o código.

Aplicação do fundo da imagem usando RMGB v2.0

Existem vários casos de uso desse modelo em diferentes campos. Algumas das aplicações comuns incluem;

Comércio eletrônico: Este modelo pode ser útil para concluir a fotografia de produtos de comércio eletrônico, pois você pode remover e substituir o primeiro plano na imagem.
Jogos: A remoção de fundo desempenha um papel enorme na criação de ativos de jogo. Este modelo pode ser usado para separar imagens selecionadas de outros objetos.
Anúncio: Você pode aproveitar os recursos de remoção e substituição de antecedentes da RMGB para gerar designs e conteúdo de anúncios. Estes podem ser para imagens e até gráficos.

Conclusão

O RMGB é usado em vários setores. Os recursos deste modelo também melhoraram do V1.2 anterior para o V2.0 mais recente. Sua arquitetura e utilização do Birefnet desempenham um papel enorme em seu desempenho e tempo de inferência. Você pode explorar esse modelo com vários tipos de imagem e a saída e a qualidade do desempenho.

Takeaway -chave

A melhoria desse modelo em relação aos seus antecessores é um aspecto notável de como o RMGB funciona. O entendimento do contexto é outro aspecto que destaca seu desempenho aprimorado.
Uma coisa que faz esse modelo se destacar é seu aplicativo versátil em vários campos, como publicidade, jogos e comércio eletrônico.
O recurso notável deste modelo é sua execução e integração fáceis. Isso resulta de sua arquitetura exclusiva, que permite que ele seja executado em ambientes de baixo recurso com tempo de inferência rápida.

Recurso

Perguntas frequentes

Q1. O que torna o RMGB v2.0 melhor que o RMGB v1.4?

A. RMGB v2.0 melhora a detecção de borda, a separação de fundo e a precisão, especialmente em cenas complexas com bordas detalhadas.

Q2. O RMGB v2.0 pode funcionar com diferentes formatos de imagem?

UM. Ele suporta vários formatos, como JPEG e PNG, tornando -o adaptável para diferentes casos de uso.

Q3. O RMGB v2.0 requer uma GPU de ponta para inferência?

A. Este modelo é otimizado para ambientes de baixo recurso e pode ser executado com eficiência nas GPUs padrão.

This autumn. Qual é a arquitetura por trás do RMGB v2.0?

A. RMGB v2.0 é construído no mecanismo BirefNet, que melhora a separação de alta resolução, usando módulos de localização e restauração.

Q5. Como posso executar o RMGB v2.0 para remoção de fundo?

A. Você pode instalar dependências necessárias como Kornia, carregar o modelo pré-treinado, imagens de pré-processamento e executar inferência usando Pytorch.

Q6. Onde posso encontrar recursos para explorar mais rmgb v2.0?

R. Você pode se referir ao weblog de Braiai, abraçando o Face Mannequin Repository e Aimodels.Fyi para guias de documentação e implementação.

A mídia mostrada neste artigo não é de propriedade da Analytics Vidhya e é usada a critério do autor.

Ei! Sou David Maigari, um profissional dinâmico, apaixonado por redação técnica, desenvolvimento da internet e mundo da IA. David também é um entusiasta das inovações da ML/AI. Entre em contato comigo no X (Twitter) em @maigari_david

Explorando a remoção de fundo da imagem usando RMGB v2.0

Objetivos de aprendizado

Como funciona o RGMB?

Referência de desempenho do RGMB v2.0

Arquitetura de modelo do RGMB v2.0

Como executar este modelo

Etapa 1: Preparando o ambiente

Etapa 2: Importando bibliotecas necessárias

Etapa 3: Carregando o modelo pré-treinado

Etapa 4: Pré -processamento de imagem

Etapa 5: carregando a imagem

Etapa 6: Remoção de fundo

Aplicação do fundo da imagem usando RMGB v2.0

Conclusão

Takeaway -chave

Recurso

Perguntas frequentes

Faça login para continuar lendo e desfrutar de conteúdo com curado especialista.

Deixe um comentário Cancelar resposta

Ofertas de drones no Natal de 2025: DJI, Autel e Insta360

Principais ideias de presentes para entusiastas de drones FPV: de devices econômicos a kits de drones premium

Transporte térmico em materiais bidimensionais deformados mecanicamente e estruturas projetadas com suas aplicações

Membrana acionada por eletricidade aumenta a eficiência de captura de CO₂

Memristores flexíveis baseados em interface V2O5 projetados para computação neuromórfica de alto desempenho inspirada no cérebro

Vinculando nanotecnologia e sustentabilidade | Nanotecnologia da Natureza

As velocidades do FWA diminuem à medida que a adoção acelera, descobre Ookla

Jio lança pacote de dados Rs 103 Flexi com dados de 5 GB e benefícios OTT

Apresentando a estrutura integrada de segurança e proteção de IA da Cisco

Um pouco desconfortável | Todas as coisas distribuídas

Apresentando a estrutura integrada de segurança e proteção de IA da Cisco

Conheça LangSmith Assistant – Polly (uma agente para agentes)