Explorando a remoção de fundo da imagem usando RMGB v2.0


Segmentação de imagem Os modelos trouxeram maneiras de concluir tarefas em várias dimensões. O espaço de código aberto supervisionou diferentes tarefas de visão computacional e seus aplicativos. A remoção de fundo é outra tarefa de segmentação de imagem que os modelos continuaram a explorar ao longo dos anos.

O RMGB v2.0 da BRIA é um modelo de ponta que executa a remoção de fundo com grande precisão e precisão. Este modelo é uma melhoria da versão RMGB 1.4 mais antiga. Esse modelo de código aberto vem com precisão, eficiência e versatilidade em diferentes benchmarks.

Este modelo possui aplicações em vários campos, desde jogos até geração de imagens de estoque. Seus recursos também podem estar associados aos seus dados e arquitetura de treinamento, permitindo que opere em vários contextos.

Objetivos de aprendizado

  • Entenda as capacidades e avanços do modelo RMGB V2.0 da Braiai.
  • Discover a arquitetura do modelo e como o Birefnet aprimora a remoção de fundo.
  • Aprenda a configurar e executar o RMGB v2.0 para tarefas de segmentação de imagens.
  • Descubra aplicativos do mundo actual do RMGB v2.0 em jogos, comércio eletrônico e publicidade.
  • Analise as melhorias de desempenho sobre RMGB v1.4 na detecção e precisão de arestas.

Este artigo foi publicado como parte do Information Science Blogathon.

Como funciona o RGMB?

Este modelo tem um princípio de trabalho simples. Ele leva imagens como entrada (em vários formatos, como JPEG, PNG, and so forth.). Após o processamento das imagens, os modelos fornecem uma saída de uma área de imagem segmentada, removendo o plano de fundo ou o primeiro plano.

O RGMB também pode fornecer uma máscara para processar mais a imagem ou adicionar um novo plano de fundo.

Referência de desempenho do RGMB v2.0

O desempenho deste modelo supera seu antecessor-o RGMB v1.4-com desempenho e precisão. Os resultados do teste de algumas imagens destacaram como o V2.0 apresentou um fundo mais limpo.

Embora a versão anterior tenha um bom desempenho, o RGMB v2.0 outline um novo padrão para entender cenas e detalhes complexos nas bordas, melhorando a remoção de fundo em geral.

Confira este hyperlink para testar a versão anterior com o mais recente pode ser encontrado aqui.

Arquitetura de modelo do RGMB v2.0

Desenvolvido pela Brai AI, o RMGB é baseado no mecanismo BirefNet. Essa estrutura é uma arquitetura que permite tarefas de alta resolução envolvendo separação de imagens.

Explorando a remoção de fundo da imagem usando RMGB v2.0

Essa abordagem combina a representação de representação de duas fontes em um modelo de restauração de alta resolução. Este método combina o entendimento geral da cena (localização geral) com informações detalhadas das arestas (native), permitindo detecção de limites clara e precisa.

O RGMB v2.0 usa um modelo de dois estágios para alavancar a arquitetura Birefnet: os módulos de localização e restauração.

O módulo de localização gera o mapa semântico geral que representa as áreas primárias da imagem. Esse componente garante que o modelo represente com precisão a estrutura da imagem. Com essa estrutura, o modelo pode identificar onde a localização dos objetos na imagem, considerando o plano de fundo.

Por outro lado, o módulo de restauração ajuda nos limites da restauração do objeto na imagem. Ele realiza esse processo em alta resolução, em comparação com o primeiro estágio, onde a geração de mapa semântica é feita em uma resolução mais baixa.

O módulo de restauração possui duas fases: a referência unique, um mapa de pixels da imagem unique, fornece contexto de fundo. A segunda fase é a referência de gradiente, que fornece os detalhes das bordas finas. A referência de gradiente também pode ajudar com precisão, fornecendo contexto a imagens com limites nítidos e cores complexas.

Essa abordagem produz excelentes resultados em separação de objetos, especialmente em imagens de alta resolução. A arquitetura Brirefnet e o conjunto de dados de treinamento de modelos podem fornecer os melhores resultados em vários benchmarks.

Como executar este modelo

Você pode executar a inferência neste modelo, mesmo em ambientes de baixo recurso. Você pode executar completamente uma separação precisa trabalhando com uma imagem de fundo simples.

Vamos mergulhar em como podemos executar o modelo RGMB v2.0;

Etapa 1: Preparando o ambiente

pip set up kornia

A instalação de Konia é relevante para esta tarefa, pois é uma biblioteca Python essencial para vários modelos de visão computacional. A Konia é uma tarefa de visão computacional diferenciável criada em Pytorch que fornece funcionalidades para processamento de imagens, transformações geométricas, filtragem e aplicações de aprendizado profundo.

Etapa 2: Importando bibliotecas necessárias

 from PIL import Picture
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

Essas bibliotecas são todos essenciais para executar este modelo. ‘Pil’ sempre é útil para tarefas de processamento de imagens como carregar e abrir imagens, enquanto ‘Matpotlib’ é ótimo para exibir imagens e desenhar gráficos.

A ‘Torch’ transforma as imagens em um formato compatível com modelos de aprendizado profundo. Finalmente, usamos ‘AutomodelForimagesementation’, que nos permite usar o modelo pré-treinado para segmentação de imagens.

Etapa 3: Carregando o modelo pré-treinado

mannequin = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(('excessive', 'highest')(0))
mannequin.to('cuda')
mannequin.eval()

Este código carrega o modelo pré-treinado para remoção de fundo e aplica o ‘confiança_remote_code = true’, pois permite a execução do código Python personalizado. A próxima linha otimiza o desempenho usando multiplicações da matriz.

Por fim, movemos o modelo para usar a GPU disponível e prepará -la para a inferência.

Etapa 4: Pré -processamento de imagem

Este código outline o estágio de processamento da imagem redimensionando a imagem para 1024 x 1024 e convertendo -a em tensores. Portanto, temos os valores de pixel na média e no desvio padrão.

A função ‘rework.compose’ ajuda a processar a operação da imagem de entrada em uma transformação semelhante à cadeia para garantir que ela seja processada de maneira uniforme. Esta etapa também mantém os valores de pixel em um intervalo consistente.

image_size = (1024, 1024)
transform_image = transforms.Compose((
   transforms.Resize(image_size),
   transforms.ToTensor(),
   transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))
))

Etapa 5: carregando a imagem

 picture = Picture.open("/content material/Boy utilizing a pc.jpeg")
input_images = transform_image(picture).unsqueeze(0).to('cuda')

Aqui, carregamos a imagem e a preparamos para o modelo. Primeiro, ele abre a imagem usando ‘pil’. Em seguida, ele o redimensiona e o converte em tensores. Uma dimensão additional em lote também é adicionada à imagem antes de movê -la para ‘CUDA’ para a GPU acelerar a inferência e garantir a compatibilidade com o modelo.

Carregue a imagem: rmgb v2.0

Etapa 6: Remoção de fundo

Esse código take away o plano de fundo gerando uma máscara de segmentação a partir das previsões do modelo e aplicando -a à imagem unique.

 with torch.no_grad():
   preds = mannequin(input_images)(-1).sigmoid().cpu()
pred = preds(0).squeeze()
pred_pil = transforms.ToPILImage()(pred)
masks = pred_pil.resize(picture.measurement)
picture.putalpha(masks)

Este código take away o plano de fundo obtendo uma máscara de transparência do modelo. Ele executa o modelo sem rastreamento de gradiente, aplica sigmoid () para obter probabilidades de pixels e transfer o resultado para a CPU. A máscara é redimensionada para corresponder à imagem unique e definir como seu canal alfa, tornando o fundo transparente.

O resultado da imagem de entrada está abaixo, com o fundo removido e separado do objeto primário (o garoto).

Aqui está o arquivo para o código.

RMBG Resultado: RMGB v2.0

Aplicação do fundo da imagem usando RMGB v2.0

Existem vários casos de uso desse modelo em diferentes campos. Algumas das aplicações comuns incluem;

  • Comércio eletrônico: Este modelo pode ser útil para concluir a fotografia de produtos de comércio eletrônico, pois você pode remover e substituir o primeiro plano na imagem.
  • Jogos: A remoção de fundo desempenha um papel enorme na criação de ativos de jogo. Este modelo pode ser usado para separar imagens selecionadas de outros objetos.
  • Anúncio: Você pode aproveitar os recursos de remoção e substituição de antecedentes da RMGB para gerar designs e conteúdo de anúncios. Estes podem ser para imagens e até gráficos.

Conclusão

O RMGB é usado em vários setores. Os recursos deste modelo também melhoraram do V1.2 anterior para o V2.0 mais recente. Sua arquitetura e utilização do Birefnet desempenham um papel enorme em seu desempenho e tempo de inferência. Você pode explorar esse modelo com vários tipos de imagem e a saída e a qualidade do desempenho.

Takeaway -chave

  • A melhoria desse modelo em relação aos seus antecessores é um aspecto notável de como o RMGB funciona. O entendimento do contexto é outro aspecto que destaca seu desempenho aprimorado.
  • Uma coisa que faz esse modelo se destacar é seu aplicativo versátil em vários campos, como publicidade, jogos e comércio eletrônico.
  • O recurso notável deste modelo é sua execução e integração fáceis. Isso resulta de sua arquitetura exclusiva, que permite que ele seja executado em ambientes de baixo recurso com tempo de inferência rápida.

Recurso

Perguntas frequentes

Q1. O que torna o RMGB v2.0 melhor que o RMGB v1.4?

A. RMGB v2.0 melhora a detecção de borda, a separação de fundo e a precisão, especialmente em cenas complexas com bordas detalhadas.

Q2. O RMGB v2.0 pode funcionar com diferentes formatos de imagem?

UM. Ele suporta vários formatos, como JPEG e PNG, tornando -o adaptável para diferentes casos de uso.

Q3. O RMGB v2.0 requer uma GPU de ponta para inferência?

A. Este modelo é otimizado para ambientes de baixo recurso e pode ser executado com eficiência nas GPUs padrão.

This autumn. Qual é a arquitetura por trás do RMGB v2.0?

A. RMGB v2.0 é construído no mecanismo BirefNet, que melhora a separação de alta resolução, usando módulos de localização e restauração.

Q5. Como posso executar o RMGB v2.0 para remoção de fundo?

A. Você pode instalar dependências necessárias como Kornia, carregar o modelo pré-treinado, imagens de pré-processamento e executar inferência usando Pytorch.

Q6. Onde posso encontrar recursos para explorar mais rmgb v2.0?

R. Você pode se referir ao weblog de Braiai, abraçando o Face Mannequin Repository e Aimodels.Fyi para guias de documentação e implementação.

A mídia mostrada neste artigo não é de propriedade da Analytics Vidhya e é usada a critério do autor.

Ei! Sou David Maigari, um profissional dinâmico, apaixonado por redação técnica, desenvolvimento da internet e mundo da IA. David também é um entusiasta das inovações da ML/AI. Entre em contato comigo no X (Twitter) em @maigari_david

Faça login para continuar lendo e desfrutar de conteúdo com curado especialista.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *