Como gerar e editar imagens usando a API OpenAI GPT-IMAGE-1


A última vez que o ChatGPT da OpenAI introduziu um modelo de geração de imagens, rapidamente se tornou viral na Web. As pessoas foram cativadas pela capacidade de criar Retratos no estilo Ghibli de si mesmos, transformando memórias pessoais em obras de arte animadas. Agora, o ChatGPT está dando um passo adiante com um novo modelo nativamente multimodal “GPT-Picture-1”, que alimenta a geração de imagens diretamente no ChatGPT e agora está disponível by way of API. Neste artigo, exploraremos os principais recursos do modelo GPT-Picture-1 do OpenAI e como usá-lo para geração e edição de imagens.

O que é GPT-Picture-1?

O GPT-Picture-1 é o modelo de linguagem multimodal mais recente e mais avançado do OpenAI. Ele se destaca por sua capacidade de gerar imagens de alta qualidade e incorporar o conhecimento do mundo actual no conteúdo visible. Enquanto o GPT-Picture-1 é recomendado para seu desempenho robusto, a API de imagem também suporta outros modelos especializados como Dall · E 2 e Dall · E 3.

Como gerar e editar imagens usando a API OpenAI GPT-IMAGE-1
Fonte: Openai

A API da imagem oferece três pontos finais principais, cada um projetado para tarefas específicas:

  • Gerações: Crie imagens do zero usando um immediate de texto.
  • Edições: Modifique as imagens existentes usando um novo immediate, parcial ou totalmente.
  • Variações: Gere variações de uma imagem existente (disponível apenas com Dall · E 2).
API OpenAI GPT-IMAGE-1
Fonte: Openai

Principais recursos do GPT-Picture-1

O GPT-Picture-1 oferece vários recursos importantes:

  • Imagens de alta fidelidade: Produz visuais detalhados e precisos.
  • Diversas estilos visuais: Suporta uma gama de estética, da foto realista a abstrata.
  • Edição de imagem precisa: Permite modificações direcionadas para imagens geradas.
  • Conhecimento do mundo rico: Entende avisos complexos com precisão contextual.
  • Renderização de texto consistente: Renderiza o texto dentro das imagens de maneira confiável.

Disponibilidade

A API do OpenAI permite que os usuários gerem e editem imagens a partir de avisos de texto usando a imagem GPT ou os modelos Dall · E. Atualmente, a geração de imagens é acessível exclusivamente através da API da imagem, embora o suporte para a API de respostas esteja sendo desenvolvido ativamente.

Para ler mais sobre o clique GPT-Picture-1 aqui.

Preços GPT-Picture-1

Antes de mergulhar em como usar e implantar o modelo, é importante entender os preços para garantir seu uso eficaz e consciente do orçamento.

O modelo GPT-IMAGE-1 tem um preço de token, com taxas diferentes para tokens de texto e imagem:

  • Tokens de entrada de texto (avisos): $ 5 por 1 milhão de tokens
  • Tokens de entrada de imagem (imagens carregadas): $ 10 por 1 milhão de tokens
  • Tokens de saída de imagem (imagens geradas): $ 40 por 1 milhão de tokens

Em termos práticos, isso equivale a::

  • ~ $ 0,02 para uma imagem quadrada de baixa qualidade
  • ~ $ 0,07 para uma imagem quadrada de qualidade média
  • ~ $ 0,19 para uma imagem quadrada de alta qualidade

Para obter preços mais detalhados por qualidade e resolução da imagem, consulte a página de preços oficiais aqui.

API OpenAI GPT-IMAGE-1-Tamanhos de imagem e preços
Fonte: Openai

Observação: Este modelo gera imagens criando primeiro tokens de imagem especializados. Portanto, tanto a latência quanto o custo geral dependem do número de tokens utilizados. Dimensões de imagem maiores e configurações de maior qualidade requerem mais tokens, aumentando o tempo e o custo.

Como acessar GPT-Picture-1?

Para gerar a chave da API para GPT-Picture-1:

  1. Faça login na plataforma Openai
  2. Vá para Projeto> Chaves da API
  3. Verifique sua conta

Para isso, primeiro, visite: https://platform.openai.com/settings/group/common. Em seguida, clique em “Verificar organização” para iniciar o processo de verificação. É quire semelhante a qualquer verificação do KYC, onde, dependendo do país, você será solicitado a fazer add de uma identificação com foto e verificá -la com uma selfie.

Você pode seguir esta documentação Fornecido pela IA aberta para entender melhor o processo de verificação.

GPT-Picture-1: Aplicativo prático

Finalmente, é hora de ver como podemos gerar imagens usando a API GPT-Picture-1.

Estaremos usando o terminal de geração de imagens Para criar imagens com base em prompts de texto. Por padrão, a API retorna uma única imagem, mas podemos definir o parâmetro N para gerar várias imagens de uma só vez em uma única solicitação.

Antes de executar nosso código principal, precisamos primeiro executar o código para instalação e configurar o ambiente.

!pip set up openai
import os
os.environ('OPENAI_API_KEY') = ""

Gerando imagens usando GPT-Picture-1

Agora, vamos tentar gerar uma imagem usando este novo modelo.

Código de entrada:

from openai import OpenAI
import base64
consumer = OpenAI()


immediate = """
A serene, peaceable park scene the place people and pleasant robots are having fun with the
day collectively - some are strolling, others are taking part in video games or sitting on benches
underneath timber. The ambiance is heat and harmonious, with smooth daylight filtering
via the leaves.
"""


consequence = consumer.pictures.generate(
    mannequin="gpt-image-1",
    immediate=immediate
)


image_base64 = consequence.knowledge(0).b64_json
image_bytes = base64.b64decode(image_base64)


# Save the picture to a file
with open("utter_bliss.png", "wb") as f:
    f.write(image_bytes)

Saída:

Imagem gerada usando API OpenAI GPT-Image-1

Editando imagens usando GPT-Picture-1

O GPT-Picture-1 oferece várias opções de edição de imagens. A imagem edita o endpoint permite -nos:

  • Editar imagens existentes
  • Gerar novas imagens usando outras imagens como referência
  • Edite partes de uma imagem enviando uma imagem e máscara indicando quais áreas devem ser substituídas (um processo conhecido como pintura)

Editando uma imagem usando uma máscara

Vamos tentar editar uma imagem usando uma máscara. Vamos fazer add de uma imagem e fornecer uma máscara para especificar quais partes dela devem ser editadas.

Imagem de entrada para edição

As áreas transparentes da máscara serão substituídas com base no immediate, enquanto as áreas coloridas permanecerão inalteradas.

Agora, deixe -me pedir ao modelo para adicionar Elon Musk à minha imagem carregada.

Código de entrada:

from openai import OpenAI
consumer = OpenAI()


consequence = consumer.pictures.edit(
    mannequin="gpt-image-1",
    picture=open("/content material/analytics_vidhya_1024.png", "rb"),
    masks=open("/content material/mask_alpha_1024.png", "rb"),
    immediate="Elon Musk standing in entrance of Firm Emblem"
)


image_base64 = consequence.knowledge(0).b64_json
image_bytes = base64.b64decode(image_base64)


# Save the picture to a file
with open("Elon_AV.png", "wb") as f:
    f.write(image_bytes)

Saída:

foto editada

Pontos a serem observados ao editar uma imagem usando GPT-Picture-1:

  • A imagem que você deseja editar e a máscara correspondente deve estar no mesmo formato e dimensões, e cada uma deve ter menor que 25 MB de tamanho.
  • O aviso que você fornece pode ser usado para descrever toda a nova imagem, não apenas a parte que está sendo editada.
  • Se você fornecer várias imagens de entrada, a máscara será aplicada apenas à primeira imagem.
  • A imagem da máscara deve incluir um canal alfa. Se você estiver usando uma ferramenta de edição de imagem para criar a máscara, verifique se ela está salva com um canal alfa ativado.
  • Se você tem uma imagem em preto e branco, pode usar um programa para adicionar um canal alfa e convertê-lo em uma máscara válida, conforme fornecido abaixo:
from PIL import Picture
from io import BytesIO


# 1. Load your black & white masks as a grayscale picture
masks = Picture.open("/content material/analytics_vidhya_masked.jpeg").convert("L")


# 2. Convert it to RGBA so it has house for an alpha channel
mask_rgba = masks.convert("RGBA")


# 3. Then use the masks itself to fill that alpha channel
mask_rgba.putalpha(masks)


# 4. Convert the masks into bytes
buf = BytesIO()
mask_rgba.save(buf, format="PNG")
mask_bytes = buf.getvalue()


# 5. Save the ensuing file
img_path_mask_alpha = "mask_alpha.png"
with open(img_path_mask_alpha, "wb") as f:
    f.write(mask_bytes)

Melhores práticas para usar GPT-Picture-1

Aqui estão algumas dicas e práticas recomendadas a seguir ao usar o GPT-Picture-1 para gerar ou editar imagens.

  1. Você pode personalizar a aparência da sua imagem, definindo opções como tamanho, qualidade, formato de arquivo, nível de compressão e se o plano de fundo é transparente ou não. Essas configurações ajudam a controlar a saída last para atender às suas necessidades específicas.
  2. Para resultados mais rápidos, vá com imagens quadradas (1024 × 1024) e qualidade padrão. Você também pode escolher formatos retratos de retrato (1536 × 1024) ou paisagem (1024 × 1536). A qualidade pode ser definida como baixa, média ou alta, e o tamanho e a qualidade e o padrão para automaticamente, se não for especificado.
  3. Observe que a API da imagem retorna os dados de imagem codificados por Base64. O formato padrão é PNG, mas também podemos solicitá -lo em JPEG ou WebP.
  4. Se você estiver usando JPEG ou Webp, também poderá especificar o parâmetro de saída_COMPRESSO para controlar o nível de compressão (0-100%). Por exemplo, output_compression = 50 comprimirá a imagem em 50%.

Aplicações de GPT-Picture-1

Desde design criativo e comércio eletrônico até educação, software program corporativo e jogos, o GPT-Picture-1 possui uma ampla gama de aplicações.

  • Jogos: Criação de conteúdo, máscaras de sprite, fundo dinâmico, geração de personagens, arte conceitual
  • Ferramentas criativas: geração de obras de arte, transferência de estilo, prototipagem de design, narrativa visible
  • Educação: Aids visuais, recriações históricas, conteúdo interativo de aprendizado, visualização de conceito
  • Software program corporativo: visuais deslizantes, ilustrações de relatório, geração de dados para imagem, ativos de marca
  • Publicidade e advertising and marketing: visuais de campanha, gráficos de mídia social, criação de conteúdo localizada
  • Assistência médica: ilustração médica, varredura de pacientes visuais, dados de imagem sintética para treinamento de modelos
  • Arquitetura e imóveis: Mockups de interiores, renderizações exteriores, visualizações de structure, idéias de renovação
  • Entretenimento e mídia: conceitos de cena, materials promocional, duplas digitais

Limitações de GPT-Picture-1

O modelo de imagem GPT-4O é uma ferramenta poderosa e versátil para geração de imagens, mas ainda existem algumas limitações a serem lembradas:

  • Latência: Prompts mais complexos podem levar até 2 minutos para processar.
  • Renderização de texto: Embora significativamente melhor que os modelos Dall · E, o modelo ainda pode enfrentar desafios com alinhamento e clareza de texto precisos.
  • Consistência: Embora possa gerar imagens visualmente consistentes, o modelo pode ocasionalmente lutar para manter a uniformidade para caracteres recorrentes ou elementos de marca em várias imagens.
  • Controle de composição: Mesmo com recursos aprimorados de seguidores de instruções, o modelo nem sempre pode colocar elementos com precisão em projetos estruturados ou sensíveis ao structure.

Conclusão

O GPT-Picture-1 do OpenAI mostra poderosos recursos de geração de imagens com suporte para criação, edição e variações provenientes de simples avisos textuais. Embora a geração de imagens possa levar algum tempo, a qualidade e o controle que ela oferece o tornam altamente prático e gratificante em geral.

Modelos de geração de imagens como esse facilitam a criação, personalização e prototipagem mais rápida. Com opções de personalização internas para tamanho, qualidade, formato, and so forth. e até mesmo recursos de pintura, o GPT-Picture-1 oferece aos desenvolvedores controle completo e transparente sobre a saída desejada.

Embora alguns possam se preocupar que essa tecnologia possa substituir a criatividade humana, é importante observar que essas ferramentas visam melhorar a criatividade humana e ser ferramentas úteis para os artistas. Embora definitivamente devamos respeitar a originalidade, também devemos abraçar a conveniência que essa tecnologia traz. Devemos encontrar o equilíbrio certo, onde essas ferramentas nos ajudam a inovar sem tirar o valor do trabalho autêntico e criado pelo homem.

Genai Intern @ Analytics Vidhya | Último ano @ vit chennai
Apaixonado por IA e aprendizado de máquina, estou ansioso para mergulhar em papéis como engenheiro de IA/ML ou cientista de dados, onde posso causar um impacto actual. Com um talento especial para o aprendizado rápido e um amor pelo trabalho em equipe, estou animado para trazer soluções inovadoras e avanços de ponta para a mesa. Minha curiosidade me leva a explorar a IA em vários campos e tomar a iniciativa de se aprofundar na engenharia de dados, garantindo que eu fique à frente e entregue projetos impactantes.

Faça login para continuar lendo e desfrutar de conteúdo com curado especialista.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *