As estruturas ativas multimodais representam uma abordagem de ponta em inteligência synthetic, integrando vários tipos de dados – como texto, imagens, áudio e vídeo – para aprimorar as capacidades dos sistemas inteligentes. Essas estruturas utilizam agentes inteligentes que podem processar e analisar de forma autônoma diversas fontes de informação, permitindo uma compreensão e tomada de decisões mais diferenciadas. Ao combinar multimodalidade com funcionalidades de agente, esses sistemas podem se adaptar em tempo actual a ambientes dinâmicos e interações do usuário. Esta integração não só melhora a eficiência operacional em todos os setores, mas também enriquece as interações homem-computador, tornando-as mais intuitivas e conscientes do contexto. Como tal, as estruturas de agentes multimodais estão preparadas para transformar a forma como nos envolvemos com a tecnologia em inúmeras aplicações.
Objetivos de aprendizagem
- Compreendendo a IA Agentic com geração de imagens
- Explorando as funcionalidades do Camel AI
- Desenvolvendo um Sistema Agente Multimodal com CAMEL AI
- Benefícios para empresas imobiliárias
Este artigo foi publicado como parte do Blogatona de Ciência de Dados.
IA MultiModal Agentic: Agentes com Geração de Imagens
A Agentic AI representa uma evolução significativa em inteligência syntheticcaracterizado pela sua autonomia e capacidades avançadas de tomada de decisão. A integração de Agentic Frameworks com recursos de geração de imagens pode oferecer vantagens significativas, conforme mencionado abaixo –
- Criatividade aprimorada: Esses sistemas podem auxiliar nos processos criativos, gerando conteúdo visible exclusivo, permitindo que artistas, designers e profissionais de advertising and marketing explorem novas ideias e conceitos de forma eficiente.
- Personalização: Ao gerar imagens personalizadas com base nas preferências do usuário ou nas entradas de dados, os sistemas de agência podem criar experiências personalizadas em advertising and marketing, publicidade e entretenimento.
- Prototipagem Rápida: Os sistemas Agentic podem produzir rapidamente protótipos visuais para produtos ou conceitos, facilitando iterações mais rápidas e suggestions durante o processo de design.
- Visualização de dados: Eles podem transformar conjuntos de dados complexos em representações visuais intuitivas, auxiliando na melhor compreensão e comunicação de informações em vários campos, como análise de negócios e pesquisa científica.
- Acessibilidade: Esses sistemas podem democratizar o acesso a conteúdo visible de alta qualidade, permitindo que indivíduos e organizações sem extensos recursos de design criem imagens de nível profissional.
- Automação de tarefas repetitivas: Ao automatizar o processo de geração de imagens, os sistemas agentes reduzem o tempo e os recursos gastos em tarefas rotineiras de design, permitindo que os criadores humanos se concentrem em iniciativas mais estratégicas.
O que é camelo AI?
Camelo IA (abreviação de Agentes Comunicativos para Exploração Psychological da Sociedade Modelo de Linguagem em Grande Escala) é uma estrutura inovadora dedicada ao desenvolvimento e pesquisa de agentes comunicativos autônomos. O seu objetivo principal é examinar como os sistemas de IA interagem e colaboram, reduzindo a necessidade de envolvimento humano em diversas tarefas. Com foco na análise de comportamentos, habilidades e riscos potenciais em sistemas multiagentes, Camel AI é um projeto de código aberto projetado para promover a colaboração e impulsionar a inovação na comunidade de pesquisa em IA.
Módulos principais no Camel AI
A estrutura CAMEL foi projetada para a criação e gerenciamento de sistemas multiagentes, incorporando vários componentes principais. Inclui Modelos para definir a inteligência do agente, Mensagens para comunicação, e Sistemas de memória para armazenamento e recuperação de dados. A estrutura também integra Ferramentas para tarefas especializadas, prompts para orientar o comportamento do agente e tarefas para gerenciar fluxos de trabalho. O Força de trabalho módulo permite a formação de equipes de agentes para colaboração, enquanto o Sociedade módulo facilita a interação entre agentes. Juntos, esses componentes permitem o desenvolvimento de ambientes multiagentes dinâmicos e colaborativos.

Uma das maiores vantagens do uso do Camel AI é sua integração com um conjunto diversificado de kits de ferramentas que podem ser aproveitados perfeitamente na criação de sistemas multiagentes. Camel AI inclui vários kits de ferramentas que aprimoram os recursos de sua estrutura multiagente. Os principais kits de ferramentas incluem:
- Ferramenta de função: Este package de ferramentas permite que os agentes chamem funções e interajam com diversas APIs, facilitando a execução de tarefas complexas e a integração com serviços externos.
- Equipment de ferramentas Reddit: Este package de ferramentas permite que os agentes interajam com a API do Reddit, permitindo-lhes coletar as principais postagens, realizar análises de sentimento em comentários e monitorar discussões em subreddits.
- Equipment de ferramentas de recuperação: Projetado para recuperação de informações, este package de ferramentas permite que os agentes consultem sistemas locais de armazenamento de vetores, recuperando informações relevantes com base nas consultas dos usuários.
- Ferramentas de mídia: Isto inclui funcionalidades de processamento de imagens e áudio, permitindo aos agentes lidar eficazmente com conteúdos multimédia.
- Ferramentas de documento: Este package de ferramentas fornece recursos para processamento de documentos em vários formatos (por exemplo, PDF, Phrase) e inclui recursos de net scraping.
- Ferramentas da Net: Essas ferramentas permitem que os agentes acessem e interajam com serviços da net, como mecanismos de pesquisa e APIs como PatoDuckGo e Wikipédia.
- Integração DALL-E: Camel AI também suporta integração com modelos de geração de imagens como DALL-E, permitindo que os agentes criem imagens com base em descrições textuais, aprimorando suas capacidades criativas.
- Kits de ferramentas de pesquisa. Um package de ferramentas para realizar pesquisas na net usando vários mecanismos de pesquisa como Google, DuckDuckGo, Wikipedia e Wolfram Alfa.
Esses kits de ferramentas capacitam coletivamente o Camel AI para executar uma ampla gama de tarefas, desde recuperação e processamento de dados até manuseio de multimídia e geração de imagens criativas.
DALL-E
DALL-E é uma série de modelos avançados de conversão de texto em imagem desenvolvidos pela OpenAI que geram imagens digitais baseadas em descrições de linguagem pure, conhecidas como prompts. A versão inicial foi lançada em janeiro de 2021, seguida pelo DALL-E 2 em 2022, e a última iteração, DALL-E 3foi integrado ao ChatGPT e disponibilizado no remaining de 2023.
DALL-E pode criar imagens em vários estilos, incluindo imagens fotorrealistas e representações artísticas. Ele pode manipular e reorganizar objetos em imagens e inferir detalhes não mencionados explicitamente nos prompts.
Implementação prática de um sistema agente multimodal
No tutorial prático a seguir, criamos um sistema de agência multimodal usando CAMEL AI para criar folhetos para os próximos projetos imobiliários em uma cidade. Isso poderia ajudar imensamente as empresas imobiliárias, pois auxilia na criação automatizada dos folhetos necessários para distribuir aos clientes quando algum de seus novos projetos surgir em uma cidade sem a mínima intervenção humana.
Passo 1. Instalação das Bibliotecas Necessárias
!pip set up 'camel-ai(all)'
Etapa 2. Definindo chaves de API Open AI
import os
os.environ('OPENAI_API_KEY') = ''
Etapa 3. Importando Bibliotecas Necessárias
from camel.brokers.chat_agent import ChatAgent
from camel.messages.base import BaseMessage
from camel.fashions import ModelFactory
from camel.societies.workforce import Workforce
from camel.duties.process import Activity
from camel.toolkits import (
FunctionTool,
GoogleMapsToolkit,
SearchToolkit,
)
from camel.toolkits import DalleToolkit
from camel.varieties import ModelPlatformType, ModelType
import nest_asyncio
nest_asyncio.apply()
Passo 4. Definindo os Agentes

search_toolkit = SearchToolkit()
search_tools = (
FunctionTool(search_toolkit.search_duckduckgo))
#Outline the Mannequin for the Agent as nicely. Default mannequin is "gpt-4o-mini" and mannequin platform kind is OpenAI
guide_agent_model = ModelFactory.create(
model_platform=ModelPlatformType.DEFAULT,
model_type=ModelType.DEFAULT,
)
#Defining the Actual Property Agent for crafting the brochures
real_estate_agent = ChatAgent(
BaseMessage.make_assistant_message(
role_name="Actual Property Specialist",
content material="You're a Actual Property Specialist who's an professional in creating Description of Upcoming Residential Tasks",
),
mannequin=guide_agent_model,
)
#Defining the Agent for Actual Property Property Names
property_title_agent = ChatAgent(
BaseMessage.make_assistant_message(
role_name="Actual Property Challenge Identify Specialist",
content material="You're a Actual Property Challenge Identify Specialist who's an professional in Producing Stylish Names FoR Residental Tasks in india",
),
mannequin=guide_agent_model,
)
#Defining the agent for producing all of the facilities close to a location
location_benefits_agent = ChatAgent(
BaseMessage.make_assistant_message(
role_name="Actual Property Location Specialist",
content material="You're a Actual Property Location Specialist who's an professional in Producing All of the facilities like malls, airports, markets, metro stations, railway stations and many others with distances from a location of the talked about property",
),
mannequin=guide_agent_model, instruments =search_tools
)
#Outline the net search instrument for the Agent utilizing Tavily (we have to outline the Tavily API Key beforehand)
dalletool = DalleToolkit()
imagegen_tools = (
FunctionTool(dalletool.get_dalle_img),
)
#Outline the Picture Technology Agent with the pre-defined mannequin and instruments and Immediate
image_generation_agent = ChatAgent(
system_message=BaseMessage.make_assistant_message(
role_name="Picture Technology Specialist",
content material="You possibly can Generate Photos For Upcoming Actual Property Tasks For Displaying to Purchasers",
),
mannequin=guide_agent_model,
instruments=imagegen_tools,
)
Este trecho de código outline vários agentes usando uma fábrica de modelos e uma estrutura de agente de chat.
- Criação de modelo: primeiro cria um modelo padrão (guide_agent_model) para os agentes, especificamente usando o “GPT-4o-mini”Modelo da OpenAI.
- Agentes Imobiliários: Dois agentes são instanciados: um como “Especialista em Imóveis” focado na criação de descrições para futuros projetos residenciais, e outro como “Especialista em Nomes de Projetos Imobiliários” encarregado de gerar nomes da moda para projetos residenciais na Índia.
- Especialista em Localização Imobiliária: Este agente serve para gerar todas as comodidades como shoppings, aeroportos, mercados, estações de metrô, estações ferroviárias and many others com distâncias de uma localização do imóvel mencionado
- Ferramenta de geração de imagens: Ferramenta de geração de imagens (dalletool) que permite aos agentes gerar imagens relacionadas a projetos imobiliários.
- Agente de geração de imagens: Por fim, é criado um agente “Especialista em Geração de Imagens”, equipado com o modelo previamente definido e ferramentas de geração de imagens para criar visuais para futuros projetos imobiliários para apresentar aos clientes.
Passo 5. Definindo a Força de Trabalho
#Outline the workforce that may take case of a number of brokers
workforce = Workforce('Actual Property Brochure Generator')
workforce.add_single_agent_worker(
"Actual Property Specialist",
employee=real_estate_agent).add_single_agent_worker(
"Actual Property Challenge Identify Specialist",
employee=property_title_agent).add_single_agent_worker(
"Location Amenity Specialist",employee=location_benefits_agent).add_single_agent_worker(
"Picture Technology Specialist",
employee=image_generation_agent)
# specify the duty to be solved Defining the precise process wanted
human_task = Activity(
content material=(
"""Craft a Brochure Content material For a Upcoming Residential Actual Property Challenge in Sector 47,Gurgaon. The content material ought to include all of the kinds of flats it has, all facilities in it and different such obligatory particulars .
Present a Identify for this Property as nicely.
Generate all of the facilities of the placement (with respect to its proximity to all public locations) to this brochure content material.
Generate an Picture of this Upcoming Challenge as nicely."""
),
id='0',
)
process = workforce.process_task(human_task)
Este código outline uma “força de trabalho” que gerencia múltiplos agentes para a geração de um folheto imobiliário. Acrescenta 4 agentes: um especialista em imóveis, um especialista em nomes de propriedades, um especialista em comodidades de localização e um especialista em geração de imagens. Em seguida, especifica uma tarefa a ser concluída pela força de trabalho: criar o conteúdo do folheto, fornecer um nome para o projeto e gerar uma imagem para um novo projeto imobiliário em Gurgaon. A força de trabalho processa a tarefa coordenando os agentes para executar suas respectivas funções.
Resultados
1. Resultado do agente de conteúdo de folheto
Upcoming Residential Challenge in Sector 47, GurgaonWelcome to Your New House
Uncover the right mix of luxurious and luxury in our upcoming residential
mission positioned within the coronary heart of Sector 47, Gurgaon. Designed to cater to
various life, our mission presents quite a lot of flats that promise to
meet your wants and exceed your expectations.---
Flat Sorts Obtainable:
1. **1 BHK Flats**
- **Dimension:** 600 sq. ft.
- **Description:** Very best for younger professionals or {couples}, these cozy 1 BHK
flats function an open dwelling space, a contemporary kitchen, and a snug
bed room. Take pleasure in a well-designed house that maximizes performance with out
compromising on type.2. **2 BHK Flats**
- **Dimension:** 1,200 sq. ft.
- **Description:** Good for small households, our 2 BHK flats supply spacious
dwelling areas, two well-appointed bedrooms, and ample storage. Expertise a
harmonious mix of magnificence and practicality, with massive home windows that
invite pure mild into your house.3. **3 BHK Flats**
- **Dimension:** 1,800 sq. ft.
- **Description:** Designed for bigger households, these expansive 3 BHK flats
present beneficiant dwelling areas, three bedrooms, and a contemporary kitchen. Take pleasure in
the posh of house and luxury, with thoughtfully designed layouts that
cater to your loved ones’s wants.4. **Penthouse Suites**
- **Dimension:** 2,500 sq. ft.
- **Description:** Elevate your dwelling expertise with our unique
penthouse suites. That includes gorgeous views, expansive terraces, and high-end
finishes, these luxurious properties are good for individuals who admire the
finer issues in life. Take pleasure in non-public outside areas and a life-style of
sophistication.---
Facilities:
- **Clubhouse:** A state-of-the-art clubhouse with leisure amenities.
- **Swimming Pool:** Chill out and unwind in our fantastically designed pool.
- **Gymnasium:** Keep match with our totally geared up fitness center.
- **Landscaped Gardens:** Take pleasure in serene inexperienced areas for rest and
leisure.
- **24/7 Safety:** Guaranteeing your security and peace of thoughts.---
Location Advantages:
- Proximity to main colleges, hospitals, and procuring facilities.
- Wonderful connectivity to Delhi and different components of Gurgaon.
- A vibrant neighborhood with parks, eating places, and leisure choices.---
Conclusion:
Don’t miss the chance to be part of this distinctive residential
neighborhood in Sector 47, Gurgaon. Whether or not you might be in search of a comfy 1 BHK or
an opulent penthouse, we now have the right house ready for you. For extra
data and to schedule a go to, contact us in the present day!
2. Resultado do Agente Especialista em Nome de Projeto Imobiliário
**Gurgaon Heights**Output from Location Amenity Specialist Agent
Facilities and Proximity to Public Locations close to Gurgaon Heights, Sector 47,
Gurgaon1. Procuring Malls:-
**Atmosphere Mall** - 5 km
- **DLF Mega Mall** - 4.5 km
- **Sahara Mall** - 6 km2. **Metro Stations:**
- **Huda Metropolis Centre Metro Station** - 4 km
- **Sikandarpur Metro Station** - 7 km3. **Railway Stations:**
- **Gurgaon Railway Station** - 8 km
- **New Delhi Railway Station** - 30 km4. Airports: -
**Indira Gandhi Worldwide Airport** - 15 km
5. Colleges: -
**The Shri Ram College** - 2 km
- **G.D. Goenka Public College** - 3 km
- **Delhi Public College, Sector 45** - 3.5 km6. Hospitals:-
**Medanta - The Medicity** - 6 km
- **Fortis Memorial Analysis Institute** - 5 km
- **Max Hospital, Gurgaon** - 7 km7. Parks and Recreation:-
**Aravali Golf Course** - 3 km
- **Leisure Valley Park** - 4 km
- **Sukhna Lake Park** - 5 km8. Eating places and Cafes:-
**Cyber Hub** - 6 km
- **Sector 29 Meals Avenue** - 5 km
- **The Nice India Place** - 7 km9. Leisure: -
**PVR Cinemas, Atmosphere Mall** - 5 km
- **Kingdom of Goals** - 8 km
3. Resultado do especialista em geração de imagens: –

Conclusão
Concluindo, a integração de sistemas de IA de agência com capacidades de geração de imagens, como aquelas encontradas na estrutura Camel AI (MultiModal Agentic Framework), representa um avanço transformador tanto na criatividade quanto na automação. Ao combinar o poder da tomada de decisões autônoma com ferramentas avançadas de geração de imagens, esses sistemas oferecem um potencial significativo para prototipagem rápida, experiências personalizadas e acessibilidade aprimorada a conteúdo visible de alta qualidade. À medida que a Camel AI (MultiModal Agentic Framework) continua a evoluir, pode impulsionar a inovação em vários setores, reduzindo o envolvimento humano em tarefas rotineiras e, ao mesmo tempo, capacitando empreendimentos mais estratégicos e criativos.
Principais conclusões
- Criatividade Autônoma: Sistemas de IA agente com recursos de geração de imagens aprimoram os processos criativos, permitindo que artistas e designers gerem rapidamente conteúdo visible exclusivo e inovador.
- Experiências personalizadas: Esses sistemas podem personalizar imagens com base nas preferências do usuário, permitindo experiências personalizadas de advertising and marketing, publicidade e entretenimento.
- Prototipagem Eficiente: A Agentic AI acelera o processo de prototipagem gerando protótipos visuais rapidamente, promovendo iterações e suggestions mais rápidos nos fluxos de trabalho de design.
- Visualização de dados: Os sistemas Agentic AI podem converter dados complexos em representações claras e visualmente intuitivas, auxiliando na melhor compreensão e comunicação em diversos campos.
- Colaboração multiagente: A estrutura do Camel AI promove a colaboração entre agentes autônomos, melhorando a execução de tarefas e facilitando o desenvolvimento de sistemas avançados multiagentes para uma ampla gama de aplicações.
A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do Autor.
Perguntas frequentes
Resp. Os sistemas Agentic AI são estruturas de IA autônomas com recursos avançados de tomada de decisão. Quando integrados aos recursos de geração de imagens, eles podem criar conteúdo visible exclusivo, aumentar a criatividade e automatizar tarefas, tornando processos como design, advertising and marketing e prototipagem mais eficientes.
Resp. Agentic AI ajuda profissionais criativos como artistas, designers e profissionais de advertising and marketing, gerando conteúdo visible exclusivo e personalizado. Isso ajuda a explorar novas ideias, melhorar a criatividade e acelerar iterações de design e prototipagem.
Resp. Camel AI é uma estrutura de código aberto para o desenvolvimento de agentes comunicativos autônomos. Promove a colaboração entre agentes através de seus módulos e kits de ferramentas, permitindo sistemas dinâmicos e multiagentes que podem interagir, compartilhar dados e executar tarefas complexas sem intervenção humana.
Resp. Os kits de ferramentas do Camel AI suportam uma variedade de tarefas, incluindo recuperação de informações, análise de sentimentos, processamento de imagens, manipulação de documentos e interações na net. Além disso, integra-se a modelos como o DALL-E para gerar imagens baseadas em entrada textual, ampliando suas capacidades criativas.
Resp. Ao usar seu sistema multiagente e kits de ferramentas especializados, Camel AI automatiza tarefas repetitivas e complexas, como processamento de dados, geração de imagens e gerenciamento de fluxo de trabalho. Isto reduz a necessidade de intervenção humana, permitindo que os utilizadores se concentrem em esforços estratégicos e criativos.