Os sistemas agênticos multimodais representam um avanço revolucionário no campo da inteligência synthetic, combinando perfeitamente diversos tipos de dados – como texto, imagens, áudio e vídeo – em um sistema unificado que aprimora significativamente as capacidades das tecnologias inteligentes. Esses sistemas dependem de agentes inteligentes autônomos que podem processar, analisar e sintetizar independentemente as informações de várias fontes, facilitando uma compreensão mais profunda e diferenciada de situações complexas.
Ao mesclar entradas multimodais com funcionalidade agêntica, esses sistemas podem se adaptar dinamicamente em tempo actual às mudanças de ambientes e interações do usuário, oferecendo uma experiência mais responsiva e inteligente. Essa fusão não apenas aumenta a eficiência operacional em uma variedade de indústrias, mas também eleva as interações humano-computador, tornando-as mais fluidas, intuitivas e contextualmente conscientes. Como resultado, as estruturas agênticas multimodais estão definidas para remodelar a maneira como interagimos e utilizamos a tecnologia, impulsionando a inovação em inúmeras aplicações entre os setores.
Objetivos de aprendizado
- Benefícios dos sistemas agênticos de IA com análise de imagem avançada
- Como a ferramenta de visão da tripulação da AI aprimora os recursos da IA Agentic?
- Visão geral do modelo Deepseek-R1-Distill-Qwen-7b e seus recursos
- Tutorial de Python, integrando a ferramenta de visão com Deepseek R1
- Construindo um sistema multi-modal e multi-agente para análise de estoque
- Analisando e comparando comportamentos de estoque usando gráficos de estoque
Este artigo foi publicado como parte do Information Science Blogathon.
Sistemas de IA agênticos com recursos de análise de imagem
Os sistemas Agentic AI, fortificados com recursos sofisticados de análise de imagem, estão transformando as indústrias, permitindo um conjunto de funções indispensáveis.
- Processamento de dados visuais instantâneo: Esses sistemas avançados possuem a capacidade de analisar imensas quantidades de informações visuais em tempo actual, melhorando drasticamente a eficiência operacional em diversos setores, incluindo saúde, fabricação e varejo. Esse processamento rápido facilita a tomada de decisão rápida e as respostas imediatas a condições dinâmicas.
- Precisão superior no reconhecimento de imagem: Com as taxas de precisão de reconhecimento, superando 95%, a IA agêntica diminui substancialmente a ocorrência de falsos positivos nas tarefas de reconhecimento de imagens. Esse nível elevado de precisão se traduz em resultados mais confiáveis e confiáveis, cruciais para aplicações onde a precisão é basic.
- Execução de tarefas autônomas: Ao incorporar perfeitamente a análise de imagem em suas estruturas operacionais, esses sistemas inteligentes podem executar tarefas complexas autonomamente, como fornecer diagnósticos médicos ou realizar operações de vigilância, tudo sem a necessidade de supervisão humana direta. Essa automação não apenas simplifica os fluxos de trabalho, mas também minimiza o potencial de erro humano, abrindo caminho para aumentar a produtividade e a confiabilidade.
Ferramenta de visão da tripulação AI
Crewai é uma estrutura de ponta de ponta, projetada para orquestrar agentes autônomos de IA em equipes coesas, permitindo que eles resolvam tarefas complexas em colaboração. Dentro de Crewai, cada agente recebe funções específicas, equipadas com ferramentas designadas e impulsionadas por objetivos bem definidos, espelhando a estrutura de uma equipe de trabalho do mundo actual.
O Ferramenta de visão Expande os recursos da Crewai, permitindo que os agentes processem e compreendam dados de texto baseados em imagem, integrando as informações visuais em seus processos de tomada de decisão. Os agentes podem aproveitar a ferramenta de visão para extrair texto das imagens, simplesmente fornecendo um URL ou um caminho de arquivo, aumentando sua capacidade de coletar informações de diversas fontes. Após a extração do texto, os agentes podem utilizar essas informações para gerar respostas abrangentes ou relatórios detalhados, automatizando ainda mais os fluxos de trabalho e aumentando a eficiência geral. Para usar efetivamente a ferramenta de visão, é necessário definir o Chave da API OpenAI Dentro das variáveis de ambiente, garantindo integração perfeita com modelos de idiomas.
Construindo um sistema agêntico multimodal para explicar o comportamento de ações a partir de gráficos de estoque
Construiremos um sistema agêntico sofisticado e multimodal que primeiro aproveitará a ferramenta de visão da Crewai, projetada para interpretar e analisar os gráficos de ações (apresentados como imagens) de duas empresas. Esse sistema aproveitará o poder do modelo Deepseek-R1-Distill-Qwen-7b para fornecer explicações detalhadas do comportamento dessas empresas, oferecendo informações bem fundamentadas sobre o desempenho das duas empresas e comparando seu comportamento. Essa abordagem permite um entendimento e comparação abrangentes das tendências do mercado, combinando análise de dados visuais com modelos avançados de linguagem, permitindo a tomada de decisão informada.

Deepseek-R1-Distill-Qwen-7b
Para adaptar as habilidades avançadas de raciocínio da DeepSeek R1 para uso em modelos de linguagem mais compactos, os criadores compilaram um conjunto de dados de 800.000 exemplos gerados pelo próprio Deepseek R1. Esses exemplos foram então usados para ajustar modelos existentes como Qwen e Llama. Os resultados demonstraram que esse método de destilação de conhecimento relativamente simples transferiu efetivamente os recursos sofisticados de raciocínio da R1 para esses outros modelos
O modelo Deepseek-R1-Distill-Qwen-7b é um dos modelos Deepseek R1 destilados. É uma versão destilada da maior arquitetura Deepseek-R1, projetada para oferecer uma eficiência aprimorada, mantendo um desempenho robusto. Aqui estão alguns recursos importantes:
O modelo se destaca em tarefas matemáticas, alcançando uma pontuação impressionante de 92,8% na referência Math-500, demonstrando sua capacidade de lidar com o raciocínio matemático complexo de maneira eficaz.
Além de suas proezas matemáticas, o Deepseek-R1-Distill-Qwen-7b tem um desempenho razoavelmente bem em tarefas factuais de resposta a perguntas, pontuando 49,1% no GPQA Diamond, indicando um bom equilíbrio entre habilidades de raciocínio matemático e factual.
Aproveitaremos esse modelo para explicar e encontrar raciocínio por trás do comportamento dos estoques de empresas após a extração de informações das imagens do gráfico de estoque.

Implementação prática de Python usando o Ollama no Google Colab
Nós estaremos usando Ollama Para puxar os modelos LLM e utilizar a GPU T4 no Google Colab para criar este sistema agêntico multimodal.
Etapa 1. Instale as bibliotecas necessárias
!pip set up crewai crewai_tools
!sudo apt replace
!sudo apt set up -y pciutils
!pip set up langchain-ollama
!curl -fsSL https://ollama.com/set up.sh | sh
!pip set up ollama==0.4.2
Etapa 2. Aplicação do encadeamento para configurar o servidor Ollama
import threading
import subprocess
import time
def run_ollama_serve():
subprocess.Popen(("ollama", "serve"))
thread = threading.Thread(goal=run_ollama_serve)
thread.begin()
time.sleep(5)
Etapa 3. Puxando modelos de Ollama
!ollama pull deepseek-r1
Etapa 4. Definindo o OpenAI API Key e LLM Mannequin
import os
from crewai import Agent, Process, Crew, Course of, LLM
from crewai_tools import LlamaIndexTool
from langchain_openai import ChatOpenAI
from crewai_tools import VisionTool
vision_tool = VisionTool()
os.environ('OPENAI_API_KEY') =''
os.environ("OPENAI_MODEL_NAME") = "gpt-4o-mini"
llm = LLM(
mannequin="ollama/deepseek-r1",
)
Etapa 5. Definindo os agentes, tarefas na tripulação
def create_crew(image_url,image_url1):
#Agent For EXTRACTNG INFORMATION FROM STOCK CHART
stockchartexpert= Agent(
position="STOCK CHART EXPERT",
aim="Your aim is to EXTRACT INFORMATION FROM THE TWO GIVEN %s & %s inventory charts accurately """%(image_url, image_url1),
backstory="""You're a STOCK CHART skilled""",
verbose=True,instruments=(vision_tool),
allow_delegation=False
)
#Agent For RESEARCH WHY THE STOCK BEHAVED IN A SPECIFIC WAY
stockmarketexpert= Agent(
position="STOCK BEHAVIOUR EXPERT",
aim="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY . """,
backstory="""You're a STOCK BEHAVIOUR EXPERT""",
verbose=True,
allow_delegation=False,llm = llm
)
#Process For EXTRACTING INFORMATION FROM A STOCK CHART
task1 = Process(
description="""Your aim is to EXTRACT INFORMATION FROM THE GIVEN %s & %s inventory chart accurately """%((image_url,image_url1)),
expected_output="info in textual content format",
agent=stockchartexpert,
)
#Process For EXPLAINING WITH ENOUGH REASONINGS WHY THE STOCK BEHAVED IN A SPECIFIC WAY
task2 = Process(
description="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY.""",
expected_output="Causes behind inventory conduct in BULLET POINTS",
agent=stockmarketexpert
)
#Outline the crew primarily based on the outlined brokers and duties
crew = Crew(
brokers=(stockchartexpert,stockmarketexpert),
duties=(task1,task2),
verbose=True, # You'll be able to set it to 1 or 2 to completely different logging ranges
)
end result = crew.kickoff()
return end result
Etapa 6. Executando a tripulação
Os dois gráficos abaixo foram dados como entrada para a tripulação


textual content = create_crew("https://www.eqimg.com/photographs/2024/11182024-chart6-equitymaster.gif","https://www.eqimg.com/photographs/2024/03262024-chart4-equitymaster.gif")
pprint(textual content)


Saída remaining
Mamaearth's inventory exhibited volatility through the yr because of inner
challenges that led to vital worth modifications. These included sudden
product launches and market controversies which prompted each peaks and
troughs within the share worth, leading to an total fluctuating pattern.Then again, Zomato demonstrated a usually upward pattern in its share
worth over the identical interval. This upward motion could be attributed to
increasing enterprise operations, notably with profitable forays into
cities like Bengaluru and Pune, enhancing their market presence. Nevertheless,
close to the top of 2024, exterior components akin to a serious scandal or regulatory
points might need contributed to a short lived decline in share worth regardless of
the general optimistic pattern.In abstract, Mamaearth's inventory volatility stems from inner inconsistencies
and exterior controversies, whereas Zomato's upward trajectory is pushed by
profitable market enlargement with minor setbacks because of exterior occasions.
Como visto na produção remaining, o sistema Agentic forneceu uma boa análise e comparação dos comportamentos do preço das ações dos gráficos de ações com raciocínio suficiente como uma incursão nas cidades e expansão nas operações comerciais por trás da tendência ascendente do preço das ações do preço da ação do Zomato.
Outro exemplo de um sistema agêntico multimodal para insights de estoque
Vamos verificar e comparar o comportamento do preço das ações a partir de gráficos de ações para mais duas empresas – Jubilant Meals Works & Bikaji Meals Worldwide Ltd. para o ano de 2024.


textual content = create_crew("https://s3.tradingview.com/p/PuKVGTNm_mid.png","https://photographs.cnbctv18.com/uploads/2024/12/bikaji-dec12-2024-12-b639f48761fab044197b144a2f9be099.jpg?im=Resize,width=360,side=match,kind=regular")
print(textual content)


Saída remaining
The inventory conduct of Jubilant Foodworks and Bikaji could be in contrast primarily based on
their current updates and patterns noticed of their inventory charts.Jubilant Foodworks:
Cup & Deal with Sample: This sample is usually bullish, indicating that the
patrons have taken management after a worth decline. It suggests potential
upside because the candlestick formation might sign a reversal or strengthening
purchase curiosity.Breakout Level: The horizontal dashed line marking the breakout level implies
that the inventory has reached a resistance stage and should now check increased
costs. This can be a optimistic signal for bulls, because it reveals energy within the
upward motion.Development Line Development: The uptrend indicated by the pattern line suggests ongoing
bullish sentiment. The worth persistently strikes upwards alongside this line,
reinforcing the thought of sustained development.Quantity Correlation: Quantity bars on the backside displaying correlation with worth
actions point out that buying and selling quantity is rising alongside upward worth
motion. That is favorable for patrons because it reveals extra assist and stronger
curiosity in shopping for.Bikaji:
Current Value Change: The inventory has proven a +4.80% change, indicating optimistic
momentum within the brief time period.Yr-to-Date Efficiency: Over the previous yr, the inventory has elevated by
61.42%, which is important and suggests robust development potential. This
efficiency might be attributed to numerous components akin to market
situations, firm fundamentals, or strategic initiatives.Time Body: The time axis spans from January to December 2024, offering a
clear view of the inventory's efficiency over the subsequent yr.Comparability:
Each corporations' shares are displaying upward tendencies, however Jubilant Foodworks has
a extra particular bullish sample (Cup & Deal with) that helps its present
motion. Bikaji, then again, has demonstrated robust development over the
previous yr and continues to indicate optimistic momentum with a current worth
improve. The quantity in Jubilant Foodworks correlates properly with upward
actions, indicating robust shopping for curiosity, whereas Bikaji's efficiency
suggests sustained or accelerated development.The inventory conduct displays completely different strengths: Jubilant Foodworks advantages
from a transparent bullish sample and robust assist ranges, whereas Bikaji
stands out with its year-to-date development. Each point out optimistic
developments, however the contexts and patterns differ barely primarily based on their
respective market positions and dynamics.
Como visto na produção remaining, o sistema agêntico forneceu uma boa análise e comparação dos comportamentos do preço das ações dos gráficos de ações com explicações elaboradas sobre as tendências vistas como o desempenho sustentado de Bikaji, em contraste com o padrão de alta de alimentos jubilosos.
Conclusões
Em conclusão, as estruturas agênticas multimodais marcam uma mudança transformadora na IA, misturando diversos tipos de dados para uma melhor tomada de decisão em tempo actual. Esses sistemas aprimoram a inteligência adaptativa, integrando a análise de imagem avançada e os recursos agênticos. Como resultado, eles otimizam a eficiência e a precisão em vários setores. O Ferramenta de visão da tripulação AI e Deepseek R1 O modelo demonstra como essas estruturas permitem aplicativos sofisticados, como analisar o comportamento das ações. Esse avanço destaca o crescente papel da IA em impulsionar a inovação e melhorar a tomada de decisões.
Takeaways -chave
- Estruturas Agentic Multimodal: Essas estruturas integram texto, imagens, áudio e vídeo em um sistema de IA unificado, aprimorando os recursos de inteligência synthetic. Os agentes inteligentes desses sistemas processam, analisam e sintetizam informações de forma diversa de diversas fontes. Essa habilidade lhes permite desenvolver uma compreensão diferenciada de situações complexas, tornando a IA mais adaptável e responsiva.
- Adaptação em tempo actual: Ao mesclar entradas multimodais com funcionalidade agêntica, esses sistemas se adaptam dinamicamente às mudanças de ambientes. Essa adaptabilidade permite interações mais responsivas e inteligentes do usuário. A integração de vários tipos de dados aprimora a eficiência operacional em vários setores, incluindo assistência médica, fabricação e varejo. Melhora a velocidade e a precisão da tomada de decisão, levando a melhores resultados
- Recursos de análise de imagem: Os sistemas Agentic AI com reconhecimento de imagem avançado podem processar grandes volumes de dados visuais em tempo actual, fornecendo resultados precisos para aplicativos onde a precisão é basic. Esses sistemas executam autonomamente tarefas intrincadas, como diagnóstico médico e vigilância, reduzindo o erro humano e melhorando a produtividade.
- Ferramenta de visão da tripulação: Essa ferramenta permite que agentes autônomos do Crewai extraem e processem texto das imagens, aprimorando seus recursos de tomada de decisão e melhorando a eficiência geral do fluxo de trabalho.
- Modelo Deepseek-R1-Distill-Qwen-7b: Esse modelo destilado oferece desempenho robusto e, sendo mais compacto, destacando -se em tarefas como raciocínio matemático e resposta de perguntas factuais, tornando -o adequado para analisar o comportamento das ações.
A mídia mostrada neste artigo não é de propriedade da Analytics Vidhya e é usada a critério do autor.
Perguntas frequentes
Ans. As estruturas agênticas multimodais combinam diversos tipos de dados, como texto, imagens, áudio e vídeo em um sistema de IA unificado. Essa integração permite que agentes inteligentes analisem e processem várias formas de dados para uma tomada de decisão mais sutil e eficiente.
Ans. A Crew AI é uma estrutura avançada e de código aberto, projetado para coordenar agentes autônomos de IA em equipes coesas que trabalham em colaboração para concluir tarefas complexas. Cada agente do sistema recebe uma função específica, equipada com ferramentas designadas e impulsionada por objetivos bem definidos, imitando a estrutura e a função de uma equipe de trabalho do mundo actual.
Ans. A Ferramenta de visão da tripulação permite que os agentes extraem e processem texto das imagens. Esse recurso permite que o sistema compreenda dados visuais e o integre aos processos de tomada de decisão, melhorando ainda mais a eficiência do fluxo de trabalho.
Ans. Esses sistemas são especialmente benéficos em setores como saúde, fabricação e varejo, onde análises e precisão em tempo actual no reconhecimento de imagens são críticas para tarefas como diagnóstico médico e controle de qualidade.
Ans. Os modelos destilados da DeepSeek-R1 são versões menores e mais eficientes do modelo maior Deepseek-R1, criado usando um processo chamado destilação, que preserva grande parte do poder de raciocínio do modelo unique e reduz as demandas computacionais. Esses modelos destilados são ajustados com dados gerados pelo Deepseek-R1. Alguns exemplos desses modelos destilados são Deepseek-R1-Distill-Qwen-1.5b, Deepseek-R1-Distill-Qwen-7b, Deepseek-R1-Distill-Qwen-14b, Deepseek-R1-Distill-llama-8b entre outros.