Dois anos depois do AI generativa Increase realmente começou com o lançamento de Chatgptnão parece mais emocionante ter um assistente de IA fenomenalmente útil andando no seu navegador ou telefone, apenas esperando você fazer perguntas. O próximo grande empurrão na IA é para Agentes da IA Isso pode agir em seu nome. Mas, embora a IA Agentic já tenha chegado para usuários de energia como codificadores, os consumidores cotidianos ainda não têm esse tipo de assistente de IA.
Isso vai mudar em breve. AntrópicoAssim, Google DeepMinde Openai TODOS os modelos experimentais recentemente revelados que podem usar os computadores da maneira como as pessoas fazem – pesquisando a Internet para obter informações, preencher formulários e clicar em botões. Com um pouco de orientação do usuário humano, eles podem pensar como compras de pedidos, ligue para um Uberprocure o melhor preço para um produto ou encontre um voo para suas próximas férias. E embora esses modelos iniciais tenham habilidades limitadas e ainda não estejam amplamente disponíveis, eles mostram a direção que a IA está indo.
“Esta é apenas a IA clicando”, disse Sam Altman, CEO da Openai, em um vídeo de demonstração Enquanto ele assistia o agente do Openai, chamado operador, navegar para o OpenTable, procure um restaurante de São Francisco e verifique uma mesa para duas às 19h.
Zachary Liptonprofessor associado de aprendizado de máquina no Carnegie Mellon Universidade, observa isso Agentes da IA já estão sendo incorporados em software program especializado para diferentes tipos de clientes corporativos, como vendedores, médicos e advogados. Mas até agora, não vimos agentes de IA que podem “fazer coisas de rotina no seu laptop computer”, diz ele. “O que é intrigante aqui eué a possibilidade de as pessoas começarem a entregar as chaves. ”
Agentes de IA de antropia, Google DeepMinde Openai
Antrópico foi o primeiro a revelar essa nova funcionalidade, com um anúncio Em outubro, o seu Claude Chatbot agora pode “usar os computadores da maneira como os humanos fazem”. A empresa enfatizou que estava dando aos modelos essa capacidade como um Teste beta públicoe que está disponível apenas para desenvolvedores que estão construindo ferramentas e produtos no topo do antropal grandes modelos de linguagem. Claude navega visualizando capturas de tela do que o usuário vê e contando os pixels necessários para mover o cursor para um determinado native para um clique. Um porta -voz da Antrópico diz que Claude pode fazer esse trabalho em qualquer computador e em qualquer aplicativo de desktop.
Em seguida, fora do portão foi o Google DeepMind com seu Projeto Marinerconstruído em cima do modelo de idioma Gemini 2 do Google. A empresa mostrou a Mariner em dezembro, mas a chamou de “protótipo de pesquisa inicial” e disse que está apenas disponibilizando a ferramenta para “testadores confiáveis”. Como outra precaução, o Mariner atualmente opera apenas dentro do navegador Chrome e somente dentro de uma guia ativa, o que significa que ela não será executada em segundo plano enquanto você trabalha em outras tarefas. Embora esse requisito pareça derrotar um pouco o objetivo de ter um ajudante de IA que economiza tempo, provavelmente é apenas uma condição temporária para esse estágio inicial de desenvolvimento.
Finalmente, em janeiro, o Openai lançou seu agente de uso de computador (CUA), chamado Operador. O OpenAI chamou de “pré -visualização de pesquisa” e o disponibilizou apenas para usuários que pagam US $ 200 por mês pelo serviço premium da OpenAI, embora a empresa tenha dito que está trabalhando em direção a um lançamento mais amplo. Yash Kumarum engenheiro da equipe do operador, diz que a ferramenta pode trabalhar com essencialmente qualquer web site. “Estamos começando com o navegador, porque é aí que acontece a maioria do trabalho”, diz Kumar. Mas ele observa que “o modelo CUA também é treinado para usar um computador, por isso é possível que possamos expandi -lo” para trabalhar com outros aplicativos de desktop.
Como os outros, o operador conta com Raciocínio da cadeia de pensamentos para receber instruções e dividi-las em uma série de tarefas que ela pode concluir. Se ele precisar de mais informações para concluir uma tarefa – como, por exemplo, se você preferir comprar cebolas vermelhas ou amarelas -, ele fará uma pausa e solicitará a entrada. Ele também pede confirmação antes de dar uma etapa last, como reservar a mesa do restaurante ou fazer a ordem do supermercado.
Preocupações de segurança para agentes de uso de computador
Aqui estão algumas coisas que os agentes de uso de computador ainda não podem fazer: faça login nos websites, concorde com os termos de serviço, resolva o captchas e insira cartão de crédito ou outros detalhes de pagamento. Se um agente enfrentar um desses obstáculos, ele entrega o volante de volta ao usuário humano. O OpenAI observa que o operador não tira capturas de tela do navegador enquanto o usuário está inserindo informações de login ou pagamento.
Todas as três empresas observaram que colocar uma IA encarregada do seu computador pode representar riscos de segurança. Antrópico aumentou especificamente a preocupação de Ataques de injeção imediataou maneiras pelas quais atores maliciosos podem adicionar algo ao immediate do usuário para fazer o modelo tomar uma ação inesperada. “Como Claude pode interpretar capturas de tela de computadores conectados ao Webé possível que possa ser exposto ao conteúdo que inclua ataques rápidos de injeção ”, escreveu Anthropic em um Postagem do weblog.
Lipton, da CMU, diz que as empresas não revelaram muitas informações sobre os agentes de uso de computador e como elas funcionam, por isso é difícil avaliar os riscos. “Se alguém está fazendo com que seu operador de computador faça algo nefasto, isso significa que eles já têm acesso ao seu computador?” Ele se pergunta e, se sim, por que o maldito não agiria diretamente?
Ainda assim, diz Lipton, com todas as ações que realizamos e compras que fazemos on -line: “Não é necessário um salto selvagem de imaginação para imaginar ações que deixariam o usuário em um picles”. Por exemplo, ele diz: “Quem será a primeira pessoa que acorda e diz: ‘Meu (agente) me comprou uma frota de carros?'”
O futuro dos agentes de uso de computador
Embora nenhuma das empresas tenha revelado um cronograma para tornar amplamente disponíveis seus agentes de uso de computador, parece provável que os consumidores comecem a ter acesso a eles este ano-por meio das grandes empresas de IA ou por meio de startups criando knockoffs mais baratos.
Kumar, do Openai, diz que é um momento emocionante, e esse operador marca um passo em direção a um futuro mais colaborativo para humanos e IA. “É um trampolim em nosso caminho para a AGI”, diz ele, referindo-se ao prolongado sonho/pesadelo de Inteligência Geral Synthetic. “A capacidade de usar as mesmas interfaces e ferramentas com as quais os humanos interagem diariamente amplia a utilidade da IA, ajudando as pessoas a economizar tempo nas tarefas diárias”.
Se você se lembra do filme presciente de 2013 DelaParece que estamos nos aproximando do mundo que existia no início do filme, antes que Samantha, de voz sensual, começasse a falar no ouvido do protagonista. É um mundo em que todos têm uma IA chata e neutra para ajudá -los a ler e responder a mensagens e cuidar de outras tarefas mundanas. Quando as empresas de IA atingirem solidamente esse objetivo, sem dúvida começarão a trabalhar em Samantha.
Dos artigos do seu web site
Artigos relacionados ao redor da internet