OpenAI lança Operador – um agente que pode usar um computador para você


Assim como o Laptop Use da Anthropic e o Mariner do Google DeepMind, o Operator tira capturas de tela da tela de um computador e verifica os pixels para descobrir quais ações ele pode realizar. CUA, o modelo por trás dele, é treinado para interagir com as mesmas interfaces gráficas de usuário – botões, caixas de texto, menus – que as pessoas usam quando fazem coisas on-line. Ele verifica a tela, executa uma ação, verifica a tela novamente, executa outra ação e assim por diante. Isso permite que o modelo execute tarefas na maioria dos websites que uma pessoa pode usar.

“Tradicionalmente, a forma como os modelos usam software program é por meio de APIs especializadas”, diz Reiichiro Nakano, cientista da OpenAI. (Uma API, ou interface de programação de aplicativos, é um pedaço de código que atua como uma espécie de conector, permitindo que diferentes partes de software program sejam conectadas entre si.) Isso coloca muitos aplicativos e a maioria dos websites fora dos limites, diz ele. : “Mas se você criar um modelo que possa usar a mesma interface que os humanos usam diariamente, isso abrirá toda uma nova gama de software program que antes period inacessível.”

O CUA também divide as tarefas em etapas menores e tenta resolvê-las uma por uma, voltando atrás quando fica preso. A OpenAI afirma que o CUA foi treinado com técnicas semelhantes às utilizadas para o seu chamado modelos de raciocínioo1 e o3.

OpenAI lança Operador – um agente que pode usar um computador para você
O operador pode ser instruído a procurar acampamentos em Yosemite com boas mesas de piquenique.

OPENAI

A OpenAI testou o CUA em relação a uma série de benchmarks do setor projetados para avaliar a capacidade de um agente de realizar tarefas em um computador. A empresa afirma que seu modelo supera o Laptop Use e o Mariner em todos eles.

Por exemplo, no OSWorld, que testa quão bem um agente executa tarefas como mesclar arquivos PDF ou manipular uma imagem, o CUA pontua 38,1% contra 22,0% do Uso do Computador. Em comparação, os humanos pontuam 72,4%. Em um benchmark chamado WebVoyager, que testa quão bem um agente executa tarefas em um navegador, o CUA obteve 87%, o Mariner 83,5% e o uso do computador 56%. (O Mariner só pode realizar tarefas em um navegador e, portanto, não pontua no OSWorld.)

Por enquanto, o Operador também só pode realizar tarefas em um navegador. A OpenAI planeja disponibilizar capacidades mais amplas do CUA no futuro por meio de uma API que outros desenvolvedores possam usar para criar seus próprios aplicativos. Foi assim que a Anthropic lançou Laptop Use em dezembro.

OpenAI diz que testou a segurança do CUA, usando occasions vermelhos para explorar o que acontece quando os utilizadores lhe pedem para realizar tarefas inaceitáveis ​​(como pesquisar como fazer uma arma biológica), quando os web sites contêm instruções ocultas concebidas para inviabilizá-lo e quando o próprio modelo falha. “Treinamos o modelo para parar e pedir informações ao usuário antes de fazer qualquer coisa com efeitos colaterais externos”, diz Casey Chu, outro pesquisador da equipe.

Olhar! Sem mãos

Para usar o Operador, basta digitar as instruções em uma caixa de texto. Mas, em vez de acessar o navegador do seu computador, o Operador envia suas instruções para um navegador remoto executado em um servidor OpenAI. A OpenAI afirma que isso torna o sistema mais eficiente. É outra diferença importante entre Operator, Laptop Use e Mariner (que roda dentro do navegador Chrome do Google em seu próprio computador).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *