O verão atual da IA está escaldante, e isso tem as expectativas de todos funcionando alto. Há um sentimento de que grandes inovações, como a inteligência geral synthetic, podem estar ao virar da esquina – mesmo que, na realidade, seja muito mais provável que eles ainda estejam a muitos anos. Essa emoção também agarrou os pesquisadores no campo que estão se esforçando para atender às expectativas elevadas das pessoas enquanto o sol do verão continua a brilhar. Construir a próxima grande novidade envolve mover -se rapidamente e criar coisas maiores e melhores o tempo todo. Quando seu modelo mais recente já desenha tanto poder quanto uma cidade pequena, o que importa se você adicionar alguns bilhões de mísero a mais parâmetros a ela? Se tiver um desempenho melhor, isso é tudo o que importa, certo? Golpe enquanto o ferro estiver quente ou seja uma nota de rodapé nos livros de história de amanhã! Essa atitude predominante está fazendo com que o campo avançasse aos trancos e barrancos; portanto, de certa forma, seria difícil argumentar contra ele. Mas não devemos esquecer que também há espaço para otimização dos algoritmos mais recentes. Pode não ser tão fascinante de um trabalho, mas se ninguém puder executar os modelos devido aos seus requisitos extravagantes para recursos computacionais, eles serão limitados em seus impactos no mundo actual. Uma equipe da Dalian College of Expertise reconhece a importância de diminuir os requisitos de {hardware} dos modelos de primeira linha, para que eles colocassem rastreadores visuais baseados em transformadores. Esses algoritmos são essenciais para tudo, desde dirigir autônomo até visão robótica, por isso são muito importantes no mundo da tecnologia. Mas eles também estão entre os maiores porcos de recursos, o que significa que realmente os bordo de um robô ou veículo a uma taxa de quadros razoáveis é um grande desafio. Para resolver isso, os pesquisadores desenvolveram um sucesso, uma família de rastreadores visuais eficientes que mantêm um forte desempenho, enquanto melhoram drasticamente a velocidade e a eficiência computacional. A principal inovação por trás de Hit reside em seu módulo Bridge, que funde informações semânticas de alto nível com detalhes de baixo nível de grão fino. Isso ajuda a compensar a perda de resolução espacial comumente causada pela redução de redução de alto ataque nos backbones dos transformadores leves. Além disso, o HIT incorpora uma nova técnica de codificação de posição de imagem dupla que codifica simultaneamente as informações posicionais do objeto de destino (modelo) e da cena circundante (área de pesquisa), permitindo rastreamento mais preciso. Em execução na plataforma NVIDIA Jetson AGX, atinge corridas em impressionantes 61 quadros por segundo (FPS), enquanto assegura uma pontuação competitiva de 64,6% da AUC no benchmark LASOT. Esses resultados superam todos os rastreadores visuais eficientes anteriores. A equipe também introduziu a Dyhit, um rastreador dinâmico que adapta sua estratégia computacional com base na complexidade de cada cena. Usando um roteador leve a recursos, Dyhit determina se é necessária uma rota de processamento rápida e rasa é suficiente ou, se mais profunda e mais complexa, é necessária uma análise. Esse método de divisão e conquista conserva recursos computacionais em cenários simples, mantendo alta precisão para os complexos. A variante Dyhit mais rápida relata a 111 fps no mesmo {hardware} do Jetson, com apenas um pequeno mergulho na AUC a 62,4%. Esse equilíbrio entre velocidade e desempenho é um grande salto adiante para implantar a IA em ambientes do mundo actual, onde os orçamentos de energia e processamento são apertados. Além desses novos modelos, a equipe também desenvolveu uma técnica de aceleração sem treinamento que os rastreadores de alto desempenho existentes. Ao integrar o mecanismo de roteamento eficiente da Dyhit, rastreadores populares como o SEQTRACK-B256 agora podem correr 2,7 vezes mais rápido sem sacrificar a precisão. Essa abordagem inteligente de plug-in permite que os desenvolvedores espremem mais seus modelos existentes sem precisar de reciclagem dispendiosa ou revisões arquitetônicas. Tomados em conjunto, esses avanços podem tornar a IA de alto desempenho mais acessível e prática em um futuro próximo. Algoritmos visuais de rastreamento em ação (📷: B. Kang et al.) A arquitetura de Hit (📷: B. Kang et al.) Apesar do aumento da velocidade, o desempenho é mantido (B. Kang et al.)