A tecnologia Shengshu lança o modelo de treinamento físico de IA em várias visões VIDAR -itstec.com.br. All rights reserved.

O modelo de IA incorporado de Vidar de Shengshu usa mundos simulados em vez de dados de treinamento físico. Fonte: Adobe Inventory, VectorHub by Ice

A Shengshu Know-how Co. lançou ontem seu modelo de treinamento físico de IA em várias visualizações, Vidar-que significa “Difusão de vídeo para o raciocínio de ação”. Usando os recursos da Vidu em entendimento semântico e de vídeo, a Vidar usa um conjunto limitado de dados físicos para simular a tomada de decisão de um robô em ambientes do mundo actual, disse a empresa.

“A Vidar oferece uma abordagem radicalmente diferente para o treinamento de modelos incorporados de IA”, afirmou a tecnologia Shengshu. “Assim como a Tesla se concentra no treinamento baseado na visão e a Waymo se inclina para o Lidar, a indústria está explorando caminhos divergentes para a IA física”.

Fundada em março de 2023, a Shengshu Know-how é especializada no desenvolvimento de modelos de grandes idiomas multimodais (LLMS). A empresa com sede em Pequim disse que oferece produtos de mobilidade como serviço (MAAs) e software program como serviço (SaaS) para criação de conteúdo mais inteligente, mais rápida e escalável.

Com sua plataforma de geração de vídeo principal ViduShengshu disse que alcançou usuários em mais de 200 países e regiões em todo o mundo, abrangendo campos, incluindo entretenimento interativo, publicidade, cinema, animação, turismo cultural e muito mais.

Vidar simulou treinamento para acelerar o desenvolvimento de robôs

“Enquanto algumas empresas treinam físicas Ai Ao incorporar modelos em robôs do mundo actual e coletar dados através das interações físicas que seus robôs encontram, é um método caro, dependente de {hardware} e difícil de escalar “, disse a tecnologia Shengshu.

Vidar adota uma abordagem diferente, afirmou a empresa. Ele combina dados de treinamento físico limitados com vídeo generativo para fazer previsões e gerar novos cenários hipotéticos, criando uma visão de várias vistas simulação Apresentando ambientes de treinamento realistas, tudo dentro de um espaço digital. Isso permite um treinamento mais robusto e escalável sem tempo, custo ou limitações da coleta de dados do mundo físico, explicou Shengshu.

Construído sobre o modelo de vídeo generativo do Vidu, o Vidar pode executar tarefas de manipulação de braço duplo com previsão de vídeo com várias visualizações e até responder a comandos de voz em língua pure após o ajuste fino. O modelo Efetivamente, serve como um cérebro digital para ação do mundo actual, disse a empresa.

Usando o mecanismo de vídeo generativo da Vidu, o Vidar gera simulações em larga escala para reduzir a dependência de dados físicos, mantendo a complexidade e a riqueza necessárias para treinar agentes de IA com capacidade para o mundo actual. Shengshu disse que o Vidar pode extrapolar uma série generalizada de ações e tarefas robóticas de apenas 20 minutos de dados de treinamento. A empresa afirmou que está entre 1/80 e 1/1.200 dos dados necessários para treinar modelos líderes do setor, incluindo RDT e π0.5.

Shengshu disse que a principal inovação da Vidar está em sua arquitetura modular de aprendizado de dois estágios. Diferentemente dos métodos tradicionais que mesclam percepção e controle, Vidar os separa em dois estágios distintos para maior flexibilidade e escalabilidade.

No estágio a montante, os dados gerais de vídeo em larga escala e os dados de vídeo incorporados em escala moderada são usados para treinar o modelo de Vidu para o entendimento perceptivo.

No segundo estágio a jusante, um modelo agnóstico de tarefa chamado Anypos transforma esse entendimento visible em comandos de motores acionáveis para robôs. Essa separação torna significativamente mais fácil e mais rápido treinar e implantar IA em diferentes tipos de robôs, reduzindo os custos e aumentando a escalabilidade.

O Vidar pode reduzir a quantidade de dados de treinamento necessários para treinar modelos de IA, diz a tecnologia Shengshu.

O Vidar foi projetado para reduzir a quantidade de dados de treinamento necessários para treinar os modelos de IA. Fonte: Tecnologia Shengshu.

Vidar uma estrutura para inteligência incorporada escalável

O Vidar segue uma estrutura de treinamento escalável, inspirada nos modelos de linguagem e imagem da última década de avanços da IA. Shengshu disse que sua pirâmide de dados de três camadas, abrangendo vídeo genérico em larga escala, dados de vídeo incorporado e exemplos específicos de robôs, contribui para um sistema mais flexível, reduzindo o gargalo tradicional de dados.

Construído sobre a arquitetura U-Vit, que explora a fusão de modelos de difusão e arquiteturas de transformadores para uma ampla variedade de tarefas de geração multimodal, o Vidar aproveita a modelagem temporal de longo prazo e a consistência de vídeo com vários ângulos para a tomada de decisões fisicamente fundamentadas.

Esse design suporta a rápida transferência da simulação para a implantação do mundo actual, que Shengshu disse que é basic para a robótica em ambientes dinâmicos. Ele também minimiza a complexidade da engenharia, de acordo com a empresa,

Shengshu disse que a Vidar pode facilitar a adoção de robótica em vários setores. De assistentes domésticos e cuidados de idosos à fabricação inteligente e robótica médica, o modelo permite uma adaptação rápida a novos ambientes e cenários de várias tarefas, todos com dados mínimos, acrescentou.

Vidar cria um caminho nativo para o desenvolvimento da robótica eficiente, escalável e econômico, afirmou Shengshu. Ao transformar o vídeo geral em inteligência robótica acionável, a empresa disse que seu modelo pode preencher a lacuna entre o entendimento visible e a agência incorporada.

Vidar tem uma arquitetura de aprendizado modular, de acordo com a tecnologia Shengshu.

Vidar tem uma arquitetura de aprendizado modular. Fonte: Tecnologia Shengshu

Shengshu marca os marcos em IA multimodal

Vidar se baseia no rápido impulso do modelo de Fundação de Video Vidu, disse Shengshu. A empresa listou estatísticas desde sua estréia:

Vidu atingiu 1 milhão de usuários dentro de um mês
Superou 10 milhões de usuários em apenas três meses
Gerou mais de 100 milhões de vídeos até o mês 4
A geração de referência para o videão excedeu 100 milhões no mês 8
Whole de vídeos gerados agora com os 300 milhões de 300 milhões

Shengshu continua a expandir as fronteiras da IA multimodal, o Vidar representa a próxima fronteira – generalização, generatividade e modalidade da criação em um sistema unificado.

Nota do editor: Robobusiness 2025, que será nos dias 15 e 16 de outubro em Santa Clara, Califórnia, incluirá faixas em AI física e humanóide robôs. O registro está agora aberto.

A tecnologia Shengshu lança o modelo de treinamento físico de IA em várias visões VIDAR

Vidar simulou treinamento para acelerar o desenvolvimento de robôs

Vidar uma estrutura para inteligência incorporada escalável

Shengshu marca os marcos em IA multimodal

Deixe um comentário Cancelar resposta

K1000ULE testa operações cross-country com Pendleton UAS

DJI tem aprovação da FCC para o Avata 360 (não, NÃO está proibido!)

Modelos de DNA para design de nanomateriais 3D

Biossensor de ponto excepcional alcança detecção de molécula única de biomarcador de câncer de mama

Rota de preservação de simetria para isoladores de ordem superior – Physics World

Nanofibras ainda lutam pelo sucesso industrial após 25 anos

CypressTel fala sobre SD-WAN, SASE e é a porta de entrada para a China

4G em todas as aldeias da Índia até junho de 2026: Jyotiraditya Scindia

Resumo semanal da AWS: AWS Lambda para .NET 10, início rápido do AWS Shopper VPN, Better of AWS re:Invent e muito mais (12 de janeiro de 2026)

Uma plataforma de IA pode substituir sua pilha de ferramentas criativas?

Resumo semanal da AWS: AWS Lambda para .NET 10, início rápido do AWS Shopper VPN, Better of AWS re:Invent e muito mais (12 de janeiro de 2026)

“Momento ChatGPT” enquanto Siemens e NVIDIA expandem parceria para desenvolver um sistema operacional industrial de IA