Os sinais são óbvios – Hackster.io



Os sinais são óbvios – Hackster.io

A linguagem de sinais é um importante meio de comunicação para surdos e deficientes auditivos, oferecendo uma janela para um mundo que de outra forma seria amplamente inacessível. A combinação de movimentos das mãos, expressões faciais e linguagem corporal na sinalização permite que os indivíduos transmitam suas ideias com sutileza e precisão notável.

No entanto, a linguagem gestual não é universalmente compreendida, resultando em barreiras de comunicação significativas para aqueles que dela dependem. Para agravar este desafio está a existência de múltiplas línguas de sinais em todo o mundo, cada uma com características próprias e distintas, análogas à diversidade das línguas faladas. Um tradutor confiável percorreria um longo caminho para resolver esse problema, pois eliminaria os encargos substanciais que acompanham o aprendizado da linguagem de sinais.

As abordagens baseadas na visão computacional oferecem muitas promessas nessa frente. Ao usar essa abordagem, apontar a câmera de um smartphone para um indivíduo enquanto ele assina pode ser o suficiente para ver uma tradução. Mas os algoritmos existentes tendem a se concentrar apenas em certos aspectos da sinalização, como os movimentos das mãos. Como tudo, desde movimentos do corpo até expressões faciais, influencia o significado que um sinalizante está tentando transmitir, essas técnicas às vezes são imprecisas. Além disso, as ações que um signatário realiza podem ser muito sutis, o que causa outros problemas para as atuais abordagens baseadas em visão computacional.

Uma equipe liderada por pesquisadores da Universidade Metropolitana de Osaka fez recentemente progressos na superação desses problemas atuais. Eles desenvolveram um romance método de reconhecimento de linguagem de sinais em nível de palavra (WSLR) usando uma rede neural multi-stream (MSNN) que integra várias fontes de informação. Ao capturar todas as informações que o signatário está tentando transmitir e analisá-las com um algoritmo que pode reconhecer pequenos detalhes, eles demonstraram que a precisão da tradução pode ser significativamente melhorada.

O MSNN dos pesquisadores consiste em três fluxos principais: (1) um fluxo base que captura movimentos globais da parte superior do corpo por meio de aparência e informações de fluxo óptico, (2) um fluxo de imagem native que amplia e foca características detalhadas das mãos e do rosto, e (3) um fluxo de esqueleto que analisa as posições relativas do corpo e das mãos usando uma rede convolucional de gráfico espaço-temporal. Ao combinar esses fluxos, o método melhora a precisão do reconhecimento de detalhes refinados em gestos de linguagem de sinais, ao mesmo tempo que minimiza a influência do ruído de fundo.

O método proposto foi validado utilizando dois conjuntos de dados para reconhecimento da Língua Americana de Sinais: WLASL e MS-ASL. O WLASL foi utilizado para testar a escalabilidade devido à sua grande variedade de lessons, enquanto o MS-ASL testou a precisão do sistema sob diversos pontos de vista. O pré-processamento envolveu a detecção de caixas delimitadoras de signatários usando YOLOv3 ou SSD, redimensionamento e aplicação de aumento de dados, incluindo corte aleatório e inversão horizontal, para aumentar a robustez do modelo.

Avaliações quantitativas compararam o MSNN proposto com duas linhas de base e métodos de última geração. Os resultados mostraram melhorias significativas na precisão ao incorporar imagens locais e fluxos de esqueleto, especialmente para sinais desafiadores com diferenças sutis de gestos. Por exemplo, a precisão High-1 no WLASL100 aumentou 10,71% com o fluxo native e 5,18% com o fluxo esqueleto.

A equipe planeja melhorar a precisão do reconhecimento de seu modelo no futuro, estendendo sua pesquisa a ambientes mais realistas, com diversos signatários e experiências complexas. Eles também pretendem generalizar seu método para outras línguas de sinais, como as línguas de sinais britânica, japonesa e indiana, por meio de experimentos e modificações adicionais. Em última análise, o seu objetivo é expandir a estrutura para apoiar o reconhecimento contínuo da linguagem gestual, proporcionando uma assistência valiosa à comunidade com deficiência auditiva.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *