As tecnologias mais profundas são aquelas que desaparecem. Eles se entregam no tecido da vida cotidiana até que sejam indistinguíveis dele.
– Mark Weiser
Muitos de nós cresceram assistindo Star Trek, onde a equipe poderia simplesmente falar com o computador e entenderia não apenas suas palavras, mas sua intenção. “Computador, localize o Sr. Spock” não period apenas sobre reconhecimento de voz – period sobre compreensão, contexto e ação. Essa visão da computação ambiente, onde a interface desaparece e a interação se torna pure (fala, gestos and so on. é uma estrela do norte para cientistas e construtores há décadas.
A Fundação de Pesquisa de Computação para fazer desta Visão um Realty foi apresentado em 1988 por Mark Weiser de Xerox Parc Quando ele cunhou o termo Computação ubiqutious. Marcar junto com John Seely Brown definiu o conceito de Computação calma tendo estes atributos:
- O objetivo de um computador é ajudá -lo a fazer outra coisa.
- O melhor computador é um servo silencioso e invisível.
- Quanto mais você pode fazer por intuição, mais inteligente você é; O computador deve estender seu inconsciente.
- A tecnologia deve criar calma.
Quando a Amazon lançou o Alexa em 2014, não fomos os primeiros a comercializar com reconhecimento de voz. Dragon estava convertendo a fala em texto há décadas, e tanto a Siri quanto a Cortana já estavam ajudando os usuários com tarefas básicas. Mas Alexa representou algo diferente – um extensível Serviço de voz em que os desenvolvedores poderiam construir. Qualquer pessoa com uma boa ideia e habilidades de codificação pode contribuir para as capacidades do Alexa.
Lembro -me de construir meu primeiro dispositivo Alexa DIY com um Raspberry Pi, um microfone de US $ 5 e alto -falante barato. Custou menos de US $ 50 e eu estava trabalhando em menos de uma hora. A experiência não foi perfeita, mas foi desgastada. Os construtores ficaram empolgados com o potencial da voz como uma interface – especialmente quando eles poderiam construí -la.

No entanto, os primeiros dias de desenvolvimento de habilidades não estavam sem desafios. Nosso primeiro modelo de interação foi baseado em turnos – como interfaces de linha de comando da década de 1970, mas com voz. Os desenvolvedores tiveram que antecipar frases exatas (e manter listas extensas de enunciados), e os usuários tiveram que se lembrar de padrões específicos de invocação. “Alexa, pergunte (nome da habilidade) para (faça algo)” tornou -se um padrão acquainted, mas não pure. Com o tempo, simplificamos isso com recursos como interações sem nome e diálogos de várias turnos, mas ainda fomos restringidos pelas limitações fundamentais da correspondência de padrões e da classificação de intenções.
A IA generativa nos permite adotar uma abordagem diferente para interfaces de voz. Alexa+ e nossos novos SDKs nativos da AI Remova as complexidades do entendimento da linguagem pure da carga de trabalho do desenvolvedor. O Alexa AI Motion SDK, por exemplo, permite que os desenvolvedores exponham seus serviços por meio de APIs simples, permitindo que os grandes modelos de idiomas de Alexa lidem com as nuances da conversa humana. Nos bastidores, um sistema de roteamento sofisticado usando modelos da Amazon Bedrock – incluindo Amazon Nova e Claude antrópico– Matches cada solicitação com o modelo splendid para a tarefa, equilibrando os requisitos para precisão e fluidez de conversação.
Essa mudança dos padrões de comando explícitos para a conversa pure me lembra a evolução das interfaces de banco de dados. Nos primeiros dias dos bancos de dados relacionais, as consultas tiveram que ser estruturadas com precisão. A introdução da consulta de linguagem pure, embora inicialmente encontrada com ceticismo, tornou -se cada vez mais poderosa e precisa. Da mesma forma, o Alexa+ agora pode interpretar uma solicitação informal como “Eu preciso de alguns quadros de imagem branca rústica, cerca de 11 por 17” em uma pesquisa estruturada, manter o contexto através de refinamentos e executar a transação – enquanto se sentia como uma conversa que você teria com outra pessoa.
Para os construtores, isso representa uma mudança basic na maneira como construímos experiências de voz. Em vez de mapear expressões para as intenções, podemos nos concentrar em expor nossa lógica de negócios principal através da APIs e permitir que o Alexa lide com as complexidades do entendimento da linguagem pure. E para serviços sem APIs externalizadas, adicionamos recursos agênticos que permitem que o Alexa+ navegue em interfaces e espaços digitais, como expandiríamos significativamente as tarefas que ele pode realizar.
A visão de Jeff period construir o computador Star Trek. Dez anos atrás, esse period um objetivo ambicioso. Percorremos um longo caminho desde então – desde comandos básicos de voz até interfaces muito mais conversacionais. A IA generativa está nos dando um vislumbre do que é possível. E embora ainda não estivéssemos voando em naves espaciais alimentadas por voz, os problemas técnicos fundamentais da compreensão da linguagem pure e da ação autônoma estão se tornando tratáveis.
A equipe Alexa+ está aceitando pedidos de acesso antecipado aos SDKs nativos da IA. Você pode Inscreva -se aqui. Dez anos depois, e estou tão animado como sempre para ver o que os construtores sonham.
Como sempre, agora vá construir!