Em fevereiro de 2024, o Reddit fez um acordo de US $ 60 milhões com o Google para permitir que a gigante da pesquisa use dados na plataforma para treinar seus modelos de inteligência synthetic. Notavelmente ausente das discussões foram usuários do Reddit, cujos dados estavam sendo vendidos.
O acordo refletiu a realidade da Web moderna: as grandes empresas de tecnologia possuem praticamente todos os nossos dados on -line e decidem o que fazer com esses dados. Sem surpresa, muitas plataformas monetizam seus dados e a maneira mais rápida de realizar isso hoje é vendê-los para empresas de IA, que são empresas de tecnologia enormes que usam os dados para treinar modelos cada vez mais poderosos.
A plataforma descentralizada Vana, que começou como um projeto de classe no MIT, está em uma missão de devolver o poder aos usuários. A empresa criou uma rede totalmente de propriedade do usuário que permite que os indivíduos enviem seus dados e governem como são usados. Os desenvolvedores de IA podem lançar usuários em idéias para novos modelos e, se os usuários concordarem em contribuir com seus dados para treinamento, eles obtêm propriedade proporcional nos modelos.
A idéia é dar a todos uma participação nos sistemas de IA que moldarão cada vez mais nossa sociedade, além de desbloquear novos swimming pools de dados para avançar na tecnologia.
“Esses dados são necessários para criar melhores sistemas de IA”, diz Anna Kazlauskas ’19. “Criamos um sistema descentralizado para obter melhores dados – que está dentro de grandes empresas de tecnologia hoje – enquanto ainda permite que os usuários mantenham a propriedade last”.
Da economia ao blockchain
Muitos alunos do ensino médio têm fotos de estrelas pop ou atletas nas paredes do quarto. Kazlauskas tinha uma foto da ex -secretária do Tesouro dos EUA, Janet Yellen.
Kazlauskas teve certeza de que ela se tornou economista, mas acabou sendo uma das cinco estudantes a se juntar ao MIT Bitcoin Membership em 2015, e essa experiência a levou ao mundo das blockchains e da criptomoeda.
De seu dormitório em MacGregor Home, ela começou a minerar a criptomoeda Ethereum. Ela até ocasionalmente vasculhava as lixeiras do campus em busca de chips de computador descartados.
“Isso me interessou em tudo sobre ciência da computação e networking”, diz Kazlauskas. “Isso envolveu, do ponto de vista da blockchain, dos sistemas distribuídos e como eles podem mudar o poder econômico para os indivíduos, bem como a inteligência synthetic e a econometria”.
Kazlauskas conheceu Artwork Abal, que estava na Universidade de Harvard, na antiga classe de mídia emergente da classe de laboratório, e a dupla decidiu trabalhar em novas maneiras de obter dados para treinar sistemas de IA.
“Nossa pergunta period: como você poderia ter um grande número de pessoas contribuindo para esses sistemas de IA usando mais uma rede distribuída?” Kazlauskas lembra.
Kazlauskas e Abal estavam tentando abordar o establishment, onde a maioria dos modelos é treinada eliminando dados públicos na Web. As grandes empresas de tecnologia geralmente também compram grandes conjuntos de dados de outras empresas.
A abordagem dos fundadores evoluiu ao longo dos anos e foi informada pela experiência de Kazlauskas trabalhando na empresa de blockchain financeira Celo após a formatura. Mas Kazlauskas credita seu tempo no MIT por ajudá -la a pensar nesses problemas, e a instrutora de empreendimentos emergentes, Ramesh Raskar, ainda ajuda a Vana a pensar hoje em questões de pesquisa de IA.
“Foi ótimo ter uma oportunidade aberta de construir, invadir e explorar”, diz Kazlauskas. “Eu acho que o ethos do MIT é realmente importante. É apenas construir coisas, ver o que funciona e continuar a iterar”.
Hoje, o Vana aproveita uma lei pouco conhecida que permite que os usuários da maioria das grandes plataformas de tecnologia exportem seus dados diretamente. Os usuários podem fazer add dessas informações em carteiras digitais criptografadas no Vana e desembolsá -las para treinar modelos como acharem o ajuste.
Os engenheiros da IA podem sugerir idéias para novos modelos de código aberto, e as pessoas podem reunir seus dados para ajudar a treinar o modelo. No mundo da blockchain, os swimming pools de dados são chamados de DAOS, que significa organização autônoma descentralizada. Os dados também podem ser usados para criar modelos e agentes de IA personalizados.
No vana, os dados são usados de uma maneira que preserva a privacidade do usuário porque o sistema não expõe informações identificáveis. Depois que o modelo é criado, os usuários mantêm a propriedade para que toda vez que seja usada, eles são recompensados proporcionalmente com base em quanto seus dados os ajudaram.
“Do ponto de vista de um desenvolvedor, agora você pode criar esses aplicativos de saúde hiper-personalizados que levam em consideração exatamente o que você comeu, como dormiu, como se exercita”, diz Kazlauskas. “Essas aplicações não são possíveis hoje por causa dos jardins murados das grandes empresas de tecnologia”.
AI de propriedade de crowdsourced, de propriedade do usuário
No ano passado, um engenheiro de aprendizado de máquina proposto usando dados do usuário do VANA para treinar um modelo de IA que poderia gerar postagens do Reddit. Mais de 140.000 usuários do VANA contribuíram com seus dados do Reddit, que continham postagens, comentários, mensagens e muito mais. Os usuários decidiram os termos em que o modelo poderia ser usado e mantiveram a propriedade do modelo depois que ele foi criado.
A VANA permitiu iniciativas semelhantes com dados contribuídos pelo usuário da plataforma de mídia social X; Dados do sono de fontes como Rings Ores; e mais. Também existem colaborações que combinam swimming pools de dados para criar aplicativos de IA mais amplos.
“Digamos que os usuários tenham dados do Spotify, dados do Reddit e dados de moda,” Kazlauskas explica. “Geralmente, o Spotify não vai colaborar com esses tipos de empresas, e na verdade há regulamentação contra isso. Mas os usuários podem fazê-lo se concederem acesso; portanto, esses conjuntos de dados entre plataformas podem ser usados para criar modelos realmente poderosos”.
O VANA tem mais de 1 milhão de usuários e mais de 20 dados ao vivo DAOS. Mais de 300 swimming pools de dados adicionais foram propostos pelos usuários no sistema da Vana, e Kazlauskas diz que muitos entrarão em produção este ano.
“Acho que há muitas promessas nos modelos generalizados de IA, medicina personalizada e novos aplicativos de consumidores, porque é difícil combinar todos esses dados ou obter acesso a eles em primeiro lugar”, diz Kazlauskas.
Os swimming pools de dados estão permitindo que grupos de usuários realizem algo que as empresas de tecnologia mais poderosas lutam hoje.
“Hoje, as grandes empresas de tecnologia construíram esses fossos de dados, portanto os melhores conjuntos de dados não estão disponíveis para ninguém”, diz Kazlauskas. “É um problema de ação coletiva, onde meus dados por conta própria não são tão valiosos, mas um pool de dados com dezenas de milhares ou milhões de pessoas é realmente valioso. O Vana permite que esses swimming pools sejam construídos. É um ganho de ganho.