O que exatamente faz word2vec aprender e como? Responder a esta pergunta equivale a compreender a aprendizagem de representação em uma tarefa de modelagem de linguagem mínima, mas interessante. Apesar do fato de que word2vec é um precursor bem conhecido dos modelos de linguagem modernos, por muitos anos, os pesquisadores careciam de uma teoria quantitativa e preditiva que descrevesse seu processo de aprendizagem. Em nosso novo papelfinalmente fornecemos tal teoria. Provamos que existem regimes realistas e práticos nos quais o problema de aprendizagem se reduz a fatoração de matriz de mínimos quadrados não ponderada. Resolvemos a dinâmica do fluxo gradiente de forma fechada; as representações finais aprendidas são simplesmente fornecidas pelo PCA.
![]()
Dinâmica de aprendizagem do word2vec. Quando treinado a partir de uma pequena inicialização, o word2vec aprende em etapas sequenciais e discretas. Esquerda: etapas de aprendizagem que aumentam a classificação na matriz de pesos, cada uma diminuindo a perda. À direita: três fatias de tempo do espaço de incorporação latente mostrando como os vetores de incorporação se expandem em subespaços de dimensão crescente em cada etapa de aprendizagem, continuando até que a capacidade do modelo esteja saturada.
Antes de elaborar este resultado, vamos motivar o problema. word2vec é um algoritmo bem conhecido para aprender representações vetoriais densas de palavras. Esses vetores de incorporação são treinados usando um algoritmo contrastivo; no ultimate do treinamento, a relação semântica entre quaisquer duas palavras é capturada pelo ângulo entre os encaixes correspondentes. Na verdade, os embeddings aprendidos exibem empiricamente uma estrutura linear impressionante em sua geometria: subespaços lineares no espaço latente muitas vezes codificam conceitos interpretáveis como gênero, tempo verbal ou dialeto. Este chamado hipótese de representação linear recentemente atraiu muita atenção desde LLMs também exibem esse comportamentopermitindo inspeção semântica de representações internas e proporcionando novas técnicas de direção de modelo. Em word2vecsão precisamente essas direções lineares que permitem que as incorporações aprendidas completem analogias (por exemplo, “homem: mulher:: rei: rainha”) por meio da adição de vetores de incorporação.
Talvez isto não deva ser muito surpreendente: afinal, o word2vec O algoritmo simplesmente itera através de um corpus de texto e treina uma rede linear de duas camadas para modelar regularidades estatísticas em linguagem pure usando gradiente descendente auto-supervisionado. Neste enquadramento, fica claro que word2vec é um modelo de linguagem neural mínimo. Entendimento word2vec é, portanto, um pré-requisito para a compreensão do aprendizado de recursos em tarefas de modelagem de linguagem mais sofisticadas.
O resultado
Com essa motivação em mente, vamos descrever o resultado principal. Concretamente, suponha que inicializemos todos os vetores de incorporação aleatoriamente e muito próximos da origem, de modo que eles tenham efetivamente dimensão zero. Então (sob algumas aproximações moderadas) os embeddings aprendem coletivamente um “conceito” (ou seja, subespaço linear ortogonal) de cada vez, em uma sequência de etapas de aprendizagem discretas.
É como mergulhar de cabeça no aprendizado de um novo ramo da matemática. A princípio, todo o jargão fica confuso — qual é a diferença entre uma função e um funcional? Que tal um operador linear versus uma matriz? Lentamente, através da exposição a novos contextos de interesse, as palavras separam-se umas das outras na mente e os seus verdadeiros significados tornam-se mais claros.
Como consequência, cada novo conceito linear realizado aumenta efetivamente a classificação da matriz de incorporação, dando a cada palavra incorporada mais espaço para melhor se expressar e seu significado. Como esses subespaços lineares não giram depois de aprendidos, esses são efetivamente os recursos aprendidos do modelo. Nossa teoria nos permite calcular cada uma dessas características a priori em formulário fechado – eles são simplesmente os autovetores de uma matriz alvo específica que é definida apenas em termos de estatísticas de corpus mensuráveis e hiperparâmetros algorítmicos.
Quais são os recursos?
A resposta é extremamente simples: as características latentes são simplesmente os autovetores superiores da seguinte matriz:
(M^{star}_{ij} = frac{P(i,j) – P(i)P(j)}{frac{1}{2}(P(i,j) + P(i)P(j))})
onde $i$ e $j$ indexam as palavras no vocabulário, $P(i,j)$ é a probabilidade de co-ocorrência para palavras $i$ e $j$, e $P(i)$ é a probabilidade de unigrama para a palavra $i$ (ou seja, a marginal de $P(i,j)$).
Construindo e diagonalizando esta matriz a partir das estatísticas da Wikipédia, verifica-se que o autovetor superior seleciona palavras associadas a biografias de celebridades, o segundo autovetor seleciona palavras associadas ao governo e à administração municipal, o terceiro está associado a descritores geográficos e cartográficos, e assim por diante.
A conclusão é esta: durante o treinamento, word2vec encontra uma sequência de aproximações ótimas de classificação baixa de $M^{star}$. É efetivamente equivalente a executar o PCA em $M^{star}$.
Os gráficos a seguir ilustram esse comportamento.
![]()
Comparação da dinâmica de aprendizagem mostrando etapas de aprendizagem discretas e sequenciais.
À esquerda, a principal observação empírica é que word2vec (mais nossas aproximações moderadas) aprende em uma sequência de etapas essencialmente discretas. Cada etapa aumenta a classificação efetiva dos embeddings, resultando em uma diminuição gradual na perda. À direita, mostramos três fatias de tempo do espaço de incorporação latente, demonstrando como as incorporações se expandem ao longo de uma nova direção ortogonal em cada etapa de aprendizagem. Além disso, ao inspecionar as palavras que mais se alinham com essas direções singulares, observamos que cada “pedaço de conhecimento” distinto corresponde a um conceito interpretável em nível de tópico. Essas dinâmicas de aprendizagem podem ser resolvidas de forma fechada, e vemos uma excelente correspondência entre a teoria e o experimento numérico.
Quais são as aproximações moderadas? São elas: 1) aproximação quártica da função objetivo em torno da origem; 2) uma restrição explicit nos hiperparâmetros algorítmicos; 3) pesos de incorporação iniciais suficientemente pequenos; e 4) passos de descida gradiente cada vez mais pequenos. Felizmente, essas condições não são muito fortes e, na verdade, são bastante semelhantes ao cenário descrito no authentic. word2vec papel.
É importante ressaltar que nenhuma das aproximações envolve a distribuição dos dados! Na verdade, um enorme ponto forte da teoria é que ela não faz suposições distributivas. Como resultado, a teoria prevê exatamente quais recursos são aprendidos em termos das estatísticas do corpus e dos hiperparâmetros algorítmicos. Isto é particularmente útil, uma vez que descrições refinadas da dinâmica de aprendizagem no ambiente agnóstico em termos de distribuição são raras e difíceis de obter; até onde sabemos, este é o primeiro para uma tarefa prática de linguagem pure.
Quanto às aproximações que fazemos, mostramos empiricamente que o nosso resultado teórico ainda fornece uma descrição fiel do authentic word2vec. Como um indicador grosseiro da concordância entre o nosso cenário aproximado e o verdadeiro word2vecpodemos comparar as pontuações empíricas no benchmark de conclusão de analogia padrão: word2vec atinge 68% de precisão, o modelo aproximado que estudamos atinge 66% e a alternativa clássica padrão (conhecida como PPMI) obtém apenas 51%. Confira nosso artigo para ver gráficos com comparações detalhadas.
Para demonstrar a utilidade do resultado, aplicamos nossa teoria para estudar o surgimento de representações lineares abstratas (correspondentes a conceitos binários como masculino/feminino ou passado/futuro). Descobrimos que, ao longo do aprendizado, word2vec constrói essas representações lineares em uma sequência de etapas de aprendizagem ruidosas, e sua geometria é bem descrita por um modelo de matriz aleatória com picos. No início do treinamento, o sinal semântico domina; entretanto, mais tarde no treinamento, o ruído pode começar a dominar, causando uma degradação da capacidade do modelo de resolver a representação linear. Veja nosso artigo para mais detalhes.
Em suma, este resultado fornece uma das primeiras teorias completas de aprendizagem de características de forma fechada em uma tarefa de linguagem pure mínima, mas relevante. Nesse sentido, acreditamos que nosso trabalho é um passo importante no projeto mais amplo de obtenção de soluções analíticas realistas que descrevam o desempenho de algoritmos práticos de aprendizado de máquina.
Saiba mais sobre nosso trabalho: Hyperlink para artigo completo
Esta postagem apareceu originalmente em Weblog de Dhruva Karkada.