Introdução
Os estúdios de jogos móveis dependem de experimentação contínua para refinar a jogabilidade, a monetização e as operações ao vivo. À medida que a experimentação aumenta, a análise muitas vezes se torna o fator limitante. Os resultados são muitas vezes agrupados manualmente, as abordagens estatísticas variam de acordo com o analista e os insights chegam dias após o surgimento dos principais sinais. Com o tempo, isso cria atrito: iteração mais lenta, conclusões inconsistentes e declínio da confiança nos testes A/B como uma ferramenta de decisão confiável.
O desafio
Na HARDlight, o desafio não period apenas velocidade, mas confiança. Diferentes abordagens levaram a diferentes interpretações, dificultando o alinhamento e enfraquecendo a confiança na experimentação como ferramenta de decisão científica. Algumas partes interessadas precisavam de um standing diário simples, outras queriam entender o comportamento do jogador ou o impacto nos negócios, e um grupo menor exigia uma validação profunda de alavancas específicas do jogo. Os painéis e relatórios existentes lutavam para atender com eficácia a todo esse espectro de necessidades. Para que a experimentação fosse escalonada, o HARDlight precisava de uma maneira de padronizar a inferência, tornar os resultados acessíveis em diferentes níveis de profundidade e reconstruir a confiança nos testes A/B como um processo de decisão científico compartilhado.
Para resolver isso, a HARDlight construiu uma estrutura de análise de testes A/B nativa do Databricks que automatiza o caminho dos dados do experimento até o perception pronto para a decisão. A análise estatística foi realizada upstream de forma repetível e transparente, e o Databricks AI/BI apresentou os resultados por meio de uma experiência de atualização diária que começou com um resumo gerado pelo LLM e permite uma exploração mais profunda com visualizações progressivamente granulares. No remaining de cada experimento, os resultados foram congelados e preservados, garantindo que as decisões, o contexto e o aprendizado permanecessem disponíveis por muito tempo após a conclusão do teste.
A solução: testes A/B automatizados em Databricks
A estrutura do HARDlight automatiza a experimentação desde a ingestão até o suporte à decisão. No Databricks, as definições de experimentos e a telemetria são padronizadas, a modelagem estatística é aplicada de forma consistente e os resultados são publicados em um painel em camadas que é atualizado diariamente durante a janela de execução. Um resumo do LLM na parte superior fornece uma visão acessível do standing do experimento, enquanto seções mais profundas expõem KPIs, diagnósticos e ações recomendadas para usuários experientes.
A escolha do Databricks permite governança e repetibilidade entre equipes. O Unity Catalog fornece um único plano de controle para permissões e linhagem de ativos de experimento; O Spark Declarative Pipelines orquestra pipelines confiáveis para ingestão e transformações de experimentos; e o MLflow suporta rastreamento de experimentos e empacotamento de modelos para análise reproduzível. Juntos, esses recursos mantêm os dados e análises controlados, consistentes e fáceis de operar no Lakehouse.
Uma inovação importante é o “painel congelado” no remaining da execução. Em vez de passar para a próxima atualização, a estrutura preserva o instantâneo remaining e as decisões tomadas, juntamente com as ações recomendadas. Isto institucionaliza os aprendizados de experiências anteriores e permite que as partes interessadas revisem os resultados sem ambiguidade.
Arquitetura Técnica
A estrutura de experimentação é construída como um sistema nativo do Databricks que separa o processamento de dados, a inferência estatística e o consumo, ao mesmo tempo que mantém todas as saídas governadas e reproduzíveis por padrão. Esse design garante escalas de rigor analítico sem aumentar a sobrecarga operacional ou fragmentar a interpretação entre as equipes.

Ingestão e modelagem de dados
Definições de experimentos, telemetria de jogadores e métricas de resultados são ingeridas de pipelines internos e selecionadas em tabelas governadas com esquemas consistentes. Essa padronização permite que analistas e equipes de produto raciocinem sobre os experimentos de forma consistente, independentemente do design ou da duração do teste. Notebooks são usados para calcular modelos estatísticos que calculam estimativas de efeitos, incertezas e impactos em nível de segmento ao longo do tempo. Em vez de incorporar lógica em painéis ou relatórios, todos os resultados analíticos são materializados em um modelo unificado de análise de experimentos. Isso cria uma camada semântica estável na qual os consumidores posteriores podem confiar sem reexecutar análises ou reinterpretar resultados.
Entrega de insights com tecnologia de IA/BI
Além dessa camada de análise governada, o Databricks AI/BI fornece uma interface acessível para consumir resultados de experimentos. Cada atualização diária gera um resumo sucinto do LLM destinado a partes interessadas não técnicas, traduzindo resultados estatísticos validados em linguagem pure. O painel usa divulgação progressiva: os usuários podem parar no resumo quando estiverem satisfeitos ou explorar camadas mais profundas de métricas, diagnósticos e análises de segmento à medida que sua curiosidade aumenta. Essa experiência em camadas permite uma digitalização rápida, mantendo a profundidade analítica disponível para validação especializada.

Ciclo de vida e persistência do experimento
Durante a fase ao vivo, o painel é atualizado diariamente para que as equipes possam acompanhar a trajetória e reagir aos sinais. Na conclusão, o painel congela para preservar resultados, decisões e ações recomendadas. Esse ciclo de vida cria um registro auditável que acelera a integração e reduz análises duplicadas em experimentos futuros.
Camadas do painel explicadas
O painel foi projetado para orientar os usuários pelos resultados de um experimento em uma sequência clara e deliberada. Começa com simplicidade e gradualmente revela mais detalhes para aqueles interessados em explorar mais. Cada seção aborda uma questão diferente e é totalmente aceitável parar assim que o leitor tiver obtido as informações necessárias.
Resumo do experimento gerado pelo LLM: Na parte superior do painel há um resumo gerado pelo LLM. Embora um experimento esteja em andamento, ele fornece uma visão simples e de alto nível de como as coisas estão indo, destacando os primeiros sinais sem tirar conclusões prematuras.
Assim que o experimento for concluído, o resumo muda de função. Torna-se uma explicação clara do que aconteceu, destacando as métricas que evoluíram com alta confiança, em ordem de prioridade e em linguagem simples. O objetivo é ajudar as equipes a compreender rapidamente o resultado e por que ele é importante.
Resultados confirmados e impacto estatístico: Para públicos mais técnicos, a próxima seção apresenta uma visão estruturada de resultados estatisticamente significativos. As principais métricas, como o valor da vida útil do jogador (LTV) e a retenção, são listadas junto com os tamanhos dos efeitos e os níveis de confiança, facilitando a validação de conclusões sem se aprofundar na análise bruta.
Impacto previsto no valor da vida útil: O painel mostra então o impacto estimado no valor da vida útil do jogador para grupos de controle e variantes. A incerteza e as margens de erro são mostradas explicitamente, reforçando que se trata de estimativas informadas e não de previsões absolutas.
Impacto na receita por fonte: Os resultados são divididos por fluxo de receita, incluindo anúncios, compras no aplicativo e receita whole. Isso ajuda as equipes a entender se as mudanças são amplas ou impulsionadas por canais de monetização específicos.
Envolvimento e comportamento do jogador: Além da receita, métricas de engajamento, como retenção e comportamento da sessão, são apresentadas para garantir que os ganhos de negócios sejam considerados juntamente com a experiência do jogador e a saúde a longo prazo.
Análise em nível de segmento: A segmentação é elementary para a forma como o HARDlight projeta e avalia experimentos. Esta seção mostra como diferentes segmentos de jogadores respondem a uma mudança, seja ela definida por retenção, progressão ou outras características comportamentais. Ajuda as equipes a confirmar que as experiências direcionadas funcionam conforme o esperado, sem prejudicar outras partes da base de jogadores.
Mecânica de monetização e economia do jogo: Camadas mais profundas exploram como os experimentos afetam os sistemas do jogo, incluindo o desempenho do anúncio por posicionamento, o desempenho da compra no aplicativo por categoria de produto e as mudanças nos fluxos de moeda forte e suave entre fontes e sumidouros.
Loops de jogo principais e apêndices: No nível mais profundo, gráficos e tabelas detalhados cobrem a mecânica de jogo, como raças, personagens e itens, juntamente com recursos visuais estatísticos de apoio. Esta camada destina-se a usuários experientes que desejam whole transparência ou precisam reutilizar insights em trabalhos futuros.
Juntas, essas camadas permitem que o perception se desenvolva naturalmente. As equipes podem agir rapidamente quando a resposta for clara ou ir mais fundo quando surgirem dúvidas, tudo isso enquanto trabalham a partir da mesma fonte de dados controlada e confiável.
Essa estrutura é possibilitada pelo Databricks AI/BI, que permite que resultados analíticos complexos sejam exibidos de forma limpa, sem incorporar código personalizado ou fluxos de trabalho somente para analistas em painéis. Resultados estatísticos, projeções e análises em nível de segmento são computados upstream em notebooks e materializados em tabelas governadas, enquanto a IA/BI fornece uma camada de apresentação flexível na parte superior. Isso elimina a necessidade de executar Python dentro de painéis, simplifica a manutenção e torna viável para uma equipe enxuta iterar e evoluir o sistema ao longo do tempo.
Tão importante quanto isso, a IA/BI torna possível atender públicos muito diferentes a partir dos mesmos dados subjacentes. Resumos narrativos, resultados tabulares, gráficos e diagnósticos profundos podem coexistir sem duplicar a lógica ou fragmentar a interpretação. Esta foi uma mudança elementary em relação às abordagens anteriores, onde as restrições de ferramentas forçavam compromissos entre profundidade analítica, acessibilidade e sustentabilidade.
Impacto e resultados
A estrutura mudou fundamentalmente a forma como a experimentação funciona no HARDlight. Ao automatizar a análise e padronizar a inferência estatística, a equipe de dados reduziu o esforço guide em mais de oito horas por semana. Ao padronizar as execuções de experimentos com fluxos de trabalho do Databricks, a equipe eliminou grande parte do trabalho de configuração guide anteriormente necessário para cada análise. Isso salva aproximadamente um dia por experimento e permitiu um aumento planejado de duas vezes na capacidade mensal de testes A/B sem aumentar o número de funcionários.
Fluxo de trabalho de análise guide de experimentos:

Entrega automatizada de insights de experimentos em Databricks:

Além dos ganhos de eficiência, o sistema melhorou a consistência e a confiança nos resultados. O arquivo congelado do painel agora atua como uma fonte durável de verdade para experimentos concluídos, reduzindo análises repetidas e facilitando para as equipes revisitarem decisões anteriores com contexto completo. Isso reduziu significativamente a sobrecarga de manutenção do conhecimento histórico entre as equipes.
Talvez o mais importante seja que a estrutura mudou a forma como os insights são consumidos em todo o estúdio. Com vários experimentos sendo executados em paralelo, as equipes agora recebem atualizações diárias habilitadas para IA/BI que substituem a agregação e interpretação guide de vários dias. O Genie será habilitado diretamente no painel, permitindo que os usuários façam perguntas sobre o que estão vendo e explorem os resultados com suas próprias palavras, sem a necessidade de entender o modelo de dados subjacente. Juntos, resumos claros, métricas governadas, resultados estatísticos transparentes e acesso conversacional ajudaram a construir confiança entre equipes de produto, LiveOps e engenharia, reforçando a experimentação como uma forma científica e compartilhada de trabalhar.
O que vem a seguir
A HARDlight planeja estender a estrutura com um aplicativo de previsão, ampliando a estrutura de análises descritivas e inferenciais para orientações prospectivas. A visão mais ampla é a experimentação preditiva e a otimização de circuito fechado – usando o Lakehouse para automatizar mais o ciclo, desde a hipótese até a implantação, preservando a governança e a consistência com o Unity Catalog, Spark Declarative Pipelines e MLflow. Essa abordagem que prioriza o painel pode ter um impacto significativo para outros estúdios com necessidades semelhantes, sobrepondo resumos de LLM sobre métricas e diagnósticos governados para dimensionar a experimentação com confiança no Databricks.