Atualmente, o aprendizado de máquina se tornou parte integrante de vários setores, como finanças, saúde, software program e ciência de dados. No entanto, para desenvolver um modelo ML bom e funcional, a configuração dos ambientes e ferramentas necessários é essencial e, às vezes, pode criar muitos problemas também. Agora, think about modelos de treinamento como XGBoost diretamente no seu navegador sem configurações e instalações complexas. Isso não apenas simplifica o processo, mas também torna o aprendizado de máquina mais acessível a todos. Neste artigo, analisaremos o que é XGBoost baseado no navegador e como usá-lo para treinar modelos em nossos navegadores.
O que é xgboost?
Aumento de gradiente extremo, ou Xgboost Em resumo, é uma implementação escalável e eficiente da técnica de reforço de gradiente projetada para velocidade, desempenho e escalabilidade. É um tipo de técnica de conjunto que combina vários alunos fracos para fazer previsões, com cada aluno construindo no anterior para corrigir erros.
Como funciona?
XGboost é uma técnica de conjunto que utiliza árvores de decisãoalunos base ou fracos, e emprega técnicas de regularização para aprimorar a generalização do modelo. Isso também ajuda a reduzir as probabilities do modelo exagerado. As árvores (alunos da base) usam uma abordagem seqüencial para que cada árvore subsequente tente minimizar os erros da árvore anterior. Portanto, cada árvore aprende com os erros da árvore anterior e a próxima é treinada nos resíduos atualizados do anterior.
Isso tenta ajudar a corrigir os erros dos anteriores, otimizando a função de perda. É assim que o desempenho progressivamente do modelo melhorará progressivamente a cada iteração. Os principais recursos do XGBoost incluem:
- Regularização
- Poda de árvore
- Processamento paralelo
Como treinar no navegador?
Nós estaremos usando TRINXGB Para treinar nosso modelo XGBoost completamente no navegador. Para isso, usaremos o conjunto de dados de previsão do preço da casa de Kaggle. Nesta seção, eu o guiarei em cada etapa do treinamento do modelo do navegador, selecionando os hiperparâmetros apropriados e avaliando a inferência do modelo treinado, todos usando o conjunto de dados de previsão de preços.

Compreender os dados
Agora vamos começar carregando o conjunto de dados. Então, clique em Escolha o arquivo e selecione seu conjunto de dados no qual você deseja treinar seu modelo. O aplicativo permite selecionar um separador CSV para evitar erros. Abra seu arquivo CSV, verifique como os recursos ou colunas são separados e selecione o. Caso contrário, ele mostrará um erro se você selecionar alguns diferentes.
Depois de verificar como os recursos do seu conjunto de dados estão relacionados entre si, basta clicar no “Mostrar DataSet Descrição”. Isso nos dará um resumo rápido das estatísticas importantes das colunas numéricas do conjunto de dados. Ele fornece valores como a média, o desvio padrão (que mostra a propagação dos dados), os valores mínimo e máximo e os percentis 25, 50, e 75. Se você clicar nele, ele executará o método de descrição.

Selecionando os recursos para divisão de teste de trem
Depois de enviar os dados com sucesso, clique no Configuração Botão, e isso o levará à próxima etapa, onde selecionaremos os recursos importantes para o treinamento e o recurso de destino (o que queremos que nosso modelo preverá). Para este conjunto de dados, é “preço”, então selecionaremos isso.

Configurando os hiperparâmetros
Depois disso, a próxima coisa é selecionar o tipo de modelo, seja um classificador ou um regressor. Isso depende completamente do conjunto de dados que você escolheu. Verifique se sua coluna de destino possui valores contínuos ou valores discretos. Se tiver valores discretos, é um problema de classificação e, se a coluna contiver valores contínuos, é um problema de regressão.
Com base no tipo de modelo selecionado, também selecionamos a métrica de avaliação, o que ajudará a minimizar a perda. No meu caso, tenho que prever os preços das casas, por isso é um problema contínuo e, portanto, selecionei o regressor para o menor RMSE.
Além disso, podemos controlar como nossas árvores xgboost crescerão selecionando os hiperparâmetros. Esses hiperparâmetros incluem:
- Método da árvore: No método da árvore, podemos selecionar Hist, Auto, Exacto, Aprox e GPU_HIST. Eu usei o HIST, pois é mais rápido e mais eficiente quando temos grandes conjuntos de dados.
- Profundidade máxima: Isso outline a profundidade máxima de cada árvore de decisão. Um número alto significa que a árvore pode aprender padrões mais complexos, mas não defina um número muito alto, pois pode levar ao excesso de ajuste.
- Número de árvores: Por padrão, está definido em 100. Significa o número de árvores usadas para treinar nosso modelo. Idealmente, mais árvores melhoram o desempenho do modelo, mas também tornam o treinamento mais lento.
- Subamostra: É a fração dos dados de treinamento alimentados a cada árvore. Se for 1, significa todas as linhas, é melhor manter um valor mais baixo para reduzir as probabilities de excesso de ajuste.
- ETA: Significa a taxa de aprendizado, controla o quanto o modelo aprende em cada etapa. Um valor mais baixo significa mais lento e preciso.
- Colsample_bytree/bylevel/bynode: Esses parâmetros ajudam a selecionar colunas aleatoriamente durante o crescimento da árvore. O valor mais baixo introduz a aleatoriedade e ajuda a prevenir o excesso de ajuste.

Treine o modelo
Depois de configurar os hiperparâmetros, o próximo passo é treinar o modelo e fazer isso, vá para Treinamento e resultados e clique em Treine xgbooste o treinamento começará.

Ele também mostra um gráfico em tempo actual para que você possa monitorar o progresso do treinamento do modelo em tempo actual.

Depois que o treinamento estiver concluído, você pode baixar os pesos treinados e usá -los mais tarde localmente. Também mostra os recursos que mais ajudaram no processo de treinamento em um gráfico de barras.

Verificando o desempenho do modelo nos dados de teste
Agora temos nosso modelo treinado e ajustado nos dados. Então, vamos tentar os dados do teste para ver o desempenho do modelo. Para isso, faça o add dos dados de teste e selecione a coluna de destino.

Agora, clique em Executar inferência Para ver o desempenho do modelo sobre os dados do teste.

Conclusão
No passado, a construção de modelos de aprendizado de máquina exigia a criação de ambientes e a redação do código manualmente. Mas agora, ferramentas como o TrainXGB estão mudando completamente. Aqui, não precisamos escrever nem uma única linha de código, pois tudo corre dentro do navegador. Plataformas como o TrainXGB o tornam tão simples quanto podemos fazer add de conjuntos de dados reais, definir os hiperparâmetros e avaliar o desempenho do modelo. Essa mudança para o aprendizado de máquina baseado em navegador permite que mais pessoas aprendam e testem sem se preocupar com a configuração. No entanto, é limitado apenas a alguns modelos, mas no futuro, novas plataformas podem vir com algoritmos e recursos mais poderosos.
Faça login para continuar lendo e desfrutar de conteúdo com curado especialista.