AutoML
Last updated
Last updated
O gaio utiliza na criação de modelos preditivos a tecnologia H2O AutoML (Automatic Machine Learning). Isso significa que o Gaio operacionaliza a conexão a dados, tratamento dos dados, entrega ao H2O AutoML os dados e diretivas de treinamento e modelagem, recupera o resultado da execução e entrega em uma interface amigável os resultados. Todo esse processo pode ser automatizado dentro do Gaio.
Dentro do Gaio o processo para criar modelos preditivos é bem simples.
Clique na tabela com os dados históricos para treinar os modelos
No menu Tarefas, escolha AutoML
Defina o nome do modelo que será salvo pelo Gaio
Defina qual será a variável resposta
Defina o tempo que o Gaio terá para buscar padrões nos dados
Exclua campos que não fazem sentido no treinamento, como por exemplo Código do Cliente
Clique em Treinar ou Salvar. Execute a tarefa e aguarde o tempo definido.
A interface de construção de modelo é bem simples e não demanda conhecimento especializado, porém é muito importante que o analista saiba o que está acontecendo na construção de modelos.
Volume de linhas O processo de modelagem geralmente consome muita memória e processamento. Por isso, especial atenção ao volume de linhas na tabela a ser usado é fundamental. Uma boa amostra é uma excelente estratégia por geralmente representar bem todo o conjunto de dados e assim, permitir que mais modelos possam ser criados em menor tempo, além de não sobrecarregar o servidor. Pode padrão, o Gaio limita a 100 mil linhas, contudo é possível alterar tal valor, mas é necessário ter ciência do impacto e só é interessante em casos que o servidor é muito grande.
Diversas técnicas são utilizadas no processo de modelagem automática. Na lista a seguir contém o link para a documentação oficial do H2O:
GLM: Generalized Linear Model.
XGBoost: Combinacão de múltiplas árvores de decisão criadas em paralelo.
GBM: Gradient Boosting Machine.
DeepLearning: uso de Redes Neurais.
Critério de treinamento e validação são aplicados. O Gaio utiliza Cross-Validation para avaliar se os modelos estão sendo assertivos. Um 5-Fold é usado gerando 5 amostras aleatórias de mesmo tamanho que serão usadas para treinar vários modelos, conforme imagem abaixo:
O critério para priorizar o modelo é a Acurácia.
Como variável resposta, são aceitas Categórica (texto) e Numérica. No caso de variável numérica, sempre será considerado que o desejo é prever o número e não trazer a probabilidade daquele evento ocorrer.
Se a variável resposta for por exemplo Cancelamento do Serviço e tiver valores 0 ou 1, será necessário transformar os valores dessa coluna em por exemplo R0 ou R1. Isso por que nesse caso se espera saber a probabilidade do cliente cancelar, ou seja ser 1 e ao mesmo tempo a probabilidade dele ser 0, não cancelar. Contudo, como é uma variável numérica, o Gaio entende que a intenção é prever um número, como por exemplo o valor que o cliente pode comprar. Técnicas diferentes e resultados diferentes são aplicados para os dois diferentes tipos de variável resposta.
Após a execução da tarefa AutoML, os resultados são disponibilizados em novo objeto no processo. Abaixo segue um exemplo cuja variável resposta é categórica.
Um resumo do processo de construção automática de modelos é gerado, e informada a qualidade geral do modelo.
As variáveis que mais impactaram no modelo estão ordenadas. No exemplo acima, a Idade foi a variável que mais contribuiu para prever o evento, chegando a 57,3% de contribuição.
A tela Resumo é padrão ao entrar no resultado do modelo e traz as principais informações sobre o modelo escolhido como melhor.
A matriz de confusão sinaliza os percentuais de acerto para cada valor da variável resposta categórica (ver imagem a seguir).
A lista de todos os modelos que foram criados no tempo pré-determinado com algumas estatísticas de qualidade dos modelos.
Circulados de verde estão os acertos do modelo, onde ele coincidiu com o que ocorreu no passado. Já os círculos vermelhos sinalizam onde o modelo errou, diferindo do que ocorreu no passado. Nesse exemplo acima, quando o modelo diz (primeira linha) que o cliente não vai cancelar, ele erra 5 vezes e portanto, acerta 99,2%. Contudo, quando o modelo prevê que o cliente vai cancelar, ele erra 26 vezes o que gera um acerto de 92,4%. No geral, a acurácia (grau de acerto) é de 97,3%.
Nessa execução, foram gerados 16 modelos diferentes que estão ordenados do melhor para o pior. Nas colunas à direita são apresentados alguns indicadores de qualidade do modelo, entre eles o AUC (Area Under the curve - Área abaixo da curva) e o RMSE (Root Mean Square Error - Raiz do Erro Quadrático Médio).