G
G
Gaio Documentation
Gaio Analytics
Search
K

AutoML

O gaio utiliza na criação de modelos preditivos a tecnologia H2O AutoML (Automatic Machine Learning). Isso significa que o Gaio operacionaliza a conexão a dados, tratamento dos dados, entrega ao H2O AutoML os dados e diretivas de treinamento e modelagem, recupera o resultado da execução e entrega em uma interface amigável os resultados. Todo esse processo pode ser automatizado dentro do Gaio.

1. Configuração

Dentro do Gaio o processo para criar modelos preditivos é bem simples.
  1. 1.
    Clique na tabela com os dados históricos para treinar os modelos
  2. 2.
    No menu Tarefas, escolha AutoML
  3. 3.
    Defina o nome do modelo que será salvo pelo Gaio
  4. 4.
    Defina qual será a variável resposta
  5. 5.
    Defina o tempo que o Gaio terá para buscar padrões nos dados
  6. 6.
    Exclua campos que não fazem sentido no treinamento, como por exemplo Código do Cliente
  7. 7.
    Clique em Treinar ou Salvar. Execute a tarefa e aguarde o tempo definido.
A interface de construção de modelo é bem simples e não demanda conhecimento especializado, porém é muito importante que o analista saiba o que está acontecendo na construção de modelos.
Volume de linhas O processo de modelagem geralmente consome muita memória e processamento. Por isso, especial atenção ao volume de linhas na tabela a ser usado é fundamental. Uma boa amostra é uma excelente estratégia por geralmente representar bem todo o conjunto de dados e assim, permitir que mais modelos possam ser criados em menor tempo, além de não sobrecarregar o servidor. Pode padrão, o Gaio limita a 100 mil linhas, contudo é possível alterar tal valor, mas é necessário ter ciência do impacto e só é interessante em casos que o servidor é muito grande.

2. Técnicas

Diversas técnicas são utilizadas no processo de modelagem automática. Na lista a seguir contém o link para a documentação oficial do H2O:
  • GLM: Generalized Linear Model.
  • XGBoost: Combinacão de múltiplas árvores de decisão criadas em paralelo.
  • GBM: Gradient Boosting Machine.
  • DeepLearning: uso de Redes Neurais.
Critério de treinamento e validação são aplicados. O Gaio utiliza Cross-Validation para avaliar se os modelos estão sendo assertivos. Um 5-Fold é usado gerando 5 amostras aleatórias de mesmo tamanho que serão usadas para treinar vários modelos, conforme imagem abaixo:
O critério para priorizar o modelo é a Acurácia.
Como variável resposta, são aceitas Categórica (texto) e Numérica. No caso de variável numérica, sempre será considerado que o desejo é prever o número e não trazer a probabilidade daquele evento ocorrer.
Se a variável resposta for por exemplo Cancelamento do Serviço e tiver valores 0 ou 1, será necessário transformar os valores dessa coluna em por exemplo R0 ou R1. Isso por que nesse caso se espera saber a probabilidade do cliente cancelar, ou seja ser 1 e ao mesmo tempo a probabilidade dele ser 0, não cancelar. Contudo, como é uma variável numérica, o Gaio entende que a intenção é prever um número, como por exemplo o valor que o cliente pode comprar. Técnicas diferentes e resultados diferentes são aplicados para os dois diferentes tipos de variável resposta.

3. Resultados

Após a execução da tarefa AutoML, os resultados são disponibilizados em novo objeto no processo. Abaixo segue um exemplo cuja variável resposta é categórica.
  1. 1.
    Um resumo do processo de construção automática de modelos é gerado, e informada a qualidade geral do modelo.
  2. 2.
    As variáveis que mais impactaram no modelo estão ordenadas. No exemplo acima, a Idade foi a variável que mais contribuiu para prever o evento, chegando a 57,3% de contribuição.
  3. 3.
    A tela Resumo é padrão ao entrar no resultado do modelo e traz as principais informações sobre o modelo escolhido como melhor.
  4. 4.
    A matriz de confusão sinaliza os percentuais de acerto para cada valor da variável resposta categórica (ver imagem a seguir).
  5. 5.
    A lista de todos os modelos que foram criados no tempo pré-determinado com algumas estatísticas de qualidade dos modelos.
Circulados de verde estão os acertos do modelo, onde ele coincidiu com o que ocorreu no passado. Já os círculos vermelhos sinalizam onde o modelo errou, diferindo do que ocorreu no passado. Nesse exemplo acima, quando o modelo diz (primeira linha) que o cliente não vai cancelar, ele erra 5 vezes e portanto, acerta 99,2%. Contudo, quando o modelo prevê que o cliente vai cancelar, ele erra 26 vezes o que gera um acerto de 92,4%. No geral, a acurácia (grau de acerto) é de 97,3%.
Nessa execução, foram gerados 16 modelos diferentes que estão ordenados do melhor para o pior. Nas colunas à direita são apresentados alguns indicadores de qualidade do modelo, entre eles o AUC (Area Under the curve - Área abaixo da curva) e o RMSE (Root Mean Square Error - Raiz do Erro Quadrático Médio).
Last modified 1yr ago