AutoML

O gaio utiliza na criação de modelos preditivos a tecnologia H2O AutoML (Automatic Machine Learning). Isso significa que o Gaio operacionaliza a conexão a dados, tratamento dos dados, entrega ao H2O AutoML os dados e diretivas de treinamento e modelagem, recupera o resultado da execução e entrega em uma interface amigável os resultados. Todo esse processo pode ser automatizado dentro do Gaio.

1. Configuração

Dentro do Gaio o processo para criar modelos preditivos é bem simples.

  1. Clique na tabela com os dados históricos para treinar os modelos

  2. No menu Tarefas, escolha AutoML

  3. Defina o nome do modelo que será salvo pelo Gaio

  4. Defina qual será a variável resposta

  5. Defina o tempo que o Gaio terá para buscar padrões nos dados

  6. Exclua campos que não fazem sentido no treinamento, como por exemplo Código do Cliente

  7. Clique em Treinar ou Salvar. Execute a tarefa e aguarde o tempo definido.

A interface de construção de modelo é bem simples e não demanda conhecimento especializado, porém é muito importante que o analista saiba o que está acontecendo na construção de modelos.

Volume de linhas O processo de modelagem geralmente consome muita memória e processamento. Por isso, especial atenção ao volume de linhas na tabela a ser usado é fundamental. Uma boa amostra é uma excelente estratégia por geralmente representar bem todo o conjunto de dados e assim, permitir que mais modelos possam ser criados em menor tempo, além de não sobrecarregar o servidor. Pode padrão, o Gaio limita a 100 mil linhas, contudo é possível alterar tal valor, mas é necessário ter ciência do impacto e só é interessante em casos que o servidor é muito grande.

2. Técnicas

Diversas técnicas são utilizadas no processo de modelagem automática. Na lista a seguir contém o link para a documentação oficial do H2O:

  • GLM: Generalized Linear Model.

  • XGBoost: Combinacão de múltiplas árvores de decisão criadas em paralelo.

  • GBM: Gradient Boosting Machine.

  • DeepLearning: uso de Redes Neurais.

Critério de treinamento e validação são aplicados. O Gaio utiliza Cross-Validation para avaliar se os modelos estão sendo assertivos. Um 5-Fold é usado gerando 5 amostras aleatórias de mesmo tamanho que serão usadas para treinar vários modelos, conforme imagem abaixo:

O critério para priorizar o modelo é a Acurácia.

Como variável resposta, são aceitas Categórica (texto) e Numérica. No caso de variável numérica, sempre será considerado que o desejo é prever o número e não trazer a probabilidade daquele evento ocorrer.

Se a variável resposta for por exemplo Cancelamento do Serviço e tiver valores 0 ou 1, será necessário transformar os valores dessa coluna em por exemplo R0 ou R1. Isso por que nesse caso se espera saber a probabilidade do cliente cancelar, ou seja ser 1 e ao mesmo tempo a probabilidade dele ser 0, não cancelar. Contudo, como é uma variável numérica, o Gaio entende que a intenção é prever um número, como por exemplo o valor que o cliente pode comprar. Técnicas diferentes e resultados diferentes são aplicados para os dois diferentes tipos de variável resposta.

3. Resultados

Após a execução da tarefa AutoML, os resultados são disponibilizados em novo objeto no processo. Abaixo segue um exemplo cuja variável resposta é categórica.

  1. Um resumo do processo de construção automática de modelos é gerado, e informada a qualidade geral do modelo.

  2. As variáveis que mais impactaram no modelo estão ordenadas. No exemplo acima, a Idade foi a variável que mais contribuiu para prever o evento, chegando a 57,3% de contribuição.

  3. A tela Resumo é padrão ao entrar no resultado do modelo e traz as principais informações sobre o modelo escolhido como melhor.

  4. A matriz de confusão sinaliza os percentuais de acerto para cada valor da variável resposta categórica (ver imagem a seguir).

  5. A lista de todos os modelos que foram criados no tempo pré-determinado com algumas estatísticas de qualidade dos modelos.

Circulados de verde estão os acertos do modelo, onde ele coincidiu com o que ocorreu no passado. Já os círculos vermelhos sinalizam onde o modelo errou, diferindo do que ocorreu no passado. Nesse exemplo acima, quando o modelo diz (primeira linha) que o cliente não vai cancelar, ele erra 5 vezes e portanto, acerta 99,2%. Contudo, quando o modelo prevê que o cliente vai cancelar, ele erra 26 vezes o que gera um acerto de 92,4%. No geral, a acurácia (grau de acerto) é de 97,3%.

Nessa execução, foram gerados 16 modelos diferentes que estão ordenados do melhor para o pior. Nas colunas à direita são apresentados alguns indicadores de qualidade do modelo, entre eles o AUC (Area Under the curve - Área abaixo da curva) e o RMSE (Root Mean Square Error - Raiz do Erro Quadrático Médio).

Last updated