Cluster

Tradicionalmente usada na Segmentação de Clientes, a análise de cluster tem múltiplas aplicações. Seu propósito é agrupar linhas muito semelhantes em grupos. Como output básico, é gerada uma tabela com uma nova coluna onde estão definidos os grupos criados.

O Gaio utiliza a técnica de K-Means para identificar os grupos e os cálculos da análise são feito no H2O, cuja documentação pode ser acessada aqui.

1. Configuração

Para construir uma análise de cluster, basta clicar na tabela que será utilzada, acessar o menu Tarefas e escolher Cluster.

  1. Defina o nome da tarefa.

  2. Defina o nome da tabela que ser gerada a partir da execução.

  3. Exclua campos indesejados na composição do grupos (clusters).

  4. Determine o tempo máximo para identificação dos grupos.

  5. Quanto a quantidade de grupos, existem duas opções. A primeira é deixar que a plataforma identifique sozinha quantos clusters fazem mais sentido diante dos dados usados. O desafio da tecnologia é colocar linhas semelhantes no mesmo cluster. Linhas idênticas são fáceis de agrupar. O desafio inicia ao começar a agrupar linhas diferentes. A medida que isso vai ocorrendo, o "erro" vai aumentando e a tecnologia irá avaliar para tem grupos mais homogêneos possível, sem gerar alto volume de clusters.

  6. Como analista você pode determinar quantos grupos devem ser gerados, por exemplo, na situação de que na empresa não conseguimos construir propostas de valor diferenciadas para mais de 5 grupos de clientes. Então, pode ser interessante já definir 5 clusters.

2. Resultados

Como resultado, a coluna clusterPredict irá sinalizar a qual grupo cada linha pertence, além de repetir todas as colunas da tabela de origem.

Para compreender as diferenças entre os grupos criados, análises estatísticas descritivas devem ser feitas para as colunas numéricas e categóricas, como por exemplo:

  1. Numéricas: Comparar com médias, mínimos, máximos e desvio-padrão os diferentes grupos e assim perceber quais por exemplo tem salários médios mais altos

  2. Categóricas: gráficos de barras comparando clusters e variável categórica, sinalizando em qual cluster há mais concentração por exemplo de homens e em qual há mais concentração de mulheres.

Abaixo seguem alguns exemplos de comparação.

Last updated