Amostragem
Essa tarefa gera uma nova tabela com uma amostra aleatória da tabela de origem. Esse recurso é muito usado e útil no momento de criar modelos preditivos, pois, computacionalmente é muito pesado aplicar por exemplo Redes Neurais em um grande conjunto de dados. Ao mesmo tempo é ineficiente, pois, com menos dados, é possível rodar mais técnicas, com mais parametrizações e portanto, encontrar um modelo melhor. Além disso, uma boa amostra é suficiente para se compreender o universo em estudo.
Basicamente existem duas alternativas:
Escolher um percentual de linhas da tabela de origem.
Escolher uma quantidade específica de linhas que estarão na tabela gerada.
Toda vez que essa tarefa for executada novamente, um novo conjunto aleatório de dados será gerado.
Em muitos casos, o desejo é gerar uma base aleatória e trabalhar com ele um período maior. Se assim for, gere a tabela com dados aleatórios e apague logo em seguida a tarefa Amostragem, não permitindo que a tabela aleatório seja gerada novamente.
Todos as colunas da tabela de origem estarão presentes na tabela aleatória. Só o número de linhas que será menor.
Last updated