Amostragem

Essa tarefa gera uma nova tabela com uma amostra aleatória da tabela de origem. Esse recurso é muito usado e útil no momento de criar modelos preditivos, pois, computacionalmente é muito pesado aplicar por exemplo Redes Neurais em um grande conjunto de dados. Ao mesmo tempo é ineficiente, pois, com menos dados, é possível rodar mais técnicas, com mais parametrizações e portanto, encontrar um modelo melhor. Além disso, uma boa amostra é suficiente para se compreender o universo em estudo.

Basicamente existem duas alternativas:
- 1.Escolher um percentual de linhas da tabela de origem.
- 2.Escolher uma quantidade específica de linhas que estarão na tabela gerada.
Toda vez que essa tarefa for executada novamente, um novo conjunto aleatório de dados será gerado.
Em muitos casos, o desejo é gerar uma base aleatória e trabalhar com ele um período maior. Se assim for, gere a tabela com dados aleatórios e apague logo em seguida a tarefa Amostragem, não permitindo que a tabela aleatório seja gerada novamente.
Todos as colunas da tabela de origem estarão presentes na tabela aleatória. Só o número de linhas que será menor.
Last modified 1yr ago