Professional Documents
Culture Documents
1: Data Cleanup
Decisões Chave:
Responda estas perguntas
Além disso, forneça as médias do seu conjunto de dados aqui para ajudar os revisores a verificar o seu
trabalho. Você deve arredondar até duas casas decimais, ex: 1.24
Existem cidades que são outliers no conjunto de treinamento? Qual outlier você escolheu para
remover ou imputar? Como esse conjunto de dados é um conjunto de dados pequeno (11
cidades), você deve apenas remover ou imputar um outlier. Explique o seu raciocínio.
OBS: A cidade Bear River não possui a informação da quantidade de pessoas no censo de 2000, como
essa é uma informação fácil de ser encontrada, fiz uma imputação de dados colocando um valor
especifico (750), que foi o dado que obtive ao acessar o site:
http://censusviewer.com/city/UT/Bear%20River%20City.
No ano de 2010, duas cidades estavam com o valor junto aos campos Char (caráter), que foram removidos
através de formulas, mantendo os três primeiros dígitos numéricos, que fizeram o valor.
Foram encontrados alguns outliers, mas com o declive da linha de regressão continua consistente, por
mais que seja anômalo, seria interessante manter ele.