You are on page 1of 3

Project 2.

1: Data Cleanup

Passo 1: Entendimento do Negócio e dos Dados


A PAWDACITY quer uma recomendação de qual cidade de Wyoming deverá abrir a sua 14º loja,
baseando-se nas previsões de vendas. Foram enviados dados em quatro diferentes arquivos, contendo
as vendas mensais das lojas da Pawdacity em 2010, dados de categorização (NAICS) sobre as vendas
dos concorrentes onde o número total de vendas é igual ao número de vendas nos últimos 12 meses,
dados populacionais e dados demográficos e por último, obtivemos os dados territoriais do Estado.

Decisões Chave:
Responda estas perguntas

1. Que decisões devem ser tomadas?


De acordo com a previsão de vendas, recomendar para à Pawdacity uma cidade para abertura
da 14º loja.

2. Que dados são necessários para subsidiar essas decisões?


Foi preciso utilizar os dados do Censo de 2010, total de vendas das lojas da Pawdacity
no ano, dados demográficos e populacionais (colunas abaixo).

Passo 2: Construindo o Conjunto de Treinamento


Construa seu conjunto de treinamento dado os dados fornecidos a você. As somas de coluna do seu
conjunto de dados devem corresponder às somas na tabela abaixo.

Além disso, forneça as médias do seu conjunto de dados aqui para ajudar os revisores a verificar o seu
trabalho. Você deve arredondar até duas casas decimais, ex: 1.24

Column Sum Average


Census Population 213,862 19,442
Total Pawdacity Sales 3,773,304 343,027.64
Households with Under 18 34,064 3,096.72
Land Area 33,071 3,006.45
Population Density 63 5.72
Total Families 62,653 5,695.72

Passo 3: Tratando os Outliers


Responda estas perguntas

Existem cidades que são outliers no conjunto de treinamento? Qual outlier você escolheu para
remover ou imputar? Como esse conjunto de dados é um conjunto de dados pequeno (11
cidades), você deve apenas remover ou imputar um outlier. Explique o seu raciocínio.
OBS: A cidade Bear River não possui a informação da quantidade de pessoas no censo de 2000, como
essa é uma informação fácil de ser encontrada, fiz uma imputação de dados colocando um valor
especifico (750), que foi o dado que obtive ao acessar o site:
http://censusviewer.com/city/UT/Bear%20River%20City.

No ano de 2010, duas cidades estavam com o valor junto aos campos Char (caráter), que foram removidos
através de formulas, mantendo os três primeiros dígitos numéricos, que fizeram o valor.

Foram encontrados alguns outliers, mas com o declive da linha de regressão continua consistente, por
mais que seja anômalo, seria interessante manter ele.

You might also like