Centro de Ciências e Tecnologia Universidade Federal de Campina Grande
18 de setembro de 2018
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
As mulheres realmente falam mais do que os homens?
Uma crença comun é a de que as mulheres falam mais do que
os homens. Isso se baseia em fatos, ou é um mito? No livro The Female Brain, a neuropsiquiatra Louann Brizendine estabeleceu que as mulheres falam 20.000 palavras por dia, comparadas com apenas 7.000 para os homens. Ela retirou esse comentário depois de reclamações de especialistas em linguı́stica que disseram que aquelas contagens de palavras não estavam comprovadas.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
As mulheres realmente falam mais do que os homens?
Pesquisadores realizaram um estudo em uma tentativa de
abordar o problema das palavras faladas por homens e mulheres. O estudo envolveu 396 sujeitos, que usavam, cada um, um gravador para coletar amostras de conversas durante alguns dias. Ao se comparar a contagem de palavras da amostra de homens com a contagem de palavras da amostra de mulheres, um passo é a comparação da média das duas amostras. Homens Mulheres Média Amostral 15.668,5 16.215,0 Tamanho amostral 186 210
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Medidas de Posição
Vimos que o resumo de dados por meio de tabelas de
frequências fornece muito mais informações sobre o comportamento de uma variável do que a própria tabela original dos dados. Muitas vezes queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma redução drástica dos dados. Usualmente, emprega-se uma das seguintes medidas de posição (ou localização) central: média, mediana ou moda.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Moda
A moda M o, é definida como a realização mais frequente do
conjunto de valores observados. Se considerarmos, por exemplo, a variável Z número de filhos na tabela abaixo, notamos que a observação mais frequente é zi = 2(ni = 7), assim M o = 2. No de filhos Freqência Proporção Porcentagem zi (ni ) (fi ) 100fi 0 4 0,20 20 1 5 0,25 25 2 7 0,35 35 3 3 0,15 15 5 1 0,05 5 Total 20 1,00 100
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Moda
Na tabela abaixo encontramos a distribuição de frequências
para a variável salário dos empregados da seção de orçamento da Companhia MB. Classe de Freqência Proporção Ponto médio salários ni fi si 4⊢8 10 0,28 6 8 ⊢ 12 12 0,33 10 12 ⊢ 16 8 0,22 14 16 ⊢ 20 5 0,14 18 20 ⊢ 24 1 0,03 22 Total 36 1,00 – Neste caso a moda pertence a classe que tem a maior frequência, que chamaremos de classe modal. Considerando o representante da classe seu ponto médio (si ), temos que a moda será dada pelo representante da classe modal. Para a variável Salário temos que a moda é dada por M o = 10. Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2 Média Aritmética
Considere um conjunto de observações de uma variável X,
dado por x1 , x2 , ..., xk com respectivas frequências n1 , n2 , ..., nk . Definimos a média aritmética da variável X, denotada por x como k X xi ni i=1 x= , n onde n = ki=1 ni . P
Uma forma alternativa para a média aritmética é dada por
k X x= x i fi , i=1
onde fi é a frequência relativa da observação xi .
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2 Exemplo
Consideremos novamente a variável Z : No de filhos dos
empregados casados da seção de orçamento da companhia MB. Nesse caso, note que o número médio de filhos por empregado é dado por 0∗4+1∗5+2∗7+3∗3+5∗1 33 z= = = 1, 65. 20 20
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Cálculo aproximado da média
Quando estivermos trabalhando com a distribuição de
frequências de uma variável contı́nua e não tivermos acesso aos dados, podemos encontra uma medida aproximada para a média aritmética substituindo na sua fórmula o valor da observação xi pelo representante da i- ésima classe, si . Considerando a variável X : salário dos empregados da seção de orçamento da companhia MB, temos que o valor exato da média dos salários é dado por 4 + 4, 56 + · · · + 23, 3 400, 4 x= = = 11, 12. 36 36 O valor aproximado é dado por 6 ∗ 10 + 10 ∗ 12 + 14 ∗ 8 + 18 ∗ 5 + 22 ∗ 1 404 x≈ = = 11, 22. 36 36
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Mediana
A mediana, M d, é a realização que ocupa a posição central
da série de observações, quando estão ordenadas em ordem crescente. Equivalentemente, poderı́amos dizer que a mediana é uma medida que concentra 50% das observações abaixo dela e 50% das observações acima dela. Sejam x1 , x2 , ..., xn o conjunto de observações de uma variável X. Consideremos, agora as observações ordenadas em ordem crescente. Vamos denotar a menor observação por x(1) , a segunda menor por x(2) , e assim por diante, obtendo-se x(1) ≤ x(2) ≤ · · · ≤ x(n) . Com essa notação, a mediana da variável X pode ser definida como ( x( n+1 ) , se n é ı́mpar; Md = 2 x( n ) +x( n +1) 2 2 2 , se n é par.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Exemplo
Considere a distribuição de frequências da variável Z, número
de filhos dos empregados casados da seção de orçamentos da Companhia MB. Como n = 20 é par a mediana será dada por x(10) + x(11) 2+2 4 Md = = = = 2. 2 2 2 Para este exemplo tivemos M o = 2, z = 1, 65 e agora M d = 2. Assim, as três medidas tem valores muito próximos e qualquer uma delas pode ser usada como representativa da série toda. A média aritmética, é, talvez a medida mais usada. Contudo ela pode conduzir a erros de interpretação. Em muitas situações, a mediana é uma medida mais adequada. Voltaremos a esse assunto nas próximas aulas.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Cálculo aproximado da mediana
Quando estivermos trabalhando com a distribuição de
frequências de uma variável contı́nua e não tivermos acesso aos dados, podemos encontra uma medida aproximada para a mediana, baseados na idéia da frequência acumulada, uma vez que a mediana acumula 50% das observações abaixo dela. Através do histograma utilizaremos o fato de as áreas dos retângulos serem proporcionais as frequências das classes, e, através de uma regra de três simples podemos encontrar uma aproximação para o valor da mediana.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Exemplo
Voltemos ao exemplo da variável X : salários dos empregados
da seção de orçamento da companhia MB. Como n = 36 é par, temos que o valor exato da mediana é dado por x(18) + x(19) 9, 8 + 10, 53 20, 33 Md = = = = 10, 16. 2 2 2 Através do histograma desta variável, vemos que a mediana está na classe entre 8 e 12 salários. Utilizando uma regra de três simples chegamos na relação Md − 8 12 − 8 4 = ⇒ M d = 8 + 22 ∗ = 10, 66. 22 33 33
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Bibliografia
Estatı́stica Básica (7a edição). Wilton O. Bussab e Pedro A.
Morettin (2011). Editora Saraiva. Introdução à Estatı́stica. Atualização da Tecnologia (11a edição). Mário F. Triola (2013). Grupo Gen. LTC.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2