You are on page 1of 14

Análise Exploratória de Dados

Medidas de Posição

Prof. Dr. Alexsandro B. Cavalcanti

Unidade Acadêmica de Estatı́stica


Centro de Ciências e Tecnologia
Universidade Federal de Campina Grande

18 de setembro de 2018

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


As mulheres realmente falam mais do que os homens?

Uma crença comun é a de que as mulheres falam mais do que


os homens.
Isso se baseia em fatos, ou é um mito?
No livro The Female Brain, a neuropsiquiatra Louann
Brizendine estabeleceu que as mulheres falam 20.000 palavras
por dia, comparadas com apenas 7.000 para os homens.
Ela retirou esse comentário depois de reclamações de
especialistas em linguı́stica que disseram que aquelas
contagens de palavras não estavam comprovadas.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


As mulheres realmente falam mais do que os homens?

Pesquisadores realizaram um estudo em uma tentativa de


abordar o problema das palavras faladas por homens e
mulheres.
O estudo envolveu 396 sujeitos, que usavam, cada um, um
gravador para coletar amostras de conversas durante alguns
dias.
Ao se comparar a contagem de palavras da amostra de
homens com a contagem de palavras da amostra de mulheres,
um passo é a comparação da média das duas amostras.
Homens Mulheres
Média Amostral 15.668,5 16.215,0
Tamanho amostral 186 210

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Medidas de Posição

Vimos que o resumo de dados por meio de tabelas de


frequências fornece muito mais informações sobre o
comportamento de uma variável do que a própria tabela
original dos dados.
Muitas vezes queremos resumir ainda mais estes dados,
apresentando um ou alguns valores que sejam representativos
da série toda.
Quando usamos um só valor, obtemos uma redução drástica
dos dados.
Usualmente, emprega-se uma das seguintes medidas de
posição (ou localização) central: média, mediana ou moda.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Moda

A moda M o, é definida como a realização mais frequente do


conjunto de valores observados.
Se considerarmos, por exemplo, a variável Z número de filhos
na tabela abaixo, notamos que a observação mais frequente é
zi = 2(ni = 7), assim M o = 2.
No de filhos Freqência Proporção Porcentagem
zi (ni ) (fi ) 100fi
0 4 0,20 20
1 5 0,25 25
2 7 0,35 35
3 3 0,15 15
5 1 0,05 5
Total 20 1,00 100

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Moda

Na tabela abaixo encontramos a distribuição de frequências


para a variável salário dos empregados da seção de orçamento
da Companhia MB.
Classe de Freqência Proporção Ponto médio
salários ni fi si
4⊢8 10 0,28 6
8 ⊢ 12 12 0,33 10
12 ⊢ 16 8 0,22 14
16 ⊢ 20 5 0,14 18
20 ⊢ 24 1 0,03 22
Total 36 1,00 –
Neste caso a moda pertence a classe que tem a maior
frequência, que chamaremos de classe modal. Considerando o
representante da classe seu ponto médio (si ), temos que a
moda será dada pelo representante da classe modal. Para a
variável Salário temos que a moda é dada por M o = 10.
Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Média Aritmética

Considere um conjunto de observações de uma variável X,


dado por x1 , x2 , ..., xk com respectivas frequências
n1 , n2 , ..., nk . Definimos a média aritmética da variável X,
denotada por x como
k
X
xi ni
i=1
x= ,
n
onde n = ki=1 ni .
P

Uma forma alternativa para a média aritmética é dada por


k
X
x= x i fi ,
i=1

onde fi é a frequência relativa da observação xi .


Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2
Exemplo

Consideremos novamente a variável Z : No de filhos dos


empregados casados da seção de orçamento da companhia
MB.
Nesse caso, note que o número médio de filhos por empregado
é dado por
0∗4+1∗5+2∗7+3∗3+5∗1 33
z= = = 1, 65.
20 20

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Cálculo aproximado da média

Quando estivermos trabalhando com a distribuição de


frequências de uma variável contı́nua e não tivermos acesso
aos dados, podemos encontra uma medida aproximada para a
média aritmética substituindo na sua fórmula o valor da
observação xi pelo representante da i- ésima classe, si .
Considerando a variável X : salário dos empregados da seção
de orçamento da companhia MB, temos que o valor exato da
média dos salários é dado por
4 + 4, 56 + · · · + 23, 3 400, 4
x= = = 11, 12.
36 36
O valor aproximado é dado por
6 ∗ 10 + 10 ∗ 12 + 14 ∗ 8 + 18 ∗ 5 + 22 ∗ 1 404
x≈ = = 11, 22.
36 36

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Mediana

A mediana, M d, é a realização que ocupa a posição central


da série de observações, quando estão ordenadas em ordem
crescente. Equivalentemente, poderı́amos dizer que a mediana
é uma medida que concentra 50% das observações abaixo dela
e 50% das observações acima dela.
Sejam x1 , x2 , ..., xn o conjunto de observações de uma
variável X. Consideremos, agora as observações ordenadas em
ordem crescente. Vamos denotar a menor observação por x(1) ,
a segunda menor por x(2) , e assim por diante, obtendo-se
x(1) ≤ x(2) ≤ · · · ≤ x(n) .
Com essa notação, a mediana da variável X pode ser definida
como (
x( n+1 ) , se n é ı́mpar;
Md = 2
x( n ) +x( n +1)
2
2
2
, se n é par.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Exemplo

Considere a distribuição de frequências da variável Z, número


de filhos dos empregados casados da seção de orçamentos da
Companhia MB. Como n = 20 é par a mediana será dada por
x(10) + x(11) 2+2 4
Md = = = = 2.
2 2 2
Para este exemplo tivemos M o = 2, z = 1, 65 e agora
M d = 2. Assim, as três medidas tem valores muito próximos
e qualquer uma delas pode ser usada como representativa da
série toda.
A média aritmética, é, talvez a medida mais usada. Contudo
ela pode conduzir a erros de interpretação. Em muitas
situações, a mediana é uma medida mais adequada.
Voltaremos a esse assunto nas próximas aulas.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Cálculo aproximado da mediana

Quando estivermos trabalhando com a distribuição de


frequências de uma variável contı́nua e não tivermos acesso
aos dados, podemos encontra uma medida aproximada para a
mediana, baseados na idéia da frequência acumulada, uma vez
que a mediana acumula 50% das observações abaixo dela.
Através do histograma utilizaremos o fato de as áreas dos
retângulos serem proporcionais as frequências das classes, e,
através de uma regra de três simples podemos encontrar uma
aproximação para o valor da mediana.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Exemplo

Voltemos ao exemplo da variável X : salários dos empregados


da seção de orçamento da companhia MB.
Como n = 36 é par, temos que o valor exato da mediana é
dado por
x(18) + x(19) 9, 8 + 10, 53 20, 33
Md = = = = 10, 16.
2 2 2
Através do histograma desta variável, vemos que a mediana
está na classe entre 8 e 12 salários. Utilizando uma regra de
três simples chegamos na relação
Md − 8 12 − 8 4
= ⇒ M d = 8 + 22 ∗ = 10, 66.
22 33 33

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2


Bibliografia

Estatı́stica Básica (7a edição). Wilton O. Bussab e Pedro A.


Morettin (2011). Editora Saraiva.
Introdução à Estatı́stica. Atualização da Tecnologia (11a
edição). Mário F. Triola (2013). Grupo Gen. LTC.

Alexsandro Cavalcanti Análise Exploratória de Dados - 2018.2

You might also like