You are on page 1of 22

Prof. Renaldo A.

Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

O Tratamento dos dados.

Há dois ramos na estatística, a descritiva que trata da organização, resumo e análise dos
dados, e a inferencial que a partir de uma amostra, permite tirar conclusões sobre a
população. Ambas são usadas para a tomada de decisões.

A inferência ou a análise descritiva podem ser abordadas por um experimento ou por


uma simulação.

Experimento: Aplica-se a determinado tratamento dado ao grupo ou uma parte do


grupo. Geralmente este processo produz dados primários a partir de amostras.

Simulação: Usa-se um modelo matemático (em geral com apoio de computador) para
reproduzir certa condição da realidade. Na maior parte das vezes, este processo se apoia
em dados secundários.

A estatística descritiva é um conjunto de ferramentas e técnicas que permite organizar e


resumir base de dados (primários ou secundários) para que estes possam ser analisados
ou que os relatórios gerados, revelem alguma informação.

A Estatística Descritiva.

Para desenvolver um estudo e caracterizar a base de dados que analisamos, podemos


lançar mão de gráficos, tabelas, bem como calcular medidas que resumem as
informações como vários tipos de médias, indicadores de dispersão, de assimetria e
curtose.

Estes recursos permitem extrair da base de dados às informações que buscamos. Usar
apenas alguns indicadores como média aritmética e desvio padrão seria limitar a
possibilidade de revelar o que está acontecendo com os dados que analisamos.

Hoje com os recursos de informática disponíveis para estatística descritiva, podemos


explorar exaustivamente até o limite as informações geradas por programas
especializados em tratar base de dados.

Os resultados obtidos nos relatórios gerados por programas (software) permitem gerar
relatórios das bases de dados com muita transparência. A boa divulgação do material
estatístico, gerado desta maneira, permite melhorar a qualidade informação e melhor
compreensão dos leitores dos fenômenos analisados.

As Medidas que Resumem os Dados.

Os dados gerados pela realidade podem ser resumidos, esta alternativa permite
compreender e analisar grandes conjuntos de informação. Por exemplo, se um
proprietário de um pequeno comércio deseja saber as principais características de
consumo dos aproximadamente 200 freqüentadores diários do seu estabelecimento, os
resumos obtidos pela estatística descritiva oferecem uma ótima alternativa.

1
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Mesmo porque, analisar individualmente cada cupom de venda não permitirá entender o
conjunto, mas, apenas catalogar cada caso.

Como exemplos complementares, podemos afirmar que o esforço de um profissional de


marketing está centrado mais no comportamento do conjunto dos consumidores, de uma
pesquisa amostral de 1.500 freqüentadores de shopping, do que na análise de cada caso.

O mesmo esforço faz o investidor em ações da bolsa de valores, ao compreender a


direção, ou tendência do mercado que é a informação mais relevante do que saber o
comportamento individual de cada investidor.

Um médico, ao contrário dos casos citados acima, usa os resultados consagrados em


grandes amostras de pessoas para certificar a normalidade (ou alternativamente detectar
alguma doença) do seu paciente através da comparação. Os exames laboratoriais usados
pela medicina comparam os padrões aceitos como normais extraídos de grandes
amostras, com os resultados obtidos em amostras dos pacientes.

Em qualquer um dos casos citados acima o que se busca são padrões que permitam uma
análise ou o entendimento de um fenômeno qualquer.

As Principais Medidas.

As principais medidas utilizadas para resumir os dados são:

1. Proporções:

Uma das medidas mais simples utilizada pela estatística é a proporção,


matematicamente não passa da relação (ou razão) da parte com o todo, e pode ser o
resultado do agregado de dados ou uma das formas de agrupamento das tabelas de
frequência.

Exemplos:
a) A empresa X faturou os valores nas seguintes cidades:
Cidade Valor em R$ Part. %
Campinas 320.974,00 17,38%
São Paulo 740.985,00 40,11%
Guarulhos 145.470,00 7,88%
Ribeirão Preto 250.239,00 13,55%
S. José dos
Campos 389.560,00 21,09%
Total 1.847.228,00 100,00%

b) Uma pesquisa com 2.500 consumidores de bebidas alcoólicas produziu o seguinte


resultado:

Consumo mensal de Bebida Frequência


Frequência
alcoólica - intervalo de Classe Acumulada

1 a 5 vezes 550 22,00%

2
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


6 a 10 vezes 1230 49,20%
Mais de 10 vezes 720 28,80%
Total 2500 100,00%

As proporções apresentadas acima diferem nos seguintes aspectos: na tabela “a”, as


proporções do faturamento de uma empresa revelam a concentração de receitas em
algumas cidades do estado de São Paulo, a tabela “b” funciona como um resumo do
comportamento de consumidores de álcool organizados por faixas (ou intervalos).

Em ambos as tabelas foi possível resumir as informações, analisar os resultados e caso


seja necessário tomar alguma decisão.

2. Medidas de Posição Central.

As medidas de posição central são calculadas a partir de uma base de dados numéricos e
usadas para descrever, compreender e inferir informações destes dados. Estas medidas
geralmente se localizam em torno do centro desta base dados quando estão ordenados
(isto é, posicionados em ordem crescente ou decrescente).

São também chamados de medidas de posição. As medidas de tendência central, mais


importantes, são: média aritmética, mediana e moda.

MÉDIA ARITMÉTICA

É definida como sendo a razão entre a soma dos valores de um grupo de dados
numéricos pela quantia de dados deste conjunto.
Simbologia da média aritmética populacional: 
__
Simbologia da média aritmética da amostra: X
Fórmula de cálculo:


X
N sendo, “N” é o nº de observações, ou nº de
valores do conjunto de dados.

O x (sigma de “x”) pode ser definido como o total dos valores dos dados, ou
seja: T = x
Para dados agrupados ou distribuições de frequências, a fórmula de cálculo da
média aritmética fica:


 fX
N onde N = f e T = fx

MEDIANA

A Mediana de um conjunto ordenado de valores é o valor do meio deste


conjunto, ou o valor médio dos dois valores centrais.

3
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Observe-se que s Mediana divide o grupo ordenado de valores em 2 partes iguais
(50% acima e 50% abaixo da Mediana).

Se o número de itens é par, a Mediana será a media dos 2 valores do meio. Se o


número de itens for ímpar, a Mediana será o valor do meio.

Simbologia da mediana populacional: d

Podemos determinar a posição da mediana pelas fórmulas:


Posição da mediana = (n + 1)/2 ou (N+1)/2

EXEMPLO: Calcular a mediana para os seguintes conjuntos de dados:

a) 12, 15, 14, 19, 18, 10, 12.


Ordenando os dados: 10, 12, 12, 14, 15, 18, 19.

Cálculo da posição da mediana = (7 + 1) / 2 = 4 >>> a mediana é o 4º valor


Então o valor da mediana para estes dados é d = 14.

b) 23, 25, 29, 18, 30, 19


Ordenando os dados: 18, 19, 23, 25, 29, 30.

Posição da mediana = (6 + 1) / 2 = 3,5 >>> a mediana é o valor médio entre o 3º e o 4º


valores, ou seja: d = (23 + 25) / 2 = 24.

MODA

A Moda é o valor mais frequente num conjunto de valores.


Podemos ter conjuntos de dados com uma moda (unimodal), 2 modas (bimodal)
e varias modas (multimodais). Pode não haver moda no conjunto de dados, quando não
há valores repetidos no grupo. Nesse caso dizemos que o conjunto de dados é amodal.

Simbologia da moda populacional: “o”

EXEMPLO: Verificar o valor da moda, para os seguintes conjuntos de dados:


a) 12, 18, 20, 15, 12, 19, 15, 12. >>> o = 12
b) 15, 19, 21, 12, 15, 21, 17, 14. >>> o = 15 e o = 21
c) 12, 16, 13, 18, 20, 14, 25, 11 >>> amodal.

Para distribuições de frequências por intervalos não é possível determinarmos o valor


exato da moda. Nesse caso utilizamos a chamada moda bruta >>>ponto médio da classe
de maior frequência.

AS RELAÇÕES ENTRE A MÉDIA, A MEDIANA E A MODA.

As diferenças entre os valores da média, mediana e moda são importantes indicadores


da forma da curva em termos de simetria.
Quando:

4
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

1) Média=mediana=moda => temos provavelmente uma curva simétrica.

Isto significa que os dados são distribuídos igualmente à esquerda e a direita da média.

2) Média>mediana>moda => temos provavelmente uma curva assimétrica à direita


(positiva).

3) Média<mediana<moda => temos provavelmente uma curva assimétrica à


esquerda (negativa)

Também conhecida como Assimétrica à Esquerda ou Assintótica à Direita.

4) Média = mediana = moda = números da base de dados, temos uma distribuição


uniforme.
Valor numérico = 6

5
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

.observações.

PROPRIEDADES DA MÉDIA ARITMÉTICA

A média aritmética possui algumas propriedades, muitas vezes úteis na análise


dos dados.
a) A soma algébrica dos desvios de um conjunto de números, contados em
relação á média aritmética vale sempre zero:

(x - ) = 0

Em distribuições de frequências:

f(x - ) = 0

b) A média aritmética sempre pode ser calculada e é única para um grupo de


valores.

OUTRAS MÉDIAS.

É frequente a utilização de outras médias, como:

A média harmônica entendida como sendo o inverso da média aritmética do inverso


dos números – é usada para tratar de relações invertidas ou grandezas inversamente
proporcionais como distância e tempo.

A média ponderada que é calculada através do somatório das multiplicações entre


valores e pesos divididos pelo somatório dos pesos, usada quando levamos em
consideração o peso relativo de cada evento. É muito utilizada em avaliação escolar –
geralmente as avaliações no início do curso tem peso menor que as avaliações finais.

É uma média geométrica muito utilizada nas situações envolvendo taxas e suas
variações, o seu cálculo é feito com multiplicatórios e raízes.

n 
1/ n

X
n

i X i n

 1 
i
i 1
Mgeomértica = ou

6
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Exemplo: Cálculo da taxa média mensal da inflação brasileira (IPCA).

IPCA mensal
Janeiro/13 0,86% Julho/13 0,03%
Fevereiro/13 0,60% Agosto/13 0,24%
Março/13 0,47% Setembro/13 0,35%
Abril/13 0,55% Outubro/13 0,57%
Maio/13 0,37% Novembro/13 0,54%
Junho/13 0,26% Dezembro/13 0,92%
Fonte: IBGE

Para obtermos a taxa média de inflação no Brasil em 2013, deveremos transformar a


porcentagens em número.
Exemplo:
Fevereiro/13 0,60%

Para isso, dividimos 0,60/100 = 0,0060, o próximo passo é somar 1, para poder
multiplicar todas as taxas.
Fórmula para a transformação da taxa em fator:
 Xi 
1  
 100 
 
Tabela com os fatores de IPCA
Janeiro/13 1,00860 Julho/13 1,00030
Fevereiro/13 1,00600 Agosto/13 1,00240
Março/13 1,00470 Setembro/13 1,00350
Abril/13 1,00550 Outubro/13 1,00570
Maio/13 1,00370 Novembro/13 1,00540
Junho/13 1,00260 Dezembro/13 1,00920

Multiplicatório:
= (1,0086 x 1,006 x 1,0047 x 1,0055 x 1,0037 x 1,0026 x 1,0003 x 1,0024 x 1,0035 x
1,0057 x 1,0054 x 1,0092)1/12 = 1,05911

A partir do fator (1,05911), podemos afirmar que inflação acumulada em 2013 é 5,91%
ao ano.

Aplicação da média geométrica:


= 12√(1,05911) = 1,004797071 (fator)

E a inflação média mensal é 0,479707%.

Transformação do resultado (expresso em fator) em porcentagem.

 fator 1 x100
Temos: (1,004797071 – 1) = 0,004797071

7
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Portanto: 0,004797071 x 100 = 0,4797071%

Podemos afirmar que a inflação média no Brasil em 2013 ficou em 0,48% (valor
arredondado) ao mês.

Utilizamos a média geométrica para avaliar o desempenho das variáveis que são
expressas na escala da razão. No exemplo acima, a inflação média de 2013 pode servir
de referência compreender o que ocorreu com a inflação neste período, bem como
estimar o seu comportamento nos próximos 12 meses.

Estimar o comportamento futuro da inflação usando o índice de Julho/13 que registrou


taxa mais baixa do ano (0,03%), é incorreto. O inverso também é inadequado, a taxa de
Dezembro/13, que registrou a cifra de 0,92%, não representa o conjunto de taxas.

Neste caso a média geométrica é a métrica adequada, não só para resumir o


comportamento da inflação em 2013, como para servir de base para uma projeção.

A ponderação que fazemos para projetar uma taxa é a seguinte: podemos afirmar que, se
nada for feito para combater a inflação, ela terá uma trajetória igual a de 2013.

Neste caso, basta elevar o fator (1,004797071)12 a 12ª potência, o resultado desta
operação será: 1,059108187 – ou seja, uma taxa de 5,91%. Esta é a cifra da inflação
acumulada de 2013.

Evidentemente podemos ajustar esta projeção ao contexto. Se acreditarmos que o


governo está combatendo a alta dos preços com medidas eficazes, reduzimos a previsão,
caso contrário, aumentamos a projeção da inflação futura.

O uso da média geométrica para prever a inflação futura é muito rudimentar, há outras
técnicas mais eficientes – como, por exemplo, estudar o comportamento de cada família
de produtos que compõe o índice de inflação. No entanto, em alguns casos, este pode
ser o único recurso que dispomos.

Suponha que um investidor aplicou $ 10.000,00 em um fundo de renda fixa, pelo prazo
de 9 meses, e apurou as taxas de remuneração deste investimento nos últimos 6 meses.
Qual será a projeção de remuneração deste investimento?
Mês 1 Mês 2 Mês 3 Mês 4 Mês 5 Mês 6
Taxas em % 0,71 0,56 - 0,21 0,97 0,82 0,77

Para estimar a taxa de remuneração do investimento, devemos encontrar a taxa média


do período de 6 meses e expandir este resultado para 9 meses. Este recurso, sempre
trabalha com a hipótese que o desempenho observado no passado se manterá no futuro.

Neste exercício obtemos os seguintes resultados:


Taxa
Acumulada Taxa Taxa
em 6 Média Projetada para
meses Mensal 9 meses
5,03% 0,82% 7,64%

8
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Critérios para a escolha das medidas de tendência central.

Ao resumir as informações torna-se possível compreender e analisar grandes conjuntos


de dados, esta tarefa fica mais fácil se antes de organizarmos os dados forem definidos
os objetivos do trabalho, ou seja, definir o que desejamos compreender.

Quando tratamos de medidas de posição central, estamos buscando um indicador que


represente um resumo fiel da base de dados que analisamos. Por exemplo, para uma
tomada de preços a medida adequada é uma média aritmética.

No entanto devemos considerar que média aritmética sofre influência de valores


extremos, isto é, se em uma base de dados ampla (com muitos números), uma parte
pequena deste conjunto apresenta números extremamente grandes, a média será
“puxada” para cima. Se ocorrer o inverso a média será “puxada” para baixo.

Um exemplo: os alugueis anuais recebidos por uma locadora de imóveis apresentam a


seguinte distribuição: trinta e cinco inquilinos pagam $ 13.000,00; dois pagam $
50.000,00 e um paga $ 95.000,00.

Se o objetivo, neste caso, é encontrar a medida de posição central que representa este
conjunto, a moda ou a mediana são mais adequadas, pois permitem discutir como fazer
para aumentar o valor dos alugueis recebidos. Caso a finalidade seja multiplicar a
medida de posição central pelo número de inquilinos e obter o faturamento, a média
aritmética é mais apropriada.

Outro exemplo, quando o sindicato dos trabalhadores vai reivindicar aumento salarial,
ele usará a mediana ou a moda para representar a medida de posição central (supondo
que a categoria recebe salários discrepantes) e usará esta medida como argumento.

Evidentemente, neste caso, os patrões usarão a média aritmética como referência. A


média aritmética apropria os salários mais altos e pode “puxar” a medida de posição
central para cima.

A discussão sobre a escolha da “melhor” medida de posição central nos permite refletir
sobre a definição dos objetivos de uma pesquisa, as caraterísticas observadas na base de
dados, e o uso do melhor indicador.

A escolha da Escala e dos testes aplicados:

É importante apontar que a escala escolhida para fazer o estudo estatístico determina as
ferramentas que podemos utilizar para produzir os indicadores que servirão para análise
ou a pesquisa.

É importante apontar que há metodologias específicas para cada escala escolhida


(Nominal; Ordinal; Intervalar e Razão), isto significa que sempre será necessário
estabelecer uma relação causal entre o objeto (objetivo) da pesquisa, a escala escolhida
e os testes estatísticos que serão utilizados para produzir os indicadores que desejamos.

Submeter qualquer escala a qualquer teste ou método estatístico não é um procedimento


correto (não é científico), as escalas têm limites de representação. Não é possível

9
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


submeter todas as escalas a todos os testes, este tipo de abordagem não produz nenhum
tipo de conhecimento.

Isto significa que a escala nominal, por exemplo, não permite obter médias, medianas
ou quaisquer indicadores que utilizem abordagem matemática, pois neste caso, o
tratamento dado aos nomes é limitado. Esta métrica permite apenas fazer uma simples
contagem e a construção de alguns indicadores derivados desta condição.

Testes (ou indicadores) para a Escala Nominal


Tipo de Provas
Escala Estatísticas Testes Estatísticos – Indicadores
Adequadas
Nominal Não Número de casos.
paramétricas Percentagens.
Correlações de contingência (Qui-quadrado.
Teste exato de Fisher.
Freqüência.
Teste binomial.
Mcnemar, Cochran Q.
Coeficiente de contingência.
Moda.

A escala ordinal, por permitir a construção de hierarquia, opera com uma base
numérica maior, amplia o número de testes, mas não permite, por exemplo, a obtenção
de médias.

Testes (ou indicadores) para a Escala Ordinal


Tipo de
Escal Provas
Testes Estatísticos – Indicadores
a Estatísticas
Adequadas
rs de Spearmam.
 de Kendal.
W de Kendall.
Mediana.
Percentis.
Decis, quartis.
Ordin Não
Desvio quartílico.
al paramétricas
Correlação de postos.
Teste de sinais.
Teste de Kolmogorov-Smirnov.
Teste U, Mann-Whitney.
Teste de Kruskal Wallis.
Todos os testes da escala nominal

O nível ordinal fornece informações sobre a ordenação, mas não indica a magnitude das
diferenças entre os valores, por exemplo, quando classificamos uma doença, podemos
afirmar que um grau pode ser mais nocivo que outro, mas não há maneira numérica de
medir estas diferenças.

10
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Podemos afirmar que a escala Intervalar tem todas as características de uma escala
ordinal, além disso, é possível se conhecer as distâncias entre dois números quaisquer
desta escala pois há sempre uma unidade de medida.

Por exemplo, o tempo (hora, dias, meses, anos); as receitas de vendas (reais ou dólares);
os preços (reais ou dólares).

Testes (ou indicadores) para a Escala Intervalar


Tipo de
Escal Provas
Testes Estatísticos Adequados
a Estatísticas
Adequadas
Média.
Desvio-padrão.
Média aritmética.
Desvio padrão, variância.
Desvio médio.
Intervalo, Amplitude total, amplitude média.
Paramétricas e Coeficiente de variação,
Interv
Não Correlação de produto-momento (product-moment
alar
paramétricas correlation)
teste-t;
teste-F,
teste-Z,
ANOVA,
Todos os testes da escala nominal e da escala
ordinal.

A Escala de Razão ou da proporcionalidade permite a aplicação dos testes estatísticos


das escalas descritas anteriormente, pois, a razão (r = a/b) entre duas medidas guarda
uma proporcionalidade independente da escala, no entanto, a restrição fica por conta da
inexistência do zero na medida da escala da proporcionalidade.

O uso do zero na escala da razão tornaria indefinido o resultado das proporções.

Testes (ou indicadores) para a Escala Razão


Tipo de
Escal Provas
Testes Estatísticos Adequados
a Estatísticas
Adequadas
Média geométrica,
Paramétricas e
Média harmônica,
Razão Não
Todos os testes da escala nominal, da escala
paramétricas
ordinal e da intervalar.

Devido as suas características inerentes, a escala da razão permite o acréscimo de dois


testes a mais que os anteriores.

As medidas de dispersão:
11
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Muitas vezes as medidas de posição central não são suficientes para resumir ou
descrever uma base de dados. Neste caso se torna necessário lançar mão de outros
indicadores, eles permitirão compreender melhor as características do conjunto de
informação.

Podemos afirmar que as médias apresentam apenas uma dimensão das bases de dados
que estamos analisando, tornando-se sempre necessário acrescentar as medidas de
dispersão e os intervalos de classe para revelar plenamente as suas características.

Um exemplo: O professor de um curso livre ministrou 40 aulas de uma disciplina e


registrou a presença dos alunos conforme o quadro abaixo:
Frequênci Aluno Aluno Aluno Aluno Aluno Aluno Aluno Aluno Aluno
as 1 2 3 4 5 6 7 8 9
Sala 1 0 2 5 6 8 9 9 13 21
Sala 2 2 3 5 8 8 10 11 12 14

Para entender o comportamento das salas, resolveu resumir os dados em medidas de


posição central e obteve os seguintes resultados:
Resultados Média Moda Mediana
Sala 1 8,11 9,00 8,00
Sala 2 8,11 8,00 8,00

Como podemos observar no quadro acima, as medidas de posição central não são
conclusivas, pois apenas as modas são diferentes, sendo que a diferença neste caso é
insignificante.

Com estes indicadores não é possível afirmar que o comportamento dos alunos da sala 1
e da 2 são diferentes.

No entanto, ao observarmos os dados brutos percebemos que na sala 1 há o mínimo de 0


(zero) faltas e o máximo de 21. Na outra sala, temos o mínimo de 2 faltas e o máximo
14.

Analisando a partir desta perspectiva podemos perceber diferenças entre as duas salas e
afirmar que na sala 1 os alunos são mais constantes no quesito presença.

A amplitude:

A percepção de diferença entre o número mínimo de faltas e o máximo chama-se


amplitude ou intervalo. Quanto maior a distância entre estes limites, maior será a
dispersão dos dados de uma base.

Amplitude = Máximo – Mínimo.


Sala 1 => 21 = 21 – 0
Sala 2 => 12 = 14 – 2

Resultados Intervalo
Sala 1 21

12
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Sala 2 12

Como podemos observar, a Sala 1 apresenta um intervalo maior que a Sala 2 isto
significa que, quanto maior a amplitude, maior será a dispersão da base de dados, ou
seja, o registro das faltas dos alunos da Sala 1 apresentam uma variação maior.

Para que a comparação entre duas bases de dados seja efetiva é importante que tenham
o mesmo número de observações “n”, caso contrário a conclusão será equivocada.
Infelizmente, a amplitude ainda não é um teste conclusivo como medida de variação, os
dados de distribuição de duas (ou mais) amostras, necessitam de indicadores mais
precisos para serem mais bem avaliados.

O desvio Médio Absoluto:

Podemos também medir a variabilidade em termos da distância entre as diversas


observações “xi“ de uma base de dados e a média “ẋ”, esta pode ser uma alternativa – os
desvios são medidos pela diferença (xi – ẋ).

Se concordarmos com esta ideia, podemos utilizar uma medida de variação baseada nos
desvios. No entanto, os desvios das observações abaixo da média são negativos e os
desvios das observações acima são positivos. Estes desvios serão maiores, em valor
absoluto, quanto mais afastadas as observações estiverem da média e a soma destes
desvios será sempre nula.
Média Faltas Sala 1 Desvio Faltas Sala 2 Desvio
8,11 0 -8,11 2 -6,11
8,11 2 -6,11 3 -5,11
8,11 5 -3,11 5 -3,11
8,11 6 -2,11 8 -0,11
8,11 8 -0,11 8 -0,11
8,11 9 0,89 10 1,89
8,11 9 0,89 11 2,89
8,11 13 4,89 12 3,89
8,11 21 12,89 14 5,89
Soma dos Desvios 0,00 Soma dos Desvios 0,00

Para que o resultado dos desvios seja diferente de zero, é necessário somar os desvios
em módulo, desta maneira teremos o valor absoluto do desvio, que divido por “n”
observações obtemos a média. Esta média é chamada de Desvio Médio Absoluto –
DMA.


n

Xi
i 1
DMA 
n

A soma dos desvios da Sala 1 será 39,11, e da Sala 2, 29,11. Ambos ponderados pelas 9
observações temos o seguinte resultado:

13
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Resultados DMA
Sala 1 4,35
Sala 2 3,23

Podemos interpretar este indicador da seguinte maneira. A média dos desvios dos
alunos da Sala 1 em relação à média é 4 (4,35) e para Sala 2 é 3 (3,23). Podemos
afirmar que o DMA é um indicador eficiente de dispersão para estatística descritiva,
mas que não é usado com muita frequência, pois suas propriedades matemáticas não são
tão utilizadas como o desvio padrão.

O Desvio Padrão e a Variância.

O desvio padrão permite descobrir que os dados de uma base, têm valores mais
dispersos que da outra, coisa que os indicadores DMA e intervalo também revelam. No
entanto, as propriedades matemáticas do desvio padrão permitem que ele seja utilizado
em uma distribuição teórica de grande utilidade nos estudos estatísticos, que é
conhecida com o nome de “Distribuição Normal”. Trataremos desta distribuição mais
adiante.

O desvio padrão é calculado através do quadrado dos desvios dividido pelo número “n”
de observações, isto é na realidade uma média.

A média dos desvios ao quadrado, chamamos de variância, se for extraída a raiz


quadrada desta média, tememos o desvio padrão.

Usando-se o exemplo das faltas temos:

Desvio ao
Média Faltas Sala 1 quadrado
8,11 0 65,79
8,11 2 37,35
8,11 5 9,68
8,11 6 4,46
8,11 8 0,01
8,11 9 0,79
8,11 9 0,79
8,11 13 23,90
8,11 21 166,12
Soma dos Desvios ao quadrado 308,89

Os valores 308,89 e 134,89 quando divididos por 9 (“n” observações – ou a média)


representam a variância da Sala 1 e da Sala 2. Se tirarmos a raiz quadrada destes desvios
médios, temos o desvio Padrão.

Resultados Desvio Padrão Variância


Sala 1 6,21 34,32
Sala 2 3,23 14,99

14
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Podemos afirmar que os dados da Sala 1 são duas vezes mais dispersos que os dados da
Sala 2, outra leitura possível é observar que quando o desvio padrão se aproxima de
zero (0) a base de dados que gerou este indicador é mais homogênea, quando o valor se
afasta de zero, os dados que estamos analisando são heterogêneos.

Resumindo os dados de frequência dos alunos da Sala 1 e da Sala 2:

Resultado Interva DM Desvio Coeficiente Variânci Médi Media


Moda
s lo A Padrão de Variação a a na
Sala 1 21,00 4,35 6,21 76,61% 34,32 8,11 9,00 8,00
Sala 2 12,00 3,23 4,11 50,62% 14,99 8,11 8,00 8,00

Podemos definir a variância amostral como:

E o desvio padrão:

Se estivermos tratando com populações temos:

Outra maneira de escrever o Desvio Padrão para Amostra:

 
2

 xi  x 
n

 
i 1

s
n

Para população escrevemos o desvio padrão assim:

xi   
N 2

i 1
 
N

Em estatística usamos notações diferentes para designar uma amostra ou uma


população. A tabela abaixo especifica as principais notações:

Conceito Populações Amostra Observações


Calculamos a média (e as medidas
Média µ ẋ
de posição central) para a amostra

15
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


e para a população da mesma
maneira.
As medidas de desvio para a
Desvio Ϭ Xi amostra e para a população são
calculadas da mesma maneira.
Proporção Π p O mesmo vale para as proporções
Tamanho N n

O coeficiente de Variação (CV).

O coeficiente de variação é um indicador de dispersão relativo. Na perspectiva


matemática é uma proporção, isto é, a divisão do desvio padrão pela média expresso em
porcentagem.

Coeficiente de Variação (CV) = (s/ẋ) x 100

As medidas de dispersão que apresentamos acima são conhecidas como medidas


absolutas, geralmente são comparadas com as médias, revelando um padrão de
dispersão, ou seja, quanto mais próximos de zero, apontam que os dados usados para
seu cálculo são homogêneos.

No entanto, suponha que os preços de produtos agrícolas dobraram de valor devido a


uma grande estiagem.

Preço Preço
Produtos
Antes Depois
Tomate 2,00 4,00
Feijão 4,50 9,00
Arroz 6,20 12,40
Alface 3,10 6,20
Cenoura 2,50 5,00
Batata 3,40 6,80

Média 3,62 7,23


Desvio
1,53 3,05
Padrão

Ao examinarmos a média e o desvio padrão dos produtos acima, na perspectiva dos


valores absolutos, podemos afirmar que a dispersão dos dados dobrou de tamanho
depois da inflação.

Contudo, se abordado pelo CV, temos que antes de depois da inflação a composição dos
dados apresenta o mesmo grau de dispersão. Entendemos o CV como uma proporção do
desvio padrão em relação à média.

CV 42,17% 42,17%

O quadro acima revela a igualdade na dispersão entre as bases de dados, pois foi
mensurada de maneira relativa.

16
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Critérios para a escolha das medidas de dispersão.

Os princípios que determinam a escolha das medidas de dispersão são os mesmos


utilizados para as medidas de posição central, pois antes de produzir os indicadores,
devemos definir os objetivos do trabalho, ou seja, explicitar o que desejamos
compreender.

Quando tratamos de medidas de dispersão, estamos buscando um indicador fiel da


homogeneidade ou heterogeneidade da base de dados, assim, os indicadores expressos
em valores absolutos bem como o relativo são relevantes para esta tarefa.

O uso de programas estatísticos, ou mesmo o Excel, facilitam o tratamento de base de


dados. Neste sentido, o nosso principal esforço é compreender o significado destes
indicadores e interpretá-los corretamente.

MEDIDAS DE ASSIMETRIA E CURTOSE

Este tema trata de distribuição de frequência que abordaremos a seguir, o cálculo dos
indicadores de assimetria e curtose, são apurados, na maioria das vezes, através das
medidas de posição central de dispersão.

Medidas de Assimetria.

As medidas de assimetria e curtose são as que restam para completarmos o quadro das
estatísticas descritivas, que proporcionam, juntamente com as medidas de posição e
dispersão, a descrição e compreensão completas da distribuição de frequências
estudadas.

Estudar as medidas de assimetria permite descobrir algumas propriedades das


distribuições que permite tratar e analisar grandes volumes de dados através de
distribuições teóricas como a distribuição normal.

Além do que, podemos eventualmente encontrar duas ou mais distribuições que


apresentam médias e desvio padrão iguais, mas suas assimetrias são diferentes. As
medidas de assimetria referem-se à forma da curva de uma distribuição de frequências,
mais especificamente do polígono de frequência ou do histograma.

É possível afirmar, preliminarmente, que uma distribuição de frequência é simétrica


quando a média, mediana e moda são iguais, ou seja, apresentam um mesmo valor, ou
ainda, coincidem num mesmo ponto.

Quando a média, mediana e a moda recaem em pontos diferentes da distribuição, isto é,


apresentam valores diferentes, sendo que os deslocamentos desses pontos podem ser
para a direita ou para a esquerda, temos distribuições assimétricas.

a) Simétrica
b) Assimétrica Positiva

17
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


c) Assimétrica Negativa

a) Curva ou Distribuição de Frequências Simétrica


Neste caso, conforme citado anteriormente, a média aritmética será igual à mediana, e
esta, por sua vez, igual à moda.

Assim: ẋ = Me = Mo

Graficamente:

b) Curva ou Distribuição de Frequências Assimétrica à esquerda (Negativa).


Neste caso, a média aritmética apresentará um valor maior do que a mediana, e esta, por
sua vez, apresentará um valor maior do que a moda.
Assim: ẋ > Me > Mo

Graficamente:

A cauda é mais alongada à direita da ordenada máxima (ordenada


correspondente à moda).
Nas distribuições assimétricas à direita, há uma predominância de valores
superiores da moda.

c) Curva ou Distribuição de Frequências Assimétrica à direita (Positiva).


Neste caso a média aritmética será menor do que a mediana, e esta, por sua vez, é menor
do que a moda.
Assim: x < Me < Mo

18
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Graficamente:

A cauda é mais alongada à esquerda da ordenada máxima.


Nas distribuições assimétricas negativas, predominam valores inferiores à moda.

No entanto, não basta apenas examinar as medidas de posição central. É necessário usar
alguns indicadores adequados para verificar se uma distribuição é simétrica ou
assimétrica.

Medindo a Assimetria.

 Comparação entre Medidas de Tendência Central

Trata-se do método mais rudimentar, o qual não permite estabelecer até que ponto a
curva analisada se desvia da simetria. A comparação é bem simples.

x > Mo  Assimetria Positiva


x = Mo  Simetria
x < Mo  Assimetria Negativa

1. Coeficiente de Pearson.

Este indicador utiliza as medidas de média, mediana e desvio padrão. O resultado


geralmente fica no intervalo entre +3 e –3, com zero indicando simetria – 3 assimetria
negativa e + 3 positiva.

Para mensurar a simetria pelo coeficiente de Pearson usamos:

3 ( Média  Mediana)
Coeficiente de Pearson 
Desvio Padão

Assim: -3  Pearson  +3
Assim: 0,15  |Pearson|  1 Assimetria moderada
Assim: 1  |Pearson| => Assimetria forte

Pearson = 0 Temos uma Distribuição Simétrica

19
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula


Pearson > 0 Temos uma Assimetria Positiva
Pearson < 0 – Assimetria Negativa

2. Coeficiente de Bowlley (Coeficiente Quartil de Assimetria)

Em uma distribuição simétrica Me = x = Mo = Q2 e os Quartis (Q1 ou inferior e Q3 ou


superior) são equidistantes da Mediana Q3 – Me = Me – Q1.

Para mensurar a possibilidade de simetria para Bowley usamos a seguinte diferença na


posição dos quartis em relação a mediana:

2 (Q3  Q1  2(mediana))
Bowley 
Q3  Q1
O coeficiente Quartil de Assimetria (ou Bowley) assume valores entre +2 e –2.

Assim: -2  Bowley  +2

Bowley = 0 Temos uma Distribuição Simétrica


Bowley > 0 Temos uma Assimetria Positiva
Bowley < 0 – Assimetria Negativa

3. Terceiro Momento.

O terceiro momento é baseado nos desvios de Xi em relação a ẋ. Para medir o terceiro


momento usamos:


__
( X i  X )3

3 Momento 
o n
s3

O resultado do terceiro momento pode gerar números grandes (positivos e negativos) –


neste caso temos distribuições assimétricas, sendo o zero para distribuições simétricas.

4. Teste de Curtose ou quarto momento.

A Curtose indica quando a curva de uma distribuição se apresenta mais afilada ou mais
achatada do que uma curva padrão, denominada curva normal. De acordo com o grau da
curtose, podemos ter três tipos de curvas de frequência.

Curvas de Distribuição de Frequência.

20
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

a) Curva ou Distribuição de Frequências Mesocúrtica

Quando a curva de frequências apresenta um grau de achatamento equivalente ou da


curva normal.

b) Curva ou Distribuição de Frequências Platicúrtica

Quando uma curva de frequências apresenta um alto grau de achatamento, superior ao


da normal.

c) Curva ou Distribuição de Frequências Leptocúrtica

Quando uma curva de frequências apresenta um alto grau de afilamento, superior ao da


normal.

Para saber o tipo de curva da distribuição de frequência (Curtose), usamos a


seguinte medida:
4

( xi  x)
n

i 1

4 o Momento  n
4

s
Esta medida é conhecida também como “quarto Momento”, e podemos interpretar os
resultados da seguinte maneira: quando obtemos um número maior que 3 temos uma
distribuição leptocúrtica, se for menor que 3 é platicúrtica, caso se aproxime de zero
temos uma distribuição mesocúrtica.

d) Coeficiente de Curtose

O coeficiente de curtose mede o grau de achatamento de uma distribuição em relação a


uma curva normal

É definido pela fórmula abaixo, sendo “Q” quartil e “P” percentil.

21
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de

São Paulo Notas Preliminares de Aula

Q3  Q1
C
2 ( P90  P10 )

Leptocúrtica Platicúrtica Mesocúrtica


É uma curva mais fechada
Mais aberta que a Normal É a curva Normal
que a Normal
C < 0,263 C > 0,263 C = 0,263

Esta medida de assimetria aparece no relatório da Planilha de cálculo do Excel, quando


solicitamos uma análise descritiva de uma base de dados.

As medidas de assimetria e curtose estão ligadas as distribuições de frequências.

Distribuições de Frequências.

22

You might also like