You are on page 1of 14

Estatística Básica Aplicada: Revisão 2004.

02

UNIVERSIDADE FEDERAL DA PARAÍBA


DEPARTAMENTO DE ECONOMIA
DISCIPLINA: ECONOMETRIA
Prof. Dr. Sinézio Fernandes Maia

REVISÃO: ESTATÍSTICA DESCRITIVA

Estatística Descritiva é a parte da estatística que tem a finalidade de


descrever os dados amostrais por meio de medidas de posição, de dispersão, de
assimetria, de curtose e da apresentação em tabelas ou gráficos, sem fazer
nenhuma inferência sobre a população dos dados.

I - Distribuições de Freqüências

Ao estudar grandes conjuntos de dados, é conveniente resumi-los numa


tabela, através do agrupamento dos dados em classes, com suas respectivas
freqüências.
Quando os dados são discretos com valores repetidos, a simples
identificação dos mesmos com as respectivas freqüências, pode ser um
procedimento adequado.
Quando os dados são contínuos, pode acontecer que poucos, ou até nenhum
deles, apresente freqüência. Nestes casos, o procedimento começa pela definição
de classes. Cada classe é determinada por um intervalo (diferença entre os limites
superior e inferior).

Uma distribuição de freqüência é uma tabela na qual os possíveis valores de


uma variável se encontram agrupados em classes, registrando-se o número de
valores observados em cada classe. Os dados organizados em uma distribuição de
freqüência são chamados de dados agrupados.

1.1 - Intervalos de Classe

Para cada classe, em uma distribuição de freqüência, os limites de classe


inferior e superior indicam os valores compreendidos pela classe. Há diversos
métodos para determinar o número de classes (k).

REGRAS BÁSICAS

1. Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de


grandeza) nos Dados Brutos (aqueles ainda não organizados numericamente).
2. Determina-se a AMPLITUDE TOTAL dos dados
AT = Xmáx – Xmín, onde Xmáx: maior valor observado e Xmín: menor valor
observado

1
Estatística Básica Aplicada: Revisão 2004.02

3. Escolhe-se convenientemente o número de classes K (nº inteiro), 5 ≤ K ≤ 15


onde podemos tomar K ≅ n ou a fórmula de Sturges K ≅ 1 + 3,3 ⋅ log n , n ≥
25 (total de observações). Se possível determina-se, ou seja, constrói-se
classes de mesma amplitude, tomando
AT
h≅ .
K
4. Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as FREQÜÊNCIAS
SIMPLES DE CLASSES, elaborando-se, portanto, a tabela de distribuição de
freqüências.

1.2 - CONCEITOS ESSENCIAIS

LIMITES DE CLASSES: Li: Limite inferior de classe; LS: Limite superior de classe
Classe ou Intervalo de classe → Li (incluir) |––– LS (excluir)

Por exemplo, distribuição das Idades, tabela 1.5:


1ª classe → Li = 18 |––– LS = 20; 2ª classe → Li = 20 |––– LS = 22; etc.

AMPLITUDE DE CLASSE: hi = LS – Li, amplitude da i-ésima classe.

Por exemplo, distribuição da Idade, tabela 1.5:


1ª classe → h1 = 20 – 18 = 2; 2ª classe → h1 = 22 – 20 = 2; … ; 5ª classe
→ h1 = 28 – 26 = 2
Como as classes têm mesma amplitude, denominamos, simplesmente, por h
= Li – LS – 2

Li + L S
PONTO MÉDIO DE CLASSE: X i = , ponto médio da i-ésima classe.
2

Por exemplo, distribuição das Idades, tabela 1.5:


18 + 20 20 + 22
1ª classe → X i = = 19 ; 2ª classe → X i = = 21
2 2
No caso de classes com mesma amplitude h, tomamos: X i +1 = X i + h , ou
seja por ex.:

2ª classe → X 1 + h = 19 + 2 = 21

3ª classe → X 2 + h = 21 + 2 = 23 etc.

2
Estatística Básica Aplicada: Revisão 2004.02

1.3 - TIPOS DE FREQÜÊNCIAS

FREQÜÊNCIA SIMPLES OU ABSOLUTA DE CLASSE


fi: freqüência simples da i-ésima classe (número de observações)
k

∑ f =∑ f
i =1
i i = n (número total de observações)

Por ex.: f1 = 12; f2 = 11; f3 = 4; f4 = 1; f5 = 2 e ∑f i = n = 30

FREQÜÊNCIA RELATIVA E PERCENTUAL DE CLASSE

FREQÜÊNCIA RELATIVA (i-ésima classe do valor):


fi
fri = (Razão entre a freqüência simples e o total de observações)
n

∑ fr i = 1 (Soma das freqüências relativas)

FREQÜÊNCIA PERCENTUAL (i-ésima classe ou valor):

fi
f i % = fri ⋅ 100 ou f i % = ⋅ 100
n

∑ f % = 100
i (Soma das freqüências percentuais)

FREQÜÊNCIA SIMPLES ACUMULADA (do tipo “abaixo de”)

Fi = fr1 + fr2 + L + f i , freqüência simples acumulada da i-ésima classe ou valor.

FREQÜÊNCIA RELATIVA E PERCENTUAL ACUMULADA

Fri = fr1 + fr2 + L + f i , freqüência relativa acumulada da i-ésima classe ou valor;


Fi % = f 1 % + f 2 % + f 3 % + L + f i % , freqüência percentual acumulada da i-ésima
classe ou valor

3
Estatística Básica Aplicada: Revisão 2004.02

Tabela 1.1 – Freqüências de determinadas classes obtidas de observações originais


Intervalo Freqüência Freqüência Freqüência Frequ. Relativa Ponto Médio
de Acumulada Relativa Acumulada
Classes fi Fi fri Fri PMi
1 LI1├― LS1 f1 f1 f1/Ft f1/Ft (LI1+LS1)/2
2 LI2├― LS2 f2 F1+f2 f2/Ft (f1+f2)/Ft (LI2+LS2)/2
3 LI3├― LS3 f3 f1+f2+f3 f3/Ft (f1+f2+f3)/Ft (LI3+LS3)/2
4 LI4├― LS4 f4 f1+f2+f3+f4 f4/Ft (f1+f2+f3+f4)/Ft (LI4+LS4)/2
… … … … … … …
K LIk├― LSk fk Ft fk/Ft 1 (LIk+LSk)/2
LI = Limite Inferior; LS = Limite Superior

Pontos importantes na construção de tabelas de freqüências

Intervalos de classes inadequados podem conduzir os usuários a erros:

a) os intervalos de classe devem ser representativos, isto é, a média dos


valores dentro do intervalo devem ser aproximadamente igual ao ponto
médio da classe;

b) os intervalos de classe devem ser do mesmo tamanho, a menos que


determinada amplitude de valores precise de atenção particular;

c) o número de intervalos de classe deve ser um meio-termo entre a


quantidade exigida de detalhes e a facilidade com que o usuário pode
assimilar os dados;

d) a tabela de freqüência deve atender o objetivo de identificar as


características de uma variável.

Em algumas situações, nossos interesses não são as freqüências, ou seja,


quantas observações caem em cada intervalo, mas a freqüência acumulada, isto é,
quantas observações caem acima (ou abaixo) de determinado valor.

A partir dos dados originais ou dos dados distribuídos em classes, podem-se


representá-los graficamente.

1.4 - REPRESENTAÇÃO GRÁFICA

O gráfico estatístico é uma forma de apresentação dos dados estatísticos,


cujo objetivo é o de produzir, no investigador ou no público em geral, uma
impressão rápida e viva do fenômeno em estudo, já que os gráficos falam mais
rápidos que as séries (tabelas).
Para tornarmos possível uma representação gráfica, estabelecemos uma
correspondência entre os termos da série e determinada figura geométrica, de tal
modo que cada elemento da série seja representado por uma figura proporcional.

4
Estatística Básica Aplicada: Revisão 2004.02

- REQUISITOS
A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos
primordiais:

a) Simplicidade - indispensável devido à necessidade de levar a uma rápida


apreensão do sentido geral do fenômeno apresentado a fim de não nos
perdermos na observação de minúcias de importância secundaria.
b) Clareza - o gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo.
c) Veracidade - indispensável qualquer comentário, posto que, se não representa
uma realidade, o gráfico perde sua finalidade.

Os principais tipos de gráficos estatísticos para as distribuições de freqüências são


os DIAGRAMAS, os quais são gráficos geométricos de, no máximo duas
dimensões. Para sua construção, em geral, fazemos uso do sistema cartesiano.
Dentre os principais tipos de diagramas destacamos, segundo a variável em
estudo:

Variável Qualitativa Î GRÁFICOS EM BARRAS OU COLUNAS, GRÁFICOS EM


SETORES
Distribuição por Valores ÆGRÁFICO EM COLUNAS
Variável Quantitativa Î Distribuição por Intervalos Æ HISTOGRAMA, POLÍGONO
DE FREQÜÊNCIAS.

1.4.1 - Histograma

É uma representação gráfica dos resultados das distribuições de freqüências


construídas de retângulos justapostos, cujas alturas são os segmentos de retas
dados pelas freqüências de cada classe e cujas larguras são proporcionadas pelo h.
Dito de outra forma, o histograma é, simplesmente, o equivalente gráfico de uma
tabela de freqüências onde o eixo X estão os extremos inferiores de cada intervalo
de classe e no eixo Y, estão as freqüências correspondentes a cada classe. O
histograma não é claro nos extremos dos intervalos de classe.

Gráfico 3 - Alturas dos estudantes.


14

12

10

4
Freqüência

0
149,7 156,1 162,6 169,0 175,4 181,9 188,3

Altura

5
Estatística Básica Aplicada: Revisão 2004.02

1.4.2 - Polígono de Freqüência

Polígono é um gráfico de linha de uma distribuição de freqüência. O polígono


é uma versão “suavizada” do histograma, porque é constituído unindo os pontos
médios do topo de cada bloco do histograma. Uma outra maneira de representar
graficamente, os dados analisados, é através do polígono de freqüência acumulada
(ogiva), que é traçado utilizando-se as freqüências acumuladas a partir dos limites
superiores de cada classe. A ogiva permite perceber qual a proporção de
observações é maior/menor do que um dado valor.

Gráfico 4 - Alturas dos estudantes


14

12
Polígono de
freqüência
10

4
Freqüência

0
149,7 156,1 162,6 169,0 175,4 181,9 188,3

Altura

II - Medidas de Posição

São chamadas medidas de tendência central, pois representam as


características avaliadas pelos seus valores médios, em torno dos quais tendem a
concentrar-se os dados. Tais medidas possibilitam comparações de séries de dados
pelo confronto de seus valores.

2.1 - Média

É a medida mais comumente usada para descrever resumidamente uma


série de dados. Há vários tipos de médias, sendo que as mesmas podem ser
influenciadas pelos valores extremos da série. Uma alternativa seria remover os
valores mais baixos (5%) e os valores mais altos (5%) para calcular a média com
os 90% das observações restantes.

6
Estatística Básica Aplicada: Revisão 2004.02

2.1.1 - Média Aritmética

A média aritmética é obtida pela soma de todos os valores de uma variável


X dividida pelo número total de observações (n):

X 1 + X 2 + ... + X n i =1
∑ Xi
X = =
n n

entretanto, se na série existirem dados repetidos, os k diferentes valores da


variável X podem ser agrupados, ou seja, a cada valor Xi estará associada uma
respectiva freqüência fi, obtendo-se então, a média aritmética ponderada:

k
∑ fi X i
f X + f 2 X 2 + ... + f k X k i =1 k
X = 1 1
f1 + f 2 + ... + f k
= k em que: ∑ fi = n
∑ fi i =1
i =1

2.1.2 - Média Geométrica

A média geométrica é definida como a raiz de ordem n no produto de todos


os valores que uma variável X assume, sendo dada por:

n
X G = n X 1 ⋅ X 2 ⋅ ... ⋅ X n = n Π X i
i =1

Se cada Xi estiver associada uma respectiva freqüência f, então:

k k
∑ fi f f f ∑ fi k f
XG = i =1
X1 1 ⋅ X22 ⋅ ... ⋅ X k k = i =1 Π X i i
i =1
uma propriedade importante desta medida, é que o produto das razões de cada
observação pela média geométrica é igual a um. Como desvantagem, se a série de
dados tiver valores menores ou igual a zero, a média geométrica não poderá ser
calculada.

2.2 - Mediana

Colocados os valores em ordem crescente de grandeza (rol), a mediana (Md)


será o valor que ocupa a posição central da série de dados, ou seja, é o valor que
divide a série em duas partes com números iguais de elementos. A mediana é
preferível à média quando se está interessado em conhecer exatamente o centro da
distribuição dos dados, ou ainda, quando os valores extremos podem afetar
sensivelmente a média. O cálculo da media é feito sob duas condições:

a) n par: Md será o valor do rol que ocupa a posição entre as duas


observações do meio na disposição ordenada. A mediana é a média dos
valores numéricos correspondentes àquelas duas observações centrais:

7
Estatística Básica Aplicada: Revisão 2004.02

X n +1
2

b) n impar: Md será o valor do rol que ocupa o ponto de posicionamento


(n+1)/2 das observações após a ordenação

2.3 - Moda

A moda (Mo) é o valor que ocorre com maior freqüência ou o valor que mais
se repete. Quando a série de dados é tal que as freqüências são maiores nos
extremos, ou quando se quer destacar um valor de alta freqüência ou quando se
pretende obter uma medida rápida e aproximada da tendência central, a moda
pode então, ser considerada para a interpretação dos dados. Com relação à moda,
uma série de dados pode ser classificada em amodal (não possui moda), unimodal
(possui apenas uma moda), bimodal (possui duas modas) ou multimodal (possui
mais de duas modas).

Exemplo: Dez funcionários do departamento de pessoal obtiveram as seguintes


notas, em ordem crescente: 7,0; 7,0; 7,5; 7,9; 8,0; 8,6; 8,6; 8,6; 8,6; 9,5;

Moda= 8,6

2.4 – Quartis, Decis e Percentis

Essa idéia de dividir o conjunto ordenado de dados em partes iguais pode


ser estendida em: quartil, decil e percentil. Os quartis Q1, Q2 e Q3 dividem a série
de dados em quatro partes iguais, cada parte com 25% dos dados. Os decis D1, D2,
..., D5, ... , D9 dividem a série em dez partes iguais, cada parte com 10% dos
dados. Os percentis P1, P2, ..., P50, ..., P99 dividem a série em cem partes iguais,
cada com 1% dos dados. Em termos de comparações entre estas medidas, tem-se
Q2=D5=P50=Md

Q3 = X 3n 1
+
4 2

Exemplo: Oito vendedores venderam os seguintes números de unidades de um


produto, em ordem crescente: 5, 8, 8, 11, 11, 11, 14, 16

Q3 = X  3•8 1  = X  24 1  = X 6,5 = 12,5


 4 + 2   4 + 2 

Exemplo 2: Dez funcionários do departamento de pessoal obtiveram as seguintes


notas, em ordem crescente: 7,0; 7,0; 7,5; 7,9; 8,0; 8,6; 8,6; 8,6; 8,6; 9,5;

Q2 = X  2•10 1  = X  20 1  = X 5,5 = 8,3


 4 + 2   4 + 2 

8
Estatística Básica Aplicada: Revisão 2004.02

III - Medidas de Dispersão

São utilizadas para avaliar o grau de variabilidade dos dados. Não se


justifica calcular uma média de um conjunto de dados onde não haja variação,
todavia se a variabilidade desses dados for muito grande, a representatividade da
média será muito pequena. Assim, é importante caracterizar a dispersão dos dados,
uma vez que diferentes amostras com médias semelhantes, podem apresentar
diferentes variabilidades.

3.1 - Amplitude Total

É a diferença entre o maior e o menor dos valores da série de dados, ou


seja, é o maior desvio da amostra. A sua utilização, além de mostrar o máximo
desvio, serve para uma avaliação preliminar dos dados, verificando-se a
possibilidade de possíveis erros nas coletas dos dados ou das digitações, já que as
variáveis podem apresentar extremos conhecidos.

AT = Xmaior – Xmenor

A amplitude é, na verdade, uma medida fraca de dispersão, porque ela


considera somente os valores extremos e não diz nada sobre a distribuição dos
valores intermediários.

3.2 - Intervalo Interquartil

Para algumas finalidades, a desvantagem da amplitude é o fato de seu


cálculo basear-se apenas nos dois valores extremos. A medida que mantém as
propriedades da amplitude, sem essa desvantagem, é a amplitude interquartílica.
Para calcularmos, organizamos todas as observações por ordem de grandeza e
calculamos Q1 como o valor da observação que está a um quarto na fila de
ordenação; Q3 está a três quartos e, a distância entre Q1 e Q3 agrega 50% das
observações.

n +1
Q1: Ponto de posicionamento = observação ordenada
4
3( n + 1)
Q3: Ponto de posicionamento = observação ordenada
4

A distância entre os quartis superior e inferior mede a dispersão da metade


central das observações e é conhecida como intervalo interquartil:

Amplitude Interquartil = Aiq = Q3 − Q1

Quanto maior for o valor da amplitude que incorpora o valor 50% das
observações, maior será a dispersão dos dados. Além disso, a amplitude
interquartílica não é afetada pelos valores extremos. Exemplo

9
Estatística Básica Aplicada: Revisão 2004.02

Figura 2.2 – Amplitude interquartílica

50%

25% 25%

Menor Q1 Mediana Q3 Maior

3.3 - Desvio Médio Absoluto

O desvio médio absoluto, ou DMA, é baseado na diferença entre cada valor


do conjunto de dados e a média do grupo. O calculado é a média destes desvios
(alguns estatísticos usam a diferença entre cada valor e a mediana). Se fosse
calculada a média das diferenças positivas e negativas entre cada valor e a média
aritmética, o resultado iria ser, de fato, sempre igual a zero. Por esta razão, são
tomadas as diferenças em valores absolutos (ou em módulo),

DMA =
∑X−X
n

3.4 - Variância

A variância é similar ao desvio médio no sentido de que é também baseada


nas diferenças entre cada valor do conjunto de dados e a média do grupo. A
variância é dada pela soma dos quadrados dos desvios de cada observação em
relação à média, dividida pelo número de graus de liberdade da amostra, ou seja,
ela é a média dos (n-1) desvio quadrático e independente.
Para uma população, a variância é representada pela letra grega minúscula
2
σ (ler “sigma dois”) e a variância de uma amostra é representada por s2 (em
2
alguns livros pode ser representado por σˆ (ler “sigma dois chapéu”).
Para uma amostra de n valores X1, X2, ..., Xn de uma variável X, a variância
é dada por:

2
 n 
 ∑ Xi 
n n  
∑ ( X i − X )2 2  i =1
∑ Xi − n 
s 2 = i =1 = i =1
n −1 n −1

Se na série existirem dados repetidos, a variância dos k diferentes valores


X1, X2, ..., Xk de uma variável X, associados às freqüências f1, f2,..., fk
respectivamente, será dada por:

10
Estatística Básica Aplicada: Revisão 2004.02

2
 k 
 ∑ fi X i 
k  
2  i =1 
k ∑i i
f X − k
∑ fi ( X i − X )2 i =1
∑ fi
s = i =1 k
2
= k
i =1

∑ fi − 1 ∑ fi − 1
i =1 i =1

3.5 - Desvio Padrão

Para se retornar à unidade original de avaliação de uma variável X e obter


uma medida de melhor interpretação, define-se o desvio padrão como sendo a
raiz quadrada positiva da variância:

s = s2

intuitivamente, o desvio representa uma média dos desvios (absolutos) que


todos os valores amostrais possuem ao redor da média. Valores da série próximos
uns dos outros originam um desvio padrão menor, enquanto valores muito
afastados uns dos outros dão um desvio padrão maior. Em outras palavras, a série
de dados que apresentar desvio padrão maior, terá uma distribuição de freqüências
mais aberta que a série com desvio padrão menor.

3.6 - Coeficiente de Variação

É uma medida admensional, útil para comparar variabilidades de diferentes


amostras, onde as médias são muito desiguais ou as unidades de medidas são
diferentes. O coeficiente de variação (CV) é o desvio padrão expresso em
porcentagem da média, isto é, magnitude relativa do desvio padrão quando
comparado com a média da distribuição das medidas. O coeficiente é dado por:

s
CV = ⋅ 100
X

Esse coeficiente é, em geral, usado para medir variações na dispersão ao


longo do tempo quando a média se move para cima ou para baixo.

11
Estatística Básica Aplicada: Revisão 2004.02

3.7 - Erro Padrão da Média

O erro padrão da média representa a variabilidade média entre as médias


amostrais possíveis de serem coletadas. Intuitivamente, dá a idéia da precisão da
estimativa obtida para a média, sendo que aquela que apresentar maior erro
padrão terá menos precisão. É inversamente proporcional ao tamanho da amostra e
diretamente proporcional ao desvio padrão, sendo definido como:

s
sx =
n

É usual apresentar a média e o erro padrão da média com a seguinte


indicação:

X ± s x = [X − s x X + sx ]

IV – Formato de uma distribuição

O terceiro e quarto momentos1 de uma distribuição são freqüentemente


usados para estudar a “aparência” de uma distribuição, em especial sua assimetria
e sua curtose. Em outras palavras, a distribuição dos dados pode ser simétrica ou
não, ou ainda achatada ou pontiaguda e, isso, dará um formato à curva de
distribuição.

4.1 - Medida de Assimetria

Denomina-se assimetria o grau de afastamento da simetria de uma


distribuição de dados. Em uma distribuição simétrica, tem-se igualdade dos valores
da média, mediana e moda. Entretanto, se numa distribuição ocorrer:

a) X ≤ Md ≤ Mo : existirão mais dados da série maiores do que a média,


porem a curva de distribuição terá uma cauda mais longa para os dados
menores do que a média, isto é, diz-se que a distribuição tem assimetria
negativa;

b) X ≥ Md ≥ Mo : existirão mais dados da série menores do que a média,


porém a curva da distribuição terá uma cauda mais longa para os dados
maiores do que a média, isto é, diz-se que a distribuição tem assimetria
positiva.

1
O primeiro momento é a média e o segundo momento é a variância.

12
Estatística Básica Aplicada: Revisão 2004.02

A estimativa do coeficiente de assimetria (S) de uma variável X é dada por:

n 3
X −X
∑  i s 
Sˆ = I =1
N
Interpretação

a) S = 0 : se o resultado for zero, a distribuição é simétrica,


b) S < 0 : se o valor for negativo, a distribuição é assimétrica negativa
(inclinada para a esquerda) e,
c) S > 0 : se o resultado for positivo, a distribuição é assimétrica positiva
(inclinada para a direita).

4.2 - Medida de Curtose

Denomina-se curtose o grau de achatamento da distribuição.

Para se estimar o grau de curtose (K), utiliza-se a seguinte fórmula:

n 4
X −X
∑  i s 
K = i =1
n

13
Estatística Básica Aplicada: Revisão 2004.02

O resultado pode ser assim definido:

a) K = 3 : Mesocúrtica – a distribuição de freqüências é a própria


distribuição normal;
b) K < 3 : Platicúrtica – a distribuição é achatada (alta variabilidade);
c) K > 3 : Leptocúrtica – a distribuição é concentrada em torno da
média (alta homogeneidade).

Obs: A assimetria positiva surge quando a média aritmética é aumentada por


algum valor extraordinariamente elevado e, a assimetria negativa ocorre quando a
média é reduzida por algum valor extremamente baixo. Os dados são simétricos
quando não existem valores realmente extremos em uma direção específica, de
modo que os valores baixos e altos se equilibram entre si.

Bibliografia Básica

BUSSAB, W. O e MORETTIN, P. A. Estatística Básica. 5a Edição. São


Paulo: Editora Saraiva, 2002.
KAZMEIR, L. J. Estatística Aplicada à Economia e Administração. São
Paulo: McGraw Hill, 1982.
LEVINE, D. M. et all Estatística: Teoria e Aplicações. Rio de Janeiro:
Livros Técnicos e Científicos Editora S.A. – LTC, 2000.
MILONE, G. e ANGELINI, F. Estatística Aplicada. São Paulo: Editora
Atlas, 1995.
SILVER, M. Estatística para Administração. São Paulo: Atlas, 2000.

14

You might also like