Professional Documents
Culture Documents
anlise de dados
, e outros
icha Tcnica
Anlise de Dados
Texto de Apoio para os Professores do 1. ciclo
Editor
Ministrio da Educao
Direco-Geral de Inovao e de Desenvolvimento Curricular
Autores
Maria Eugnia Graa Martins, Lusa Canto e Castro Loura,
Maria de Ftima Mendes
Design
Manuela Loureno
Execuo Grfica
Editorial do Ministrio da Educao
Tiragem
7500 Exemplares
Depsito Legal
262 674/07
ISBN
978-972-742-261-6
Nota de Apresentao
No mbito do Programa de Formao Contnua em Matemtica iniciado em 2005 para
os professores do 1. ciclo e que se alargou no ano seguinte aos professores do
2. ciclo, foram identificados aspectos e temas relevantes para a formao em
Matemtica dos professores do Ensino Bsico. Uma das vertentes que se destacou foi
a importncia de ter disponveis documentos cientficos que incidam nas temticas
abordadas nos primeiros anos de escolaridade.
A publicao desta brochura sobre Anlise de Dados concretiza a iniciativa de
organizar publicaes de matemtica focadas nas temticas centrais do currculo do
Ensino Bsico.
A partir de uma proposta da Comisso de Acompanhamento do Programa de
Formao Contnua em Matemtica, o Ministrio da Educao, atravs da Direco-Geral de Inovao e de Desenvolvimento Curricular, convidou Maria Eugnia Graa
Martins, Lusa Canto e Castro Loura e Maria de Ftima Mendes a elaborar uma brochura que apoiasse, do ponto de vista cientfico, os professores do Ensino Bsico no
domnio da organizao, anlise e interpretao de dados.
Esta publicao constitui-se como um importante recurso posto disposio dos
professores numa temtica que assume cada vez maior relevncia no mundo de hoje.
Paralelamente, marca a afirmao da importncia da temtica da Anlise de Dados
desde os primeiros anos de escolaridade apoiando o professor no desenvolvimento do
seu conhecimento matemtico.
Lisboa, 20 de Julho de 2007
Lus Capucha
Prefcio
Esta brochura foi organizada no mbito do Programa Nacional de Formao Contnua
em Matemtica para professores do 1. ciclo do Ensino Bsico. A sua finalidade
constituir um instrumento de apoio, cientfico e didctico, no domnio da organizao,
anlise e interpretao de dados.
A publicao foi organizada de modo a incluir duas vertentes, a primeira das quais
relacionada com os conhecimentos cientficos associados Estatstica, onde se
procurou transmitir, de forma clara e simples, os conceitos e procedimentos que
consideramos fundamentais serem do conhecimento de um professor do Ensino
Bsico. medida que esses conceitos e procedimentos so desenvolvidos, vo sendo
apresentados exemplos ilustrativos a partir de contextos do dia-a-dia. Para alm dos
exemplos so ainda propostas diversas tarefas, que possibilitam ao professor uma
melhor apropriao dos conceitos envolvidos.
A outra vertente, de mbito mais didctico, pretende constituir um recurso para o
trabalho a ser desenvolvido na sala de aula no mbito da educao estatstica. Assim,
e ao longo de todos os captulos, so apresentadas e exploradas tarefas que podem
ser propostas a alunos do Ensino Bsico. Foi ainda preocupao das autoras, dar
exemplos, para alm dos relacionados com a vida de todos os dias, de contextos
provenientes de outras reas curriculares.
Considerando que hoje em dia o computador faz parte, cada vez mais, do nosso
quotidiano, sugerimos, a propsito da construo de diferentes modos de organizao
de dados, o recurso ao Excel, uma ferramenta informtica de utilizao acessvel e
que facilita muitos dos procedimentos propostos.
A explorao feita ao nvel dos conceitos e processos de organizao, anlise e interpretao de dados, vai um pouco para alm de todo o trabalho a desenvolver na sala
de aula. No entanto, cremos que um professor no deve esgotar o seu conhecimento
no que explora com os seus alunos, necessrio que tenha um conhecimento slido
e mais aprofundado sobre os mesmos assuntos.
Por outro lado fundamental que a actividade na sala de aula, em torno da anlise
de dados, seja realizada de forma integrada no desenvolvimento de projectos que
partam do interesse dos alunos e contribuam para o desenvolvimento das
competncias estatsticas.
Acreditamos que a publicao desta brochura possa contribuir para considerar a
literacia estatstica como uma vertente fundamental para o desenvolvimento de
cidados crticos e intervenientes, apesar de, at agora, no currculo do ensino bsico
dos primeiros anos, o papel que lhe tem sido atribudo ter sido pouco relevante.
As autoras
I ndice
Captulo
Objectivo
.......................................................................................................................
1.1 Introduo ....................................................................................................................
1.2 Dados e Variveis..........................................................................................................
Na Sala de Aula .................................................................................................................
Tarefa Vamos conhecer a turma!....................................................................................
Tarefa Vamos conhecer os animais I ..............................................................................
Tarefa proposta..................................................................................................................
9
11
13
17
17
19
20
Captulo
21
Objectivo
.......................................................................................................................
2.1 Introduo ....................................................................................................................
2.2 Tabelas e grficos para dados qualitativos..................................................................
2.2.1 Tabela de frequncias para dados qualitativos ..............................................
2.2.2 Grfico de pontos e grfico de barras para dados qualitativos ....................
2.2.2.1 Grfico de pontos .........................................................................................
2.2.2.2 Grfico de barras ...............................................................................
2.2.3 Pictograma .......................................................................................................
2.2.4 Diagrama circular ............................................................................................
Tarefa Vamos conhecer os animais II .............................................................................
Utilizao do Excel ............................................................................................................
2.3 Tabelas e grficos para dados quantitativos discretos ...............................................
2.3.1 Tabela de frequncias para dados quantitativos discretos ...........................
2.3.2 Grfico de pontos e grfico de barras para dados quantitativos discretos ....
2.3.2.1 Grfico de pontos...............................................................................
2.3.2.2 Grfico de barras ...............................................................................
Tarefa Vamos conhecer os animais III............................................................................
2.3.3 Exemplos de tabelas e grficos para dados quantitativos discretos .............
Utilizao do Excel ............................................................................................................
2.4 Tabelas e grficos para dados quantitativos contnuos .............................................
2.4.1 Tabela de frequncias para dados contnuos.................................................
2.4.2 Histograma .......................................................................................................
2.4.3 Histograma acumulado ....................................................................................
2.4.4 Exemplos de tabelas e grficos para dados quantitativos contnuos............
Utilizao do Excel ............................................................................................................
2.5 Outras representaes grficas ...................................................................................
2.5.1 Diagrama de extremos e quartis .....................................................................
2.5.1.1 Construo do diagrama de extremos e quartis para
dados agrupados............................................................................................
2.5.2 Grfico de caule-e-folhas ................................................................................
Tarefa Quantos segundos se consegue estar sem respirar?...........................................
Utilizao do Excel ............................................................................................................
2.6 Algumas formas bsicas de distribuio de dados ......................................................
2.7 Representaes grficas e tabelas de frequncias para dados bivariados.................
2.7.1 Diagrama de disperso.....................................................................................
2.7.2 Tabela de frequncias para dados bivariados ................................................
2.8 Um grfico vale mais do que mil palavras? ...................................................................
2.8.1 Utilizao de pictogramas ...............................................................................
2.8.2 Utilizao do diagrama circular ......................................................................
2.8.3 Escalas e escalas ..............................................................................................
2.8.4 Outras situaes Exemplo de um grfico pouco elucidativo .....................
21
23
24
24
25
25
26
28
29
30
30
33
33
34
34
35
37
38
43
44
47
48
51
53
55
59
59
61
61
62
65
68
72
72
75
77
77
81
82
84
Captulo
Objectivo
.......................................................................................................................
3.1 Introduo ....................................................................................................................
3.2 Medidas de localizao.................................................................................................
3.2.1 Mdia................................................................................................................
3.2.2 Mediana............................................................................................................
3.2.3 Quartis..............................................................................................................
3.2.4 Percentis ..........................................................................................................
3.2.5 Moda ................................................................................................................
Tarefa Vamos pesar laranjas (cont.) ................................................................................
Na Sala de Aula..................................................................................................................
Tarefa O melhor dar a cada um a mdia! ....................................................................
Tarefa Vamos comer queijo, mas no exageremos... ......................................................
Tarefas propostas...............................................................................................................
3.3 Medidas de disperso....................................................................................................
3.3.1 Amplitude.........................................................................................................
3.3.2 Amplitude interquartis ....................................................................................
3.3.3 Desvio-padro...................................................................................................
3.4 Coeficiente de correlao............................................................................................
Captulo
85
87
87
97
99
100
102
104
106
108
111
113
114
114
117
122
123
125
129
131
131
134
136
138
139
139
139
146
Objectivo
....................................................................................................................... 153
4.1 Introduo .................................................................................................................... 155
4.2 Clculo de probabilidades numa situao especial................................................... 157
Tarefa Vamos lanar dois dados ..................................................................................... 160
Na Sala de Aula.................................................................................................................. 162
Tarefa O que mais provvel? ........................................................................................ 162
Tarefa Vamos lanar dois dados (cont.) ......................................................................... 163
Tarefa Ser que a moeda equilibrada?......................................................................... 164
Tarefa Quem que ganha o jogo? .................................................................................. 166
Tarefa proposta.................................................................................................................. 170
DADOS e VARIVEIS
1.1
Introduo
Para dar dois exemplos da nossa vida corrente, pense-se nos resultados obtidos num
teste que um professor deu sua turma e nos resultados obtidos numa sondagem
boca da urna nas eleies presidenciais. No primeiro caso, a populao a turma e
os dados que se tm referem-se a toda a populao enquanto que, no segundo caso,
os dados referem-se a uma pequena parte da populao de interesse. A grande
maioria das situaes onde necessria a utilizao de metodologias estatsticas,
enquadra-se neste segundo caso.
anlise de dados
11
DADOS e VARIVEIS
DADOS e VARIVEIS
anlise de dados
A fase seguinte do estudo de uma coleco de dados (que no ser, aqui, objecto de
estudo) designa-se por anlise inferencial ou inferncia: fase da anlise de dados
onde se propem possveis modelos probabilsticos para a forma como os dados
referentes a toda a populao se distribuem e se interligam. com base nesses
modelos que se infere da amostra para a populao (da parte para o todo).
12
1.2
Dados e Variveis
3
3
3
3
5
2
2
4
2
2
3
3
4
3
3
3
2
2
2
1
2
3
2
3
2
1
3
2
2
2
3
3
2
3
2
2
5
3
1
2
rea (m )
99,0
90,5
109,0
104,8
138,7
87,3
93,7
118,5
88,9
95,6
104,3
126,5
118,5
98,9
100,3
94,7
88,0
92,4
101,1
66,3
96,8
103,8
109,0
119,0
100,8
79,5
114,6
91,1
94,9
98,1
94,9
103,0
104,4
112,9
87,6
76,7
163,3
154,2
75,9
90,2
Estado
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
1
1
0
1
0
0
0
0
Garagem
Zona
0
0
0
0
1
0
0
0
1
0
0
0
0
1
1
0
0
1
0
1
0
0
1
1
1
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
C
B
B
B
A
B
B
B
A
B
C
A
B
B
A
B
C
B
A
A
A
A
A
A
A
A
B
C
A
A
B
B
A
A
C
A
B
A
A
B
Preo (10 )
3
138,50
190,30
179,26
162,74
357,32
157,39
138,34
209,46
169,60
153,56
149,00
299,33
207,66
182,86
236,27
188,17
122,84
149,20
160,13
147,89
202,63
205,92
185,66
210,21
208,88
186,09
183,49
126,80
165,69
290,00
170,18
189,22
255,90
281,25
121,47
210,24
295,98
255,03
135,69
151,26
13
DADOS e VARIVEIS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
N. assoalhadas
anlise de dados
Ident.
DADOS e VARIVEIS
anlise de dados
14
anlise de dados
15
DADOS e VARIVEIS
De notar que a primeira coluna da tabela no se pode classificar como uma varivel,
uma vez que se trata de um mero identificador no se reportando a qualquer
caracterstica da unidade observacional.
Conhecermo-nos uns aos outros faz parte do nosso dia a dia de vida em sociedade.
Fazer ressaltar as semelhanas e diferenas do grupo de alunos da turma pode ser
uma boa forma de sensibilizar os alunos para a importncia de organizar e analisar
dados e para os confrontar com os diversos tipos de dados.
Uma vez que interessa considerar e distinguir variveis qualitativas e quantitativas
(discretas e contnuas), eis alguns exemplos:
Qualitativas cor dos olhos, ms em que nasceu, transporte que usa para vir
para a escola, cor de que mais gosta, animal de estimao,...
Quantitativas discretas nmero de irmos, nmero de letras do nome,
nmero de vogais no nome,...
Quantitativas contnuas comprimento do palmo, tempo que demora a ir
de casa para a escola, peso da mochila,...
Destas variveis escolhemos algumas para ilustrar de que modo podero ser
abordados diversos conceitos estatsticos muito simples.
A propsito de se conhecer melhor os alunos da turma, e da forma de organizar as
diferentes caractersticas, o professor pode propor que se preencha uma tabela, como
a que a seguir se apresenta, que rene algumas caractersticas de cada aluno:
Nome
Nmero de letras
no nome
Cor dos
olhos
Comprimento do
palmo
Nmero de
irmos
17
Nome
DADOS e VARIVEIS
anlise de dados
18
Nmero
de letras
no nome
17
14
12
9
16
11
15
15
16
13
18
13
14
11
14
15
14
11
15
14
Tempo que
demora de
casa escola
(minutos)
3
32
25
20
17
15
33
22
9
35
25
28
10
21
20
6
5
19
13
5
Cor dos
olhos
Azuis
Castanhos
Castanhos
Castanhos
Azuis
Azuis
Pretos
Azuis
Castanhos
Castanhos
Castanhos
Verdes
Castanhos
Castanhos
Castanhos
Pretos
Castanhos
Castanhos
Castanhos
Castanhos
Comprim.
do palmo
(cm)
Nmero
de
irmos
14,7
15,6
15,9
14,2
16,3
13,5
14,4
15,1
15,2
16,2
15,9
13,6
17,3
14,7
15,0
13,8
14,3
15,4
14,8
13,2
3
1
1
1
1
2
1
1
1
1
2
0
1
2
0
4
1
0
1
3
Tarefa
Vamos conhecer os animais I
Uma outra proposta interessante para os alunos e que lhes permite distinguir
diferentes tipos de variveis, a construo de um ficheiro com informao relativa
a alguns animais. Por exemplo, numa turma cada aluno recolhe informao sobre um
animal, nomeadamente no que diz respeito s seguintes caractersticas:
Ter asas
Ter penas
Ter escamas
Nmero de pernas
Por ovos
Viver na gua
Nome
Co
Gato
Andorinha
Elefante
Burro
Sardinha
Melro
Girafa
Urso
R
Pintassilgo
Carapau
Pescada
Rato
Piriquito
Galinha
Baleia
Mosca
Barata
Aranha
Tem asas
N. de Pernas
Vive na gua
Tem penas
Tem plo
Tem escamas
Pe ovos
No
No
Sim
No
No
No
Sim
No
No
No
Sim
No
No
No
Sim
Sim
No
Sim
Sim
No
4
4
2
4
4
0
2
4
4
2
2
0
0
4
2
2
0
6
6
8
No
No
No
No
No
Sim
No
No
No
Sim
No
Sim
Sim
No
No
No
Sim
No
No
Sim
No
No
Sim
No
No
No
Sim
No
No
No
Sim
No
No
No
Sim
Sim
No
No
No
No
Sim
Sim
No
Sim
Sim
No
No
Sim
Sim
No
No
No
No
Sim
No
No
Sim
No
No
No
No
No
No
No
No
Sim
No
No
No
No
No
Sim
Sim
No
No
No
No
No
No
No
No
No
Sim
No
No
Sim
Sim
No
No
Sim
Sim
Sim
Sim
No
Sim
Sim
No
Sim
Sim
Sim
19
Tarefa proposta
Conhecer os hbitos de lazer
Outro exemplo de tarefa que pode ser proposta aos alunos na sala de aula, a
seguinte: Pretende-se conhecer os hbitos de lazer dos alunos da escola. Na turma,
os alunos, com a ajuda da professora, preparam as perguntas convenientes para
obter a informao desejada e classificam o tipo de variveis utilizadas, num estudo
anlogo ao feito na tarefa anterior.
20
2.1
Introduo
anlise de dados
23
Esta anlise inicial de dados, que feita utilizando tabelas e grficos, vai-nos permitir
responder rapidamente a algumas questes, tais como:
2.2
anlise de dados
24
Garagem
Frequncia
Absoluta
(ni)
Frequncia
Relativa
(fi)
Estado
Frequncia
Absoluta
(ni)
Frequncia
Relativa
(fi)
Sem garagem
Com garagem
27
13
0,675
0,325
Usada
Nova
31
9
0,775
0,225
Total
40
1,000
Total
40
1,000
Zona
Frequncia
Absoluta
(ni)
Frequncia
Relativa
(fi)
A
B
C
19
16
5
0,475
0,400
0,125
Total
40
1,000
anlise de dados
A representao grfica mais simples que se pode construir o grfico (ou diagrama)
de pontos (dotplot). Para obter esta representao basta desenhar um eixo horizontal
(ou vertical), onde se assinalam as diferentes modalidades ou categorias da varivel
em estudo e, por cima de cada modalidade (ou ao lado), se representa um ponto,
sempre que ao percorrer o conjunto de dados se encontrar a respectiva modalidade.
Por exemplo, vejamos como obter o grfico de pontos para a varivel Zona, da tabela
com os Dados sobre casas, do Captulo 1. Num primeiro passo desenhamos um eixo,
por exemplo horizontal, onde assinalamos as 3 modalidades diferentes da varivel
Zona: A, B e C. Depois, vamos nos passos seguintes colocando pontos, uns em cima
dos outros, conforme formos percorrendo o conjunto dos dados C, B, B, B, A, ..., B
relativos varivel Zona:
Observao:
25
anlise de dados
26
Este tipo de grfico (ou diagrama) de barras ser objecto de estudo na seco
seguinte.
35
30
30
25
25
20
15
10
20
15
10
0
Sem garagem
Com garagem
Garagem
25
20
15
10
5
0
Usada
Nova
Estado
Zona
anlise de dados
35
30
N. de casas
35
N. de casas
N. de casas
27
2.2.3 Pictograma
Uma representao grfica que resulta especialmente atraente o pictograma.
Comea-se por escolher uma figura ilustrativa da unidade observacional. Cada figura
pode representar uma ou mais unidades observacionais. De seguida procede-se como
na construo do grfico de barras mas, em vez de rectngulos, empilham-se as
figuras que representam as unidades observacionais at perfazer a frequncia
absoluta observada em cada categoria. Esta representao s pode ser utilizada
quando a varivel em estudo qualitativa.
anlise de dados
28
Admita-se que cada uma destas figuras representa 5 casas. O pictograma da varivel
qualitativa Zona ter 3 destas casinhas e mais uma quarta a que se lhe tira uma
quinta parte, na categoria correspondente zona A (onde a frequncia absoluta 19).
Na categoria correspondente zona B (onde a frequncia absoluta 16), ter 3 casinhas e mais um quinto de uma terceira casinha e a zona C (onde a frequncia
absoluta 5) ter apenas uma casinha.
Embora seja uma representao grfica muito sugestiva, necessrio ter os devidos
cuidados com as figuras utilizadas e com a forma como so utilizadas, j que, com
alguma frequncia, do origem a representaes erradas, como veremos na seco
2.8.
Zona
A
B
C
Zona
A
40,0%
B
C
anlise de dados
47,5%
29
Tarefa
Vamos conhecer os animais Il
Freq. Rel.
Tem asas
No tem asas
7
13
0,35
0,65
Total
20
1.00
Tem asas
No tem asas
65%
30
Grfico de barras
Para construir o grfico de barras, a partir de uma tabela de frequncias, se as classes
so categorias, basta utilizar o seguinte procedimento:
Seleccionar as clulas que contm as classes
e as frequncias absolutas (ou frequncias
relativas), incluindo os cabealhos, ou seja
Q2 a Q5 e R2 a R5 (se a coluna que contm
as frequncias relativas, no for adjacente
que contm as classes, ento seleccione as
classes e com a tecla CTRL pressionada
seleccione as clulas que contm as frequncias relativas);
Seleccionar, no menu, o cone Chart
anlise de dados
31
anlise de dados
32
Diagrama circular
A representao do diagrama circular, em Excel, imediata, utilizando-se o seguinte
procedimento:
Seleccionar as clulas que contm as classes e as frequncias absolutas (ou
frequncias relativas), ou seja I3 a I5 e J3 a J5 (se a coluna que contm as
frequncias relativas, no for adjacente que contm as classes, ento
seleccione as classes e com a tecla CTRL pressionada seleccione as clulas que
contm as frequncias relativas);
C
13%
Zona
A
47%
B
40%
Clicar no boto Next, duas vezes, para passar dois passos, at aparecer uma
caixa de dilogo, que apresenta vrias opes: Em Legend, desactivar a
legenda; em Titles acrescentar o ttulo, e em Data Labels seleccionar as opes
pretendidas (ns seleccionmos Category name e Percentage).
2.3
anlise de dados
33
anlise de dados
No exemplo das casas, temos uma varivel quantitativa discreta que o Nmero de
assoalhadas. Aps contagem do total de casas com cada nmero de assoalhadas
obtm-se a seguinte tabela de frequncias:
34
N. de Assoalhadas
x*i
Freq. Abs.
ni
Freq. Rel.
fi
1
2
3
4
5
3
17
16
2
2
0,075
0,425
0,400
0,050
0,050
3
20
36
38
40
0,075
0,500
0,900
0,950
1,000
Total
40
1,000
1. passo
Grfico de pontos
1
n. de assoalhadas
2. passo
n. de assoalhadas
n. de assoalhadas
N. de casas
15
10
0
0
anlise de dados
N. de assoalhadas
35
anlise de dados
No eixo horizontal, deve ser marcada a sequncia completa dos valores, entre o
mnimo observado e o mximo observado, mesmo que algum esteja em falta na
amostra. Nesse caso no haver qualquer barra vertical nesse ponto.
36
Tarefa
Vamos conhecer os animais Ill
Freq. Abs.
Freq. Rel.
0,20 = 4/20
0,30 = 6/20
0,35 = 7/20
0,10 = 2/20
0,05 = 1/20
Total
20
Freq.rel.
0,40
0,30
0,20
0,10
0,00
0
N. de pernas
37
38
Vamos apresentar alguns exemplos relacionados com variveis quantitativas discretas, onde se procura fazer uma interpretao dos dados a partir de tabelas ou
grficos.
Exemplo:
Nmero de filhos das mulheres americanas (Adaptado de Freedman et al., 1991)
Em 1960 e novamente em 1980 foi feito um inqurito s mulheres americanas
sobre o nmero de filhos. Os resultados obtidos foram os seguintes:
Nmero de filhos
% mulheres 1960
% mulheres 1980
0
1
2
3
4
5
6
7
8
9
22
17
21
16
10
5
3
2
2
3
29
16
22
15
8
4
2
1
1
1
35
30
Freq. rel. %
anlise de dados
% mulheres 1960
25
% mulheres 1980
20
15
10
5
0
0
N. de filhos
% de indivduos
1880
% de indivduos
1970
0
1
2
3
4
5
6
7
8
9
16,8
6,7
9,4
8,6
8,8
13,4
9,4
8,5
10,2
8,2
10,6
9,9
10,0
9,6
9,8
10,0
9,9
10,2
10,0
10,1
18
16
14
12
10
8
6
% adultos 1880
% adultos 1970
4
2
0
0
ltimo dgito
anlise de dados
Freq. rel. %
39
Exemplo:
anlise de dados
40
40
50
60
70
80
90
100
40
50
60
70
80
90
100
Exemplo:
26
33
37
42
44
46
49
52
56
58
61
67
74
82
90
27
33
37
42
44
47
49
53
56
59
61
68
74
82
91
27
33
37
42
44
47
49
53
56
59
62
68
74
83
91
27
33
37
42
45
47
49
53
56
59
62
68
75
83
91
27
33
37
43
45
47
50
53
57
59
62
69
75
83
92
29
34
39
43
45
47
50
53
57
60
63
69
76
83
92
30
34
39
43
45
47
51
54
57
60
63
69
76
84
92
30
34
39
43
45
48
51
54
57
60
64
69
78
84
93
30
35
39
43
45
48
51
54
58
60
65
69
80
84
93
30
35
39
43
45
48
51
54
58
60
66
69
80
84
93
31
36
39
43
46
48
51
54
58
60
66
69
80
84
93
31
36
39
43
46
48
52
55
58
61
66
71
80
84
95
31
36
40
44
46
48
52
55
58
61
67
71
81
84
95
32
37
41
44
46
48
52
55
58
61
67
72
81
90
32
37
42
44
46
48
52
56
58
61
67
73
81
90
Classes
20
30
40
50
60
70
80
90
a
a
a
a
a
a
a
a
29
39
49
59
69
79
89
99
Total
Freq. abs.
Freq. rel.
6
36
52
46
36
12
20
15
0,027
0,161
0,233
0,206
0,161
0,054
0,090
0,067
223
1,000
anlise de dados
41
42
Classe
Classe
Classe
Classe
26
40
52
64
78
27
41
53
65
80
29
42
54
66
81
30
43
55
67
82
31
44
56
68
83
32
45
57
69
84
33
46
58
71
90
34
47
59
72
91
35
48
60
73
92
36
49
61
74
93
37
50
62
75
95
39
51
63
76
95
92
89
86
83
80
77
74
71
68
65
62
59
56
53
50
47
44
41
38
35
32
29
9
8
7
6
5
4
3
2
1
0
26
N. de candidatos
anlise de dados
Classe
Para construir o grfico de barras, a partir de uma tabela frequncias, que agrupa
dados discretos, basta utilizar um procedimento idntico ao utilizado para as variveis
qualitativas, em que as classes eram categorias, mas tendo em ateno o seguinte
artifcio:
Apagar o ttulo da coluna que contm as
classes, No caso do exemplo apagar o
contedo da clula I1, ou seja, Nmero de
assoalhadas;
Seleccionar as clulas I1 a I6 e J1 a J6, caso
pretenda construir o grfico de barras com as
frequncias absolutas, ou K1 a K6, se desejar
as frequncias relativas;
Proceder como se indicou na construo do
grfico de barras para variveis qualitativas.
anlise de dados
Grfico de barras
43
2.4
anlise de dados
Dados quantitativos contnuos so todos os que resultam de medies, tal como foi
dito anteriormente. Por outras palavras, a varivel em estudo passvel de ser
medida com algum instrumento (rgua, balana, relgio, termmetro, etc.) e os
dados so constitudos pelos valores resultantes das medies efectuadas. Para estas
variveis, qualquer valor num certo intervalo um potencial candidato a aparecer na
amostra. Por isso se chamam variveis contnuas.
44
No nosso exemplo inicial das casas, h uma varivel que se enquadra perfeitamente
nesta definio: a rea. A rea da casa resulta de uma medio e, embora seja
apresentada com um arredondamento ao metro quadrado, sabemos que o verdadeiro
valor pode ser qualquer nmero real num certo intervalo. Outra varivel que tambm
se pode considerar de natureza contnua o Preo. O instrumento de medida aqui
menos preciso porque resulta de leis de mercado, mas no deixa, por isso, de medir
o valor da casa. de alguma forma semelhante classificao em percentagem,
obtida num teste pelos alunos de uma turma o professor pretente medir o nvel
de conhecimentos de cada aluno e constri o seu prprio instrumento de medida que
o teste. Como resultado das medies obtm uma amostra constituda pelas
classificaes dos alunos nesse teste.
Uma caracterstica comum a qualquer amostra cujos dados so de natureza contnua,
a grande diversidade de valores que a constituem. So poucos os valores repetidos.
Como tal, para podermos visualizar a forma como os dados se distribuem, de nada
nos serve fazer uma tabela onde se registe a frequncia de cada valor distinto (como
se fez para os dados quantitativos discretos). A alternativa aqui organizar os dados
num nmero conveniente de classes (intervalos) que permita condensar a informao
sem esconder o padro subjacente.
No h regras rgidas para a forma como se constrem as classes, pois tal depende
bastante da maior ou menor simetria na maneira como os dados se distribuem. Por
exemplo, a subdiviso em classes de uma amostra de alturas de mulheres
portuguesas processa-se de modo distinto da subdiviso em classes da amostra dos
vencimentos auferidos por essas mesmas mulheres (onde quase certo que a maior
concentrao seja em torno dos pequenos valores, podendo, no entanto surgir alguns
valores extremamente elevados). Mais precisamente, natural que a forma genrica
da distribuio das alturas das mulheres portuguesas tenha um aspecto simtrico,
como ilustrado na seguinte figura,
j que se espera que haja uma grande concentrao em torno de 1,60m, com uma
rarefaco gradual na direco dos valores menores, ou maiores, que este valor central.
com a grande maioria dos vencimentos a no ultrapassar os 800 euros, dispersando-se os restantes ao longo de um intervalo, que pode atingir alguns milhares de euros.
anlise de dados
Perante uma amostra de dados de tipo contnuo, o que se pretende com a subdiviso
em classes , exactamente, tornar patente a forma como esses dados se distribuem.
Em muitos casos o bom senso preside escolha das classes (principalmente em
amostras muito enviesadas). No entanto, para dados que se distribuem de forma
aproximadamente simtrica, usual construir classes de igual comprimento
(amplitude) e h uma regra relativamente simples para a determinao do nmero
de classes, inspirada no Binmio de Newton*. Chama-se regra de Sturges, e consiste
em determinar o menor inteiro k tal que 2k>n (onde n a dimenso da amostra):
45
Por outro lado, no que diz respeito distribuio dos vencimentos, o nosso
conhecimento emprico leva-nos a supor que a sua forma genrica seja muito mais
enviesada, como se apresenta na figura seguinte,
anlise de dados
46
Classes
Rep. classe
xi
Freq. Abs.
ni
Freq. Rel.
fi
Freq. Abs.
Acum
Freq. Abs.
Acum
[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[
72,5
89,5
106,5
123,5
140,5
157,5
4
14
15
4
1
2
0,100
0,350
0,375
0,100
0,025
0,050
4
18
33
37
38
40
0,100
0,450
0,825
0,925
0,950
1,000
40
1,000
Total
anlise de dados
Apresentamos a seguir a tabela de frequncias para a varivel rea, do exemplo que tem
vindo a ser tratado ao longo deste texto. Como sugerido pela regra de Sturges,
considermos 6 classes. Optmos por considerar classes fechadas esquerda e abertas
direita e de amplitude 17 m2. Como representante das classes considermos os pontos
mdios, apresentados na 2. coluna da tabela. Por exemplo, o ponto mdio da classe
[64, 81[ (64+81)/2 = 72,5. Para obter as frequncias absolutas percorre-se
o conjunto de dados e contam-se os que caem dentro de cada classe (intervalo):
47
2.4.2 Histograma
Deste modo a rea total coberta pelo histograma igual a 1 (ou igual dimenso da
amostra) e a rea determinada por dois pontos a e b d-nos a percentagem de
elementos da amostra que apresentam valores entre a e b. Observe-se que, para que
a rea de cada rectngulo seja igual frequncia relativa, necessrio que a altura
seja o quociente entre a frequncia relativa (fi) e a amplitude da classe (hi). Quando
as classes tm todas a mesma amplitude (h), o aspecto grfico no se altera se se
considerar como altura a frequncia relativa ou absoluta, uma vez que tal
corresponde a uma simples mudana de escala no eixo vertical. Chama-se, no
entanto, a ateno para o facto de a rea total do histograma deixar de ser unitria
passando a ser igual, respectivamente, amplitude de classe h, ou ao produto da
dimenso da amostra pela amplitude de classe (rea total=n x h), caso se utilizem
para alturas dos rectngulos as frequncias relativas ou as frequncias absolutas.
Nota 1: Se se pretender comparar vrias amostras atravs de histogramas deve-se
ter o cuidado de os construir de modo a que a rea total seja unitria, para ser
possvel a comparao.
Nota 2: Um erro que se costuma cometer com frequncia construir o histograma
com os rectngulos separados! Este procedimento no correcto, pois os rectngulos
devem ser adjacentes, dando no seu conjunto uma informao em termos de rea.
Um histograma correspondente tabela de frequncias que construmos para a
varivel rea tem o seguinte aspecto (com alturas dos rectngulos iguais s
frequncias absolutas):
16
14
12
Freq. Abs.
anlise de dados
10
8
6
4
2
0
64
81
98
115
132
rea
48
149
166
Mais uma vez, consegue-se com a representao grfica uma percepo rpida e
clara da forma como os dados se distribuem!
Assim, podemos fazer, por exemplo, as seguintes observaes:
h uma grande concentrao de valores entre os 81 m2 e os 115 m2, indicando
que neste intervalo que se encontra a maioria das reas das casas que constituem a amostra;
h uma ligeira assimetria no sentido das maiores reas, pois surgem nesta
zona alguns valores mais distantes dos valores centrais, que na zona das
menores reas. Em terminologia estatstica diz-se que a distribuio apresenta
uma cauda direita mais longa do que a cauda esquerda, havendo, por isso, uma
assimetria positiva ou um enviesamento positivo.
Construo de histogramas com classes com amplitudes diferentes
Classe 1
Classe 2
anlise de dados
49
Exemplo:
50
Classes
Freq. absoluta
Freq. relativa
[0, 2[
[2, 5[
[5, 10[
[10, 20[
[20, 30[
28
37
23
9
3
0,28
0,37
0,23
0,09
0,03
100
1,00
Total
Construram depois o seguinte histograma, que apresentaram gerncia (costumase dizer que um grfico vale mais que mil palavras!):
0,40
0,35
0,30
Freq. rel.
anlise de dados
0,25
0,20
0,15
0,10
0,05
0,00
0
10
20
30
Freq. absoluta
Freq. relativa
Freq.relativa/amplitude
classe
[0, 2[
[2, 5[
[5, 10[
[10, 20[
[20, 30[
28
37
23
9
3
0,28
0,37
0,23
0,09
0,03
0,140
0,122
0,046
0,009
0,003
100
1,00
Total
0,16
0,14
Freq. rel./h
0,12
0,10
0,08
0,06
0,04
0,02
10
20
30
Como veremos, a mediana (Me) um valor que divide a amostra, ordenada, ao meio,
isto , 50% dos elementos da amostra so menores ou iguais mediana e os outros
50% so maiores ou iguais mediana. Ficando a amostra dividida em duas partes,
com igual nmero de elementos, cada uma destas partes ainda pode ser dividida ao
meio. mediana da parte inferior dos dados, chamamos 1. quartil (Q1), enquanto
que mediana da parte superior dos dados, chamamos 3. quartil (Q3). Repare-se
que, deste modo, o 1. quartil, a mediana e o 3. quartil dividem os dados em 4
partes iguais: o 1. quartil tal que 25% dos dados so inferiores a ele; entre o 1.
quartil e a mediana esto outros 25% dos dados; entre a mediana e o 3. quartil
esto 25% dos dados, fazendo com que abaixo do 3. quartil estejam 75% dos dados,
enquanto que acima dele esto os restantes 25% dos dados.
Para obter graficamente estas medidas, tomemos de novo a seguinte tabela de
frequncias, obtida em 2.4.1, mas em que agora consideramos as percentagens para
as frequncias relativas (multiplicamos as frequncias relativas por 100):
Classes
[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[
Total
Rep. classe
xi
Freq. Abs.
ni
Freq. Abs.
Acum.
72,5
89,5
106,5
123,5
140,5
157,5
4
14
15
4
1
2
10,0
35,0
37,5
10,0
2,5
5,0
4
18
33
37
38
40
10,0
45,0
82,5
92,5
95,0
100,0
40
100,0
anlise de dados
51
0,00
52
110
100
90
80
70
60
50
40
30
20
10
0
64
81
98
115
132
149
166
rea
Para se obter graficamente a mediana (Me) e os quartis (Q1 e Q3), comea-se por
traar uma linha poligonal que une, em cada um dos rectngulos, o vrtice inferior
esquerdo com o vrtice superior direito (ver figura). De seguida, toma-se no eixo
vertical uma percentagem conveniente (50% para a mediana, 25% para o 1. quartil
e 75% para o 3. quartil). Traa-se uma linha paralela ao eixo horizontal passando
pelo ponto correspondente percentagem de interesse e prolonga-se at encontrar a
linha poligonal. Finalmente projecta-se sobre o eixo horizontal e obtm-se o
respectivo quartil (repare-se que, mediana, tambm podemos chamar 2. quartil):
110
100
Freq. rel. acum. %
anlise de dados
90
80
70
60
50
40
30
20
10
0
64
81
Q1
98
Me
115
Q3
rea
132
149
166
Exemplo:
Notas finais a Matemtica O histograma seguinte mostra a distribuio das notas
finais de Matemtica (numa escala de 0 a 20) de uma determinada turma.
4
0
0
12
16
20
nota
Podem-se ainda colocar questes do gnero: Admitindo que 10% dos alunos da turma
tiveram nota entre 4 e 8, qual a percentagem de alunos com nota entre 8 e 12?
Para responder a esta questo fundamental ter presente que o histograma um
diagrama de reas, pelo que se se est a admitir que 10% dos alunos tiveram nota
entre 4 e 8, significa que a uma rea de 4 unidades, que a rea do rectngulo mais
esquerda, corresponde uma frequncia relativa de 10%. Ento a percentagem de
alunos com nota entre 8 e 12 ser 20%, pois a rea do rectngulo que corresponde
a este intervalo o dobro da rea do rectngulo da classe anterior. De forma idntica
pode-se concluir que a percentagem de alunos que tiveram nota maior ou igual a 12
70%.
Neste exemplo convm fazer a seguinte observao: os valores assinalados no eixo
vertical no correspondem necessariamente a frequncias absolutas. Servem como
orientao para calcular as reas dos rectngulos correspondentes s classes. Assim,
no sabemos quantos alunos fizeram o teste de Matemtica.
anlise de dados
A partir do histograma anterior pode-se verificar que no houve nenhum aluno com
nota inferior a 4.
53
Exemplo:
Rendimento familiar (Adaptado de Freedman et al., 1991) O histograma seguinte
representa o rendimento familiar, em milhares de dlares de famlias americanas.
6
5
4
3
2
anlise de dados
54
0
0
10
15
20
25
30
35
40
45
50
Tendo em conta que cerca de 1% das famlias tm rendimentos entre 0 e 1000 USD,
estime a percentagem de famlias com rendimentos:
i) a) Entre 1000 USD e 2000 USD
b) Entre 2000 USD e 3000 USD
c) Entre 3000 USD e 4000 USD
d) Entre 4000 USD e 5000 USD
e) Entre 4000 USD e 7000 USD
f) Entre 7000 USD e 10000 USD
ii) a) Haver mais famlias com rendimentos entre 6000 USD e 7000 USD ou
entre 7000 USD e 8000 USD? Ou ser aproximadamente o mesmo?
b) Haver mais famlias com rendimentos entre 10000 USD e 11000 USD
ou entre 15000 USD e 16000 USD? Ou ser aproximadamente o
mesmo?
c) Haver mais famlias com rendimentos entre 10000 USD e 12000 USD
ou entre 15000 USD e 20000 USD?
i) a) Se se diz que 1% das famlias tm rendimentos entre 0 e 1000 USD, ento
a rea do rectngulo assente na classe [0, 1[, igual a 1%. Repare-se
que a escala do eixo vertical tal que se se multiplicar a base do
rectngulo pela sua altura, se obtm precisamente 1. Assim, para as
outras classes, para obter as frequncias relativas, basta calcular as
reas dos rectngulos respectivos. A resposta a esta alnea ento 2%;
b) 3%; c) 4%; d) 5%; e) 15%; f) 15%.
ii) a) O mesmo, j que as reas dos rectngulos correspondentes a essas
classes so idnticas.
b) Mais entre 10000 USD e 11000 USD, pois a rea do rectngulo
correspondente a essa classe superior ao da outra classe.
c) Mais entre 15000 USD e 20000 USD, pela mesma razo da alnea
anterior.
Tabela de frequncias
No caso de dados contnuos, o processo de construo das classes um pouco mais
elaborado do que no caso de dados discretos, j que a definio das classes no to
imediata. De um modo geral as classes so intervalos com a mesma amplitude,
fechados esquerda e abertos direita ou abertos esquerda e fechados direita.
Em certos casos no conveniente que as classes tenham a mesma amplitude, o que
em si no um problema para a construo da tabela de frequncias, mas que implica
alguma complicao na construo do histograma associado, quando pretendemos
utilizar o Excel. Limitar-nos-emos a utilizar o Excel para a construo de histogramas
associados a tabelas com as classes com igual amplitude.
Vamos exemplificar a construo de uma tabela de frequncias com a varivel rea
do conjunto de dados, que temos vindo a estudar.
Definio das classes:
Determinar a amplitude da amostra, subtraindo o mnimo do mximo;
Dividir essa amplitude pelo nmero k de classes pretendido. Existe uma regra
emprica que nos d um valor aproximado para o nmero k de classes e que
consiste no seguinte: para uma amostra de dimenso n, considerar para k o
menor inteiro tal que 2k>n. Uma expresso equivalente para obter k, consiste
em considerar k=INT(LOG(n;2))+1 ou k=ROUNDUP(LOG(n;2);0), em que a
funo ROUNDUP(x;m), devolve um valor de x, arredondado por excesso, com
m casas decimais;
Construir as classes C1, C2, ..., Ck. Vamos considerar como classes os intervalos
[mnimo, mnimo + h[,[mnimo + h, mnimo + 2h[, ..., [mnimo + (k-1)h, mnimo
+ kh[.Uma alternativa a este procedimento seria considerar as classes abertas
esquerda e fechadas direita, da seguinte forma: ]max kh, max (k-1)h],
]max (k-1)h, max (k-2)h], ..., ]max h, max].
Estes passos so representados na figura seguinte:
anlise de dados
55
anlise de dados
56
As frequncias das classes c2, c3, c4, c5 e c6, so obtidas de forma idntica de c1,
mudando os limites das classes.
A construo de uma tabela de frequncias pode ser feita utilizando um item chamado
Histogram, disponvel no Excel, em Tools
Data Analysis. Chama-se a ateno para
que o nome deste item enganador, pois na realidade, esta funo limita-se a construir uma tabela de frequncias. Para proceder ao agrupamento em k classes,
utilizando o Histogram, necessrio comear por construir um conjunto de
separadores de classes, b1, b2, ..., bk-1, e as frequncias absolutas obtidas com a
funo Histogram, so as correspondentes s seguintes classes:
1. classe conter todos os elementos b1;
2. classe conter todos os elementos b2 e >b1;
3. classe conter todos os elementos b3 e >b2;
....
k-sima classe conter todos os elementos >bk-1.
Construo do histograma
Para construir o histograma, a partir da tabela de frequncias, pode-se utilizar o
seguinte procedimento:
0.40
0.35
Freq.rel.
0.30
0.25
0.20
0.15
0.10
0.05
0.00
66,32; 82,495
82,495; 98,670
0.40
0.35
Freq.rel.
0.30
0.25
0.20
0.15
0.10
0.05
0.00
[66; 82,5[
[82,5; 99[
[99; 115,5[
[115,5; 132[
[132; 148,5[
[148,5; 165[
anlise de dados
rea
rea
57
anlise de dados
Nota: A observao anterior importante, pois chama a ateno para o facto de,
para o mesmo conjunto de dados, se poderem construir vrios histogramas, nem
todos com aspecto semelhante. Este facto faz com que se diga que o histograma no
uma representao resistente, pois pode mudar drasticamente de aspecto, quando
se altera a amplitude da classe ou o valor em que se inicia a construo destas.
58
2.5
400
Mx
350
350
300
300
250
250
200
200
150
Q1
150
Q3
Mn
100
100
Preo
Preo
Como se pode ver na figura anterior, no grfico do lado direito, o rectngulo desenhado desde o 1. quartil (que 151,83 mil euros) at ao 3. quartil (que 210,02
mil euros). Dentro do rectngulo coloca-se um trao para assinalar a posio da
mediana (que 184,575 mil euros). Os dois segmentos de recta que completam esta
representao grfica estendem-se, um desde o mnimo da amostra (que 121,47
mil euros) at ao lado do rectngulo determinado pelo 1. quartil e o outro desde o
lado do rectngulo determinado pelo 3. quartil at ao mximo (que 357,32 mil
euros). Os diagramas de extremos e quartis permitem tirar concluses importantes
anlise de dados
Me
59
anlise de dados
60
90
80
70
60
50
40
30
20
10
0
64
81
Q1
98
Me
115
Q3
132
149
166
rea
anlise de dados
61
110
100
Tarefa
Quantos segundos se
consegue estar sem respirar?
Gostaramos de ter uma ideia de quantos segundos conseguimos estar sem respirar.
Suponha que um grupo de alunos fez esta experincia na turma e obteve os seguintes
valores: 59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62,
63, 38, 65, 44, 68, 27, 35, 46, 60.
Podem ser feitas perguntas do tipo:
Quantos segundos esteve sem respirar o aluno que aguentou menos tempo? E
o aluno que aguentou mais tempo?
O professor pode, com a ajuda dos alunos, organizar os dados num diagrama de
caule-e-folhas.
Como o menor e o maior dos valores anteriores so, respectivamente, 23 e 68, para
organizar os dados num grfico de caule-e-folhas, vamos comear por considerar os
seguintes caules (algarismos das dezenas dos valores iniciais):
2
3
4
5
6
2
3 8
4
5 9
6
2
3
4
5
6
37
8779885
78860146
953247
23580
62
37
5778889
01466788
234579
02358
Repare-se que agora muito fcil ordenar o conjunto de dados inicial, pois basta percorrer o grfico de caule-e-folhas:
23, 27, 35, 37, 37, 38, 38, 38, 39, 40, 51, 44, 46, 46, 47, 48, 48, 52, 53, 54, 55, 57,
59, 60, 62, 63, 65 e 68.
Sugesto
anlise de dados
63
Pode ser repetida a tarefa anterior, mas depois de ter aspirado e expirado,
profundamente, 3 vezes. Compare os resultados agora obtidos, com os obtidos
anteriormente.
anlise de dados
1*
1.
2*
2.
3*
3.
64
2
5
0
5
2
5
0
8
2
5
0
9
3
6
0
3
6
0
3
6
1
4
7
1
4
7
3
4
8
9,3
5,3
7,3
6,7
5,8
4,7
5,6
5,9
9,4
7,6
David
8,7
7,4
6,3
5,9
10,0
6,5
8,6
7,7
9,0
7,9
7,1
8,3
7,1
7,9
7,5
6,2
8,2
8,7
8,5
7,6
9,5
7,1
7,5
7,9
6,4
6,2
7,5
7,7
7,6
8,8
7,1
7,4
7,4
7,8
6,2
8,6
8,4
6,6
8,1
7,1
Para comparar os tempos de sono dos dois jovens, vamos representar os caule-e-folhas paralelos, isto , determinamos os caules (comuns) a partir da amostra de
maior amplitude, ou seja, neste caso, dos dados correspondentes ao David, e depois
colocamos as folhas correspondentes s observaes do Pedro para um lado e as
correspondentes s do David para o outro:
Pedro
David
9
3
7
9
9
4
7
4
8
3
6
4
7
7
3
9
1
6
0
6
0
4.
5*
5.
6*
6.
7*
7.
8*
8.
9*
9.
10*
2
6
1
5
1
5
1
5
2
6
1
5
3
7
1
6
4
8
1
6
4
7
4
8
anlise de dados
Line
65
7
3
6
0
5
3
6
anlise de dados
66
Construo do caule-e-folhas
No existe no Excel uma representao imediata para a construo de um caule-e-folhas, pelo que vamos utilizar um processo desenvolvido por Neville Hunt (Hunt,
2006), para o Excel:
1. passo Insira os dados na coluna C, comeando na clula C2; se no
estiverem ordenados, ordene-os por ordem crescente;
2. passo Insira na clula E1 o valor que deseja para o comprimento de linha:
10, 5 ou 2 ou uma potncia de 10, destes valores;
3. passo Na clula A2 escreva a seguinte frmula = INT(C2/E$1)*E$1 e
replique-a tantas vezes quantos os dados inseridos no 1. passo, na coluna C;
4. passo Na clula B2 escreva o valor 1. Na clula B3 escreva a frmula
= IF (A3=A2; B2+1; 1) e replique a frmula, tantas vezes quantos os dados
inseridos no 1. passo, na coluna C;
5. passo Seleccione as clulas das colunas A, B e C com os resultados
obtidos nos passos anteriores e no mdulo Chart Wizard (Assistente de
Grficos) escolha Bubble;
6. passo Faa um duplo clique numa das bolas representadas e na janela
Format data Series (ou clique com o boto direito do rato e seleccione Format
data Series) seleccione Patterns:
Border: None
Area: None
Data Labels: Show bubbles sizes
OK;
7. passo Faa um duplo clique numa das Data labels (ou clique com o
boto direito do rato e seleccione Format Data Labels), e na janela Format Data
Labels, em Alignment:
Label Position: Centre
OK;
8. passo Clique numa das linhas horizontais que atravessam o grfico e
apague-as com a tecla Delete. Faa o mesmo ao fundo cinzento, seleccionandoo e carregando na tecla Delete. Apague tambm a legenda.
9. passo Formate convenientemente os eixos.
anlise de dados
67
2.6
Numa fase mais avanada da anlise dos dados, o histograma pode ser utilizado como
uma ajuda na escolha de um modelo terico para a distribuio subjacente
populao de onde os dados foram retirados.
anlise de dados
Alguns histogramas apresentam formas que, pela frequncia com que surgem,
merecem referncia especial. Assim, as distribuies mais comuns, apresentadas
pelos dados, so:
68
Distribuies enviesadas A distribuio das frequncias faz-se de forma acentuadamente assimtrica, apresentando valores substancialmente mais pequenos num
dos lados, relativamente ao outro:
pode ser considerado a funo densidade do modelo Normal, e a sua aplicao pode
ser sugerida por um histograma como o que apresentmos anteriormente, como caso
especial de uma distribuio simtrica. A seguir apresentamos alguns exemplos em
que so apresentados diversos esquemas de histogramas estilizados, que procuram
traduzir a distribuio subjacente a vrias variveis quantitativas contnuas.
Exemplo:
Para tentarmos resolver esta questo, podemos pensar que se se diz que os trabalhadores do grupo B ganham o dobro dos trabalhadores do grupo A, isto significa, por
exemplo, que enquanto a maior parte dos trabalhadores do grupo B aufere um salrio
volta de 4000 euros, os do grupo A auferem um salrio volta de 2000 euros. Ento
natural esperar que a figura (1) corresponda aos salrios dos trabalhadores do grupo
B, enquanto a figura (2) corresponde aos trabalhadores do grupo A. Por outro lado, se
os trabalhadores do grupo C ganham 1500 euros a mais do que os do grupo A, isto
significa que a distribuio dos salrios dos trabalhadores do grupo C ter um aspecto
idntico ao dos trabalhadores do grupo A, mas deslocada para a direita de 1500 euros.
Ento a figura (3) corresponder aos salrios dos trabalhadores do grupo C.
anlise de dados
69
A distribuio com o aspecto (1) no muito usual para representar salrios, sendo
mais usuais as distribuies com o aspecto (2) ou (3). Efectivamente, em geral, a distribuio dos salrios tem um aspecto assimtrico, com um enviesamento para a
direita. Isto deve-se ao facto de a maior parte dos salrios se concentrarem numa
determinada regio, havendo alguns (poucos) salrios que so substancialmente
maiores que os restantes, provocando uma cauda da distribuio, alongada para a
direita.
anlise de dados
Exemplo:
Qual o aspecto da distribuio? (Adaptado de Freedman et al., 1991) Seguidamente apresentam-se 6 "manchas" de histogramas, 4 dos quais apresentam
os resultados do estudo, numa pequena cidade, das 4 caractersticas seguintes:
a) Alturas de todos os elementos das famlias, em que os pais tenham idade
inferior a 24 anos.
b) Alturas dos casais (marido e mulher).
c) Alturas de todos os indivduos da cidade.
d) Alturas de todos os automveis.
Quais dos histogramas podem representar cada uma das variveis anteriores?
70
0
1
2
3
4
5
6
7
8
9
0
1
0
4
1
2
3
1
9
5
1
1
1
4
1
2
6
5
3
2
3
5
2
3
7
6
3
4
6
3
7
7
5
4
6
4
8
7
5
8
4
8 8 9 9
6 7 7 8 9
8 9
5
Quando se faz a reduo dos dados, perde-se sempre alguma informao contida
nesses dados, mas em contrapartida obtemos a estrutura da populao que eles
pretendem representar. Das representaes grficas anteriores, aquela em que se
perdeu mais informao foi o diagrama de extremos e quartis, mas tambm foi a mais
simples de ser construda bastou recolher, a partir dos dados, informao sobre 5
nmeros (mnimo, mximo, 1. quartil, 3. quartil e mediana).
anlise de dados
71
72
anlise de dados
2.7
250
200
150
100
50
70
90
110
130
150
rea
170
Este tipo de representao muito til, pois permite realar algumas propriedades
entre os dados, nomeadamente no que diz respeito ao tipo de associao entre as
variveis representadas por x e y. Quanto mais alongada for a nuvem de pontos ao
longo de uma recta, isto , quanto maior for o grau de proximidade dos pontos a uma
linha recta, maior ser o grau de associao entre as variveis. Esta associao pode
ser medida numericamente com um coeficiente a que se d o nome de coeficiente de
correlao, que ser estudado no captulo seguinte. No diagrama de disperso para
os pares (rea, Preo) verifica-se uma tendncia para que casas de maior rea
tenham preos mais elevados. O facto de existir esta tendncia no significa que se
tenha necessariamente uma casa mais cara, quando tem maior rea, mas, de um
modo geral, as casas maiores tendem a ser mais caras.
Exemplo:
Idades do marido e da mulher Considere os seguintes dados que representam
as idades de 8 casais:
Mulher
1
2
3
4
5
6
7
8
26
25
45
27
38
30
32
36
23
29
42
27
32
28
34
29
45
40
35
30
25
20
20
30
40
50
Idade marido
anlise de dados
Marido
Idade mulher
Casal
73
Exemplo:
Nmero de faltas Considere os seguintes dados, que representam o nmero de
faltas no autorizadas por ano e a distncia (em km) a que os empregados de
determinado armazm esto de casa.
Construa o diagrama de disperso e comente-o.
anlise de dados
Distncia
x
74
1
3
4
6
8
10
12
14
18
18
N. faltas
y
8
5
8
7
6
3
5
2
4
2
y
10
8
6
4
2
0
x
0
10
12
14
16
18
Ed. Fsica
y
12
13
10
11
18
16
12
14
18
18
14
12
10
17
16
12
15
12
14
12
y
20
15
10
5
0
x
0
10
15
20
Aparentemente no existe nenhuma associao linear entre as notas obtidas nas duas
disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatria".
De uma maneira geral, uma tabela de contingncia uma representao dos dados,
quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando so de tipo
bivariado, isto , podem ser classificados segundo dois critrios. O aspecto de uma
tabela de contingncia o de uma tabela com linhas, correspondentes a um dos
critrios, e colunas correspondente ao outro critrio. Seguidamente apresentamos um
exemplo, para ilustrar o que acabmos de dizer.
Exemplo:
As casas Considerando de novo o exemplo das casas, pretende-se organizar as
variveis Zona e Estado na forma de uma tabela de contingncia. Para isso deve-se
comear por construir uma tabela idntica que se segue:
Zona
10
9
16
0
5
0
Estado
Usada
Nova
Total
10
9
16
0
5
0
31
9
19
16
40
Usada
Nova
Total
Total
Estado
Usada
Nova
32%
100%
52%
0%
16% 100%
0% 100%
anlise de dados
Estado
75
Total
Estado
Usada
Nova
anlise de dados
Total
76
25%
23%
40%
0%
13%
0%
78%
23%
48%
40%
13% 100%
Da primeira das duas tabelas anteriores pode-se concluir, por exemplo, que das casas
usadas, 32% pertencem zona A, 52% zona B e 16% zona C. Repare-se que
nessa tabela se calcularam, em separado, as percentagens relativamente ao nmero
de casas usadas e relativamente ao nmero de casas novas.
Por outro lado, da segunda tabela pode-se concluir, por exemplo, que 25% das casas
so usadas e pertencem zona A; 23% das casas so novas e pertencem zona A;
etc. Nesta tabela, as percentagens foram calculadas relativamente ao nmero total
de casas.
2.8
costume dizer-se que um grfico vale mais do que mil palavras. De facto, para que
isso acontea, necessrio tomar alguns cuidados na construo dessas representaes
grficas. Damos de seguida alguns exemplos de representaes grficas incorrectas.
Os pictogramas so representaes grficas que utilizam figuras, o que faz com que
essas representaes se tornem bastante apelativas. No entanto, a utilizao de
pictogramas, nem sempre se faz de forma correcta.
Exemplo:
Aumento da quantidade de leite Consideremos a seguinte representao, que
pretende mostrar que a quantidade de leite, de uma determinada marca, vendida
desde 1985 at 1991, duplicou:
N.
vendas
20000
10000
anlise de dados
10000
77
Exemplo:
anlise de dados
Os jogos preferidos pelos alunos (adaptado de Graa Martins et al. 1999) - Numa
escola o Conselho Directivo pretende construir um campo de jogos, pelo que gostaria
de ter uma ideia de quais os jogos preferidos dos alunos. Encarregou um aluno de
recolher a informao necessria, o qual utilizou a seguinte metodologia: elaborou
uma lista de jogos possveis e percorreu todas as turmas da escola, em nmero de
20, perguntando dentro de cada turma qual a opinio dos alunos cujo nmero fosse
um mltiplo de 5. Em trs turmas foram seleccionados 6 alunos e nas restantes 5. O
resultado da recolha da informao tinha o seguinte aspecto
Futebol
Vlei
Basquete
Tnis
Andebol
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
xxxxxxxxxxxxxxx
x
xxxxxxxxxx
xx
Freq. abs.
Freq. rel(%)
32
18
27
19
7
31,1
17,5
26,2
18,4
6,8
103
100,0
Ento o Conselho Directivo foi informado que as preferncias dos alunos vo para o
futebol seguindo-se o basquete. Depende agora das disponibilidades financeiras
contemplar as diferentes modalidades, tendo em conta as preferncias dos alunos.
Procurando transmitir a informao graficamente, construram o seguinte pictograma,
onde se substituiu a barra por uma figura humana:
78
Tnis
Basquete
Vlei
Futebol
anlise de dados
Na construo do grfico de barras, como j dissemos nas indicaes para a sua construo, deve ter-se em ateno que as barras devem ter a mesma largura, pois a
mensagem que devem transmitir a que est contida nas diferentes alturas das
barras. Se umas barras forem mais largas do que outras, temos tendncia a crer que
as classes a que correspondem as barras mais largas tm maior frequncia do que a
que efectivamente tm. Este um problema que no tido em conta na construo
de muitos pictogramas, em que as barras so substitudas por figuras, para tornar a
representao grfica mais atraente, como aconteceu no caso deste exemplo. Um
pictograma possvel, o que se apresenta a seguir, em que a figura utilizada uma
figura humana, que corresponde a uma percentagem de 5%, que se replica o nmero
de vezes que for necessrio, sendo possvel utilizar uma fraco da figura:
% alunos
30
79
Exemplo:
Seguro do agricultor (Graa Martins et al., 1999) - Com o objectivo de fazer um
seguro, um agricultor teve de fazer o levantamento do nmero e tipo de rvores de
fruto existentes no seu pomar. O resultado apresenta-se na tabela seguinte:
anlise de dados
Classes
80
Laranjeiras
Limoeiros
Pessegueiros
Macieiras
Pereiras
Total
Freq. abs.
Freq. rel.(%)
320
135
257
335
379
22,4
9,5
18,0
23,5
26,6
1426
100,0
= 2%
Passageiros do Titanic (De Veaux et al., 2004) Considere a seguinte tabela com
a distribuio dos 2201 passageiros do Titanic, na altura do naufrgio:
Classe
1. classe
2. classe
3. classe
Tripulao
Freq. abs.
Freq. rel.(%)
325
285
706
885
15%
13%
32%
40%
2. classe
13%
3. classe
32%
Tripulao
40%
1. classe
15%
2. classe
13%
3. classe
32%
anlise de dados
Tripulao
40%
81
Exemplo:
82
13
25
23
12
21
11
19
17
10
15
13
11
7
Set.
Jan.
Set.
Out.
Nov.
Dez.
Jan.
anlise de dados
Exemplo:
Nmero de acidentes no IP5 (Hipottico) - Suponha que o nmero de acidentes
no IP5 foi, no perodo de Setembro de 1997 a Janeiro de 1998, o seguinte: 8, 9, 12,
13 e 12. Dois jornais apresentaram as seguintes representaes grficas para transmitirem a informao anterior:
12
10
8
6
4
2
0
Set.
Out.
Nov.
Dez.
Jan.
Exemplo:
Quantidade de acar nos cereais para crianas - Uma empresa que vende
cereais para crianas faz publicidade dos seus cereais da marca Que Bom, dizendo
que os seus cereais tm muito menos acar, por 100 gramas de cereal, do que os
da concorrncia. Para isso apresenta a representao grfica do lado esquerdo da
figura seguinte, onde compara os 9 gramas de acar dos cereais Que Bom, com
os 15, 14, 12, 11 e 11 gramas, respectivamente dos cereais A, B, C, D e E:
13
12
11
10
9
8
10
0
A
Que
Bom
Que
Bom
anlise de dados
Andamos a ler pouco O grfico a seguir apresentado pretende mostrar a diminuio na venda de livros de 1975 a 1984, num determinado pas. Embora esteja
indicado para cada ano o nmero de livros, em milhares, as alturas das barras transmitem-nos a ideia de que houve uma diminuio acentuada, sobretudo a partir de
1979:
83
15
14
grs aucar/100grs
grs aucar/100grs
15
84
29%
66% Carne
50%
Grelhados
Assados
Fritos
Guisados
47%
24%
23%
GFK/Metris
anlise de dados
21%
FICHA TCNICA
2.9
Candidatos a algumas vagas (cont) Uma vez que o nmero de valores distintos
muito grande, a construo de um grfico de barras, conduziria a um grfico com
demasiadas classes, que no permitiria fazer sobressair o padro da distribuio
subjacente aos dados. Foi ento sugerida a organizao dos dados em classes,
obtendo-se a seguinte tabela de frequncias e o histograma correspondente:
20
30
40
50
60
70
80
90
a
a
a
a
a
a
a
a
29
39
49
59
69
79
89
99
Total
Freq. absoluta
Freq. relativa
6
36
52
46
36
12
20
15
0,027
0,161
0,233
0,206
0,161
0,054
0,090
0,067
223
1,000
Freq. rel.
Classes
0,25
0,20
0,15
0,10
0,05
0,00
0
20
40
60
Resultados do teste
80
100
anlise de dados
Exemplo:
Vimos nas seces 2.3 e 2.4, tratamentos estatsticos utilizados para classificar a
informao contida em dados discretos e contnuos. Apresentmos algumas
representaes grficas especialmente adequadas para dados discretos grfico de
barras, e para dados contnuos histograma, alm de outros grficos utilizados
indiferentemente para dados discretos ou contnuos.
85
86
Classes
Freq. Absoluta
Freq. relativa
[9, 10[
[10, 11[
[11, 12[
[12, 13[
7
13
15
10
0,16
0,29
0,33
0,22
Total
45
Freq. Abs.
anlise de dados
Exemplo:
10
5
0
8
10
11
Idade
12
13
Ao nvel do 1. ciclo do ensino bsico, a forma como se introduz cada uma das
tcnicas de organizao e representao grfica de dados ter de ser muito alicerada
em actividades. Os alunos comeam por recolher a informao e depois, naturalmente, tero curiosidade em ver um pouco mais para alm daquele conjunto de
valores que conseguiram obter.
Neste texto vamos limitar-nos a apresentar algumas sugestes de como se podero
desenvolver um conjunto de actividades em que se faa tratamento estatstico de
dados, nomeadamente a sua organizao em tabelas e a construo de alguns
grficos.
O exemplo Vamos conhecer a turma ir servir de base a alguns procedimentos j
referidos anteriormente:
Nome
Ana Patrcia Santos
Ana Rita Pereira
Bruno Martins
Ctia Reis
Cludia Rodrigues
David Amaral
Elisabete Soares
Jos Manuel Rocha
Jos Augusto Silva
Liliana Morais
Maria Isabel Antunes
Miguel Correia
Patrcia Mendes
Pedro Mendes
Ricardo Freitas
Rui Eduardo Pires
Snia Gonalves
Susana Alves
Tatiana Medeiros
Vasco Fernandes
Nmero
de letras
no nome
17
14
12
9
16
11
15
15
16
13
18
13
14
11
14
15
14
11
15
14
Tempo que
demora de
casa escola
(minutos)
3
32
25
20
17
15
33
22
9
35
25
18
10
21
20
6
5
19
13
15
Cor dos
olhos
Comprimento
do palmo
(cm)
Nmero
de
irmos
Azuis
Castanhos
Castanhos
Pretos
Azuis
Azuis
Pretos
Azuis
Castanhos
Castanhos
Azuis
Verdes
Castanhos
Castanhos
Verdes
Pretos
Castanhos
Azuis
Castanhos
Castanhos
14,7
15,6
15,9
14,2
16,3
13,5
14,4
15,1
15,2
16,2
15,9
13,6
17,3
14,7
15,0
13,8
14,3
15,4
14,8
13,2
3
1
1
1
1
2
1
1
1
1
2
0
1
2
0
4
1
0
1
3
87
Indo por grau de dificuldade, deve-se comear por organizar os dados de tipo
qualitativo. Para estes, a representao grfica na forma de pictograma
especialmente atraente para os alunos e, por isso, vamos apresentar duas propostas
de pictograma para a varivel qualitativa Cor dos olhos.
anlise de dados
Entrega-se a cada aluno um pequeno quadrado de papel com uma cara desenhada.
As caras devem ser todas iguais e o aluno ter de pintar os olhos da cor dos seus prprios olhos e desenhar os cabelos (para diferenciar entre rapaz e rapariga):
88
Numa folha de cartolina grande, traa-se uma linha horizontal e escreve-se sob essa
linha as quatro cores de olhos que surgem na amostra. Coloca-se como legenda Cor
dos olhos:
Cada um dos alunos dever colar a cara que pintou no local respectivo, imediatamente acima de alguma cara que j esteja l colocada.
No final obtm-se um pictograma muito divertido!...
Frequncia Absoluta
Frequncia Relativa
Azuis
Verdes
Castanhos
Pretos
6
2
9
3
0,30
0,10
0,45
0,15
20
1,00
Total
Nesta primeira abordagem organizao dos dados procedeu-se pela ordem contrria
ao que habitual. Fez-se a representao grfica antes de fazer a tabela de
frequncias! Tal faz sentido tendo em conta a idade dos alunos, pois a representao
grfica muito mais apelativa e, no caso das variveis qualitativas, pode servir de
base para a construo da tabela de frequncias. Alis, esta situao no nova, pois
quando falmos no grfico de pontos, tambm o construmos antes da tabela de
frequncias.
anlise de dados
89
anlise de dados
Pode agora passar-se construo de um grfico de barras. Pede-se aos alunos que
desenhem 4 rectngulos, todos com a mesma largura, em papel quadriculado, por
exemplo, e cujas alturas sejam iguais s frequncias absolutas. De seguida podero
recortar os rectngulos e col-los numa folha de papel onde tenham desenhado um
eixo e identificado as categorias da varivel Cor dos olhos.
90
Numa fase posterior pode-se ainda pedir que desenhem o grfico de barras numa
folha de papel quadriculado.
Ainda utilizando o papel quadriculado, pode-se ensinar os alunos a desenharem um
diagrama circular, para a varivel Cor dos olhos, da seguinte forma:
Numa folha desenha-se um rectngulo com largura igual a 20 unidades (pode-se
considerar como unidade 1 ou 2 quadrculas) e uma altura qualquer. Divide-se essa
largura em 4 partes de comprimentos 6, 2, 9 e 3 unidades, que se pintam de cores
diferentes, conforme as classes a que dizem respeito:
Cola-se o rectngulo anterior a uma cartolina com as mesmas dimenses, com uma
margem para colar os lados 1 e 2 de modo a obter um cilindro:
Verdes
2
Castanhos
9
Cor dos olhos
Frequncia
Absoluta
Frequncia
Relativa (%)
Amplitude do
ngulo
6
2
9
3
30
10
45
15
108
36
162
54
20
100
360
Azuis
6
Pretos
3
Verdes
2
Castanhos
9
anlise de dados
Comea-se por dizer que se vai fazer uma representao grfica na forma de um
crculo e aproveita-se para recordar que a amplitude de um ngulo giro igual a 360.
Os alunos tm ento de desenhar sectores circulares, todos com o mesmo raio e
amplitudes que se obtm multiplicando a frequncia relativa pelos 360:
91
Azuis
6
anlise de dados
92
Numa cartolina grande desenha-se uma linha horizontal e, por baixo, igualmente
espaados, escrevem-se todos os nmeros entre a menor e a maior das idades
obtidas:
Depois cada aluno ir colocar o pedao de folha com a sua idade, por cima do valor
respectivo. Quando todos os alunos tiverem terminado, obter-se- uma
representao com o seguinte aspecto, em que os pontos foram substitudos por
pedaos de papel:
Nmero de alunos
Podem fazer-se algumas perguntas que evidenciem a facilidade de leitura deste tipo
de grfico.
Sugesto: Pedir aos alunos para representarem graficamente os dados da varivel
Nmero de letras do nome, da tabela Vamos conhecer a turma, utilizando um
procedimento idntico ao utilizado para a varivel Idade.
anlise de dados
A mediana dividiu o conjunto dos 18 papis em duas partes, cada uma com 9 papis.
Agora os alunos com a ajuda do professor determinam as medianas de cada uma
destas partes, que assinalam do mesmo modo que fizeram para a mediana. Uma vez
estes 3 pontos determinados, pode construir-se o diagrama de extremos e quartis,
como se apresenta na figura seguinte:
93
Ainda para dados de tipo quantitativo uma outra representao grfica muito fcil
de utilizar com os alunos do 1. ciclo do ensino bsico, o grfico de caule-e-folhas.
Vamos ilustrar uma forma simples de proceder usando como exemplo a varivel
Tempo que demoras de casa escola, medido em minutos, da tabela Vamos
conhecer a turma (ver pgina 87).
anlise de dados
Comea-se por dar a cada aluno um rectngulo de cartolina (fina) com uma linha
vertical tracejada a dividi-lo a meio e uma pequena cruz no canto superior esquerdo:
94
De seguida, cada aluno dobra a cartolina pela linha tracejada, mantendo visveis para
o exterior os algarismos, e cola as duas metades pela parte de dentro.
Numa cartolina grande, desenha-se uma linha vertical e marcam-se de forma
igualmente espaada os algarismos dominantes (neste caso, das dezenas). Colocam-se
todos, do mais pequeno ao maior, mesmo que na amostra haja algum que no
aparea. No caso do exemplo que estamos a tratar os dgitos dominantes (os caules)
so 0, 1, 2, e 3. Agora s ir colocando cada carto (folha) frente do respectivo
caule.
De notar que, em cada carto, as folhas esto do lado que no tem cruz enquanto
os caules se podem identificar virando o carto e vendo o dgito que surge marcado
com a dita cruz. A evoluo da representao grfica entre a colocao dos 3
cartes acima e a fase final em que j esto colocados todos os cartes ser ento:
Grfico de caule-e-folhas
anlise de dados
Para terminar basta agora ordenar, por ordem crescente, as folhas que esto em
frente de cada um dos caules:
95
anlise de dados
96
H mais alunos na turma a demorar mais tempo do que aquele que tu demoras
ou h menos?
Ser verdadeira a frase A maioria dos alunos da turma demora menos de 20
minutos a chegar escola? Justifica.
Preenche a seguinte tabela de frequncias
Tempo de casa escola
At 10m
de 10m a 20m
de 20m a 30m
de 30 a 40m
Total
Nmero de alunos
Tarefa
Vamos conhecer algumas
caractersticas dos
alunos da escola
Ser que predominam os olhos castanhos? Ou sero os pretos? E ser que a cor dos
olhos depende do sexo, isto , se rapaz ou rapariga? Para responder a esta questo,
decidiu um professor nomear duas comisses de alunos, em que uma das comisses
iria averiguar a cor dos olhos de 30 raparigas e a outra comisso iria averiguar a cor
dos olhos de 25 rapazes. No dia escolhido para a recolha de dados, os alunos que pertenciam s comisses foram para a porta da escola e registaram a cor dos olhos das
primeiras 30 alunas e dos primeiros 25 alunos a chegarem. Observe-se que as
comisses acabaram a recolha da informao praticamente ao mesmo tempo, pois na
escola havia mais raparigas que rapazes. Os resultados obtidos foram os seguintes:
Raparigas
pretos, castanhos, castanhos, azuis, pretos, castanhos, verdes, azuis, castanhos,
castanhos, azuis, pretos, cinzentos, verdes, azuis, castanhos, castanhos, castanhos,
castanhos, pretos, verdes, azuis, castanhos, pretos, pretos, castanhos, castanhos,
pretos, castanhos, castanhos
Rapazes
Castanhos, azuis, castanhos, pretos, castanhos, castanhos, pretos, castanhos,
verdes, castanhos, pretos, castanhos, castanhos, pretos, azuis, azuis, verdes, castanhos, castanhos, verdes, castanhos, pretos, azuis, pretos, castanhos.
Para cada conjunto de dados construa uma tabela de frequncias para organizar a
informao recolhida e a seguir construa uma representao grfica adequada. Tire
concluses.
Resoluo: Para construir a tabela de frequncias, deve verificar-se quais as categorias ou modalidades que a varivel (qualitativa) em estudo Cor dos olhos, pode
assumir. Embora no caso dos dados recolhidos para os rapazes, no se tivesse
observado nenhum com olhos cinzentos, decidiu-se incluir essa categoria na tabela
de frequncias, para melhor se fazer a comparao com os dados recolhidos para as
raparigas:
Raparigas
Freq.abs.
Freq.rel.
preto
castanho
azul
verde
cinzento
7
14
5
3
1
0,23
0,47
0,17
0,10
0,03
Total
30
1,00
Classes
Rapazes
Freq.abs.
Freq.rel.
preto
castanho
azul
verde
cinzento
6
12
4
3
0
0,24
0,48
0,16
0,12
0,00
Total
25
1,00
Classes
97
0,5
Freq. rel.
Freq. rel.
0,5
0,4
0,3
0,2
0,4
0,3
0,2
0,1
0,1
0
pret.
cast.
azul
verd.
cinz.
pret.
anlise de dados
98
cast.
azul
verd.
cinz.
Tarefa
Vamos comparar a temperatura
entre Lisboa e Porto
10
11
12
13
14
Lisboa
Porto
19
17
21
22
20
21
23
18
18
16
20
19
22
17
24
20
23
21
21
18
20
15
20
17
19
16
19
17
Porto
1
9
0
9
0
9
0
8
0
1
2
5
0
6
1
6
1
7
2
99
Tarefa
Quais so os nossos
animais domsticos?
No:
Sim:
Sim:
Co
Co
Gato
Gato
Cgado
Cgado
Peixes
Peixes
Passarinho(s)
Passarinho(s)
Porquinho(s)-da-ndia
Porquinho(s)-da-ndia
Ratinho(s)
Ratinho(s)
Coelho(s)
Coelho(s)
Galinha(s)
Galinha(s)
Outros:
Outros:
Pombos
medida que as pessoas iam respondendo, anotavam com um trao. Faziam grupos
de 5 traos, em que o quinto trao oblquo, por cima dos outros 4. Estes grupos
tornam mais fcil a contagem posterior. Uma alternativa a estes montinhos, o desenho de uma estrela, em que se representa sucessivamente:
100
Animais domsticos
Algumas respostas:
c) Esperava-se que respondessem que tinham co.
d) No ficava admirado, porque se esperava obter um valor perto de 13, que foi o que
se obteve como resposta nas primeiras 50 pessoas.
e) Sim, ficava admirado, porque esperava que houvesse poucas pessoas a
responderem galinhas. Mais precisamente, espervamos que o nmero de pessoas
que respondessem galinhas andasse volta de 2.
anlise de dados
e) Se, ainda neste novo grupo, 10 pessoas dissessem que tinham em casa galinhas, ficavas admirado? Porqu? Mais ou menos quantas pessoas esperarias
que dissessem que tinham galinhas?
Pombos
Galinha(s)
Coelho(s)
Ratinho(s)
Porquinho(s)-da-ndia
Passarinho(s)
Peixes
Cgado
Gato
Co
101
Tarefa
Qual o desporto favorito?
Rapazes
41
25
8
23
3
Futebol
Natao
Atletismo
Tnis
Ciclismo
30
12
8
7
3
102
Classes
Futebol
Natao
Atletismo
Tnis
Ciclismo
Raparigas
Freq.abs.
Freq.rel.
41
25
8
23
3
0,41
0,25
0,08
0,23
0,03
Ciclismo
3%
Tnis
23%
Futebol
41%
Atletismo
8%
Natao
25%
Classes
Futebol
Natao
Atletismo
Tnis
Ciclismo
Rapazes
Freq.abs.
Freq.rel.
30
12
8
7
3
0,50
0,20
0,13
0,12
0,05
Tnis
12%
Atletismo
13%
Ciclismo
5%
Futebol
50%
Natao
20%
Desporto favorito (rapazes)
Como se verifica a partir dos resultados das tabelas e das representaes grficas:
1. H uma maior percentagem de rapazes (50%), do que de raparigas (41%)
a preferirem o futebol.
2. O atletismo e o ciclismo so desportos mais preferidos pelos rapazes.
anlise de dados
103
Tarefa
Vamos pesar laranjas
O(a) professor(a) pede a cada aluno da turma para, no dia seguinte, trazer uma ou
duas laranjas (ou outro fruto, escolha), pois vo fazer uma actividade, em que
procuraro recolher informao sobre o peso desse fruto. No caso de no haver uma
balana na escola, o professor providenciar para a arranjar. No dia escolhido para
fazer pesagens, cada aluno vai pesar a(s) sua(s) laranja(s) e vai registar no quadro
o peso (em gramas) observado. Suponha que os pesos obtidos foram os seguintes:
152
142
157
168
167
172
133
153
166
144
148
138
137
145
147
134
149
151
156
151
152
151
168
154
153
140
175
164
176
148
172
139
160
164
174
154
150
162
151
163
141
146
104
13
14
15
16
17
3
0
0
0
2
4
1
1
2
2
7
2
1
3
4
8
4
1
4
5
9
5
1
4
6
6
2
6
7
2
7
8
3
8
8
3
8
9
4
0,35
[130,
[140,
[150,
[160,
[170,
Total
140[
150[
160[
170[
180[
Freq. Abs.
Freq. Rel.
0,30
5
10
13
9
5
0,12
0,24
0,31
0,21
0,12
0,25
42
1,00
Freq. rel.
Classes
0,20
0,15
0,10
0,05
0,00
[130,140[ [140,150[ [150,160[ [160,170[ [170,180[
Peso das laranjas
A escolha das classes anteriores para construir o histograma, foi feita com o objectivo
de fazer sobressair a semelhana do histograma com a representao em caule-e-folhas. Se repararmos nos caules considerados para o caule-e-folhas, cada um tem
penduradas as folhas correspondentes aos elementos dentro de cada uma das classes
consideradas para o histograma.
Observemos que as duas representaes grficas consideradas, do informao muito
semelhante, no que diz respeito distribuio dos pesos das laranjas.
Nomeadamente, realamos a seguinte informao relevante, a retirar do grfico:
anlise de dados
105
Tarefa
Hbitos alimentares
comemos fruta suficiente?
Quais
Ameixa
Anans
Banana
Cereja
Figo
Laranja
Ma
Melancia
Melo
Meloa
Morango
Nspera
Papaia
Pra
Pssego
Tngera
Tangerina
Uva
Nenhuma
106
Total
Mais de 5
Total
Quantas peas?
0
Mais de 5
Total
Quais
|
Anans
Banana
||||||
||||
|||||
Cereja
||
Figo
Laranja
Ma
|||||
||
23
4
1
||
||
|||
||||||
7
12
Melancia
Melo
Meloa
Morango
Nspera
Papaia
Pra
1
1
|||
||||
||
Pssego
Tngera
Tangerina
||
Uva
Nenhuma
||
Total
||
13
4
1
3
6
2
26
24
16
10
a) A partir da tabela pode-se concluir que h uma fruta que preferida pelos
alunos. Qual essa fruta?
b) Houve s um aluno a dizer que comeu figos. Poderemos concluir
imediatamente que os alunos no gostam de figos? Ou poderemos, por exemplo, estar numa poca em que s agora que os figos comearam a
amadurecer?
c) Quantos alunos responderam que comeram 3 peas de fruta, no dia anterior?
d) Com a ajuda do professor, constri uma tabela de frequncias onde se possa
ver quantos alunos comeram 0, 1, 2, 3, 4, 5 ou 6 peas de fruta.
anlise de dados
Ameixa
Todos os frutos apresentados na tabela foram sugeridos pelos alunos. Para exemplificar o preenchimento da tabela, suponhamos que um aluno tinha no dia anterior
comido uvas, uma ma e uma banana. Ento esse aluno ia ao quadro e na coluna
com o nmero 3, colocava um risquinho (|) nas linhas que dizem respeito s Uvas,
Mas e Bananas, como est assinalado na tabela. Um aluno que no tivesse comido
fruta nenhuma, colocaria um risquinho na coluna com o 0 e na linha onde est escrito
Nenhuma. Vamos admitir que os 35 alunos das turmas tinham ido ao quadro preencher a tabela com a informao que lhes dizia respeito e que a tabela obtida foi a
seguinte:
107
Tarefa proposta
Vamos acompanhar
o crescimento do milho
Ser que os gros de milho crescem o mesmo, durante um certo perodo de tempo?
Num vaso rectangular, vamos plantar vrios gros de milho. necessrio saber qual
a melhor poca para plantar este cereal. Depois do milho comear a germinar,
durante algumas semanas, os alunos tero como tarefa, acompanhar o seu
crescimento, medindo os pezinhos do milho (esta medio deve ser feita, num dia fixo
da semana).
a) Considerando 3 semanas consecutivas, em que se registou a altura dos ps
de milho, calcular o crescimento entre a 1. e a 2. semana e entre a 2. e
a 3. semana.
b) Comparar os crescimentos anteriores.
Resoluo:
Para melhor identificarem os ps de milho, sugere-se que se faa uma quadrcula no vaso,
com cordel ou fio de pesca, e em cada clula da quadrcula, semear um gro de milho.
Constrem uma tabela com tantas clulas, quantos os gros semeados, onde
registaro o comprimento de cada p de milho, em cada uma das semanas:
Gro 1 Gro 2 Gro 3 Gro 4 Gro 5 Gro 6 Gro 7 Gro 8 Gro 9 Gro 10 Gro 11 Gro 12
1. semana
2. semana
3. semana
2. 1.
3. 2.
108
Tarefa proposta
Qual a dimenso do nosso
salto em comprimento?
Tarefa proposta
Ser que os autocarros que
passam frente da escola passam
com a regularidade que est prevista
no horrio afixado na paragem?
109
Tarefa proposta
Vamos acompanhar
o crescimento do milho
Na turma decidiram levar a cabo um estudo sobre qual ser o supermercado mais
barato, das redondezas. Como o preo de um determinado produto no suficiente
para avaliar qual dos supermercados mais barato, comearam por definir um cabaz
de compras que iria servir para fazer a avaliao pretendida. Ento fixou-se que o
cabaz de compras seria constitudo pelos seguintes produtos:
1 kg de batatas para cozer
1 kg de cebolas
1 kg de acar
1 litro de azeite extra-virgem com 0,7 de acidez
1 litro de leite meio-gordo (o mais barato do supermercado)
Para recolher a informao sobre os preos dos produtos do cabaz de compras os
alunos pediram aos pais para os acompanharem ao supermercado e levaram lpis e
papel para apontarem os preos, que levaram no dia seguinte para a escola. Com a
ajuda do professor, pode ser construda uma tabela (idntica que se apresenta a
seguir) onde registam os preos dos produtos que constituem o cabaz de compras,
para cada um dos supermercados visitados (que representamos pelas letras A, B,
C..., enquanto no soubermos os nomes dos supermercados):
Produto
Sup A
Sup B
Sup C
...
...
1 kg batatas
1 kg cebolas
1 kg acar
1 litro azeite
1 litro leite
110
...
...
CARACTERSTICAS
AMOSTRAIS. MEDIDAS de
LOCALIZAO e DISPERSO
Introduo
anlise de dados
3.1
113
anlise de dados
3.2
Medidas de localizao
3.2.1 Mdia
A mdia a medida de localizao central por excelncia!... No seu clculo intervm
todos os valores da amostra e no mais do que o nmero que equilibra os grandes
valores com os pequenos valores. o centro de gravidade da distribuio dos dados.
Se imaginarmos a recta real representada por uma vara sem peso e colocarmos
massas unitrias nos pontos correspondentes aos valores que surgem na amostra, a
mdia localiza-se no centro de gravidade deste objecto:
Se algum nos disser que um conjunto de valores tem mdia 7,5, imaginamos que os
valores se distribuem em volta do 7,5, aproximadamente metade de cada lado. No
pensamos num conjunto de valores em que todos, excepo de um deles, so
inferiores mdia!
Efectivamente a mdia constitui um bom resumo dos dados nos casos em que estes
se distribuem de forma aproximadamente simtrica, com uma zona central de maior
concentrao e caudas que no se alonguem demasiado. Quando a distribuio dos
114
x +x +x
_
x = ---------1--------------------2-----------------------------n---n
Voltemos de novo ao exemplo dos Dados sobre as casas, apresentado no Captulo 1.
Uma questo que pode ter interesse saber quantas assoalhadas, em mdia, tm as
casas que constam da tabela. Para obter esse valor basta somar o nmero de assoalhadas das 40 casas e dividir o resultado obtido por 40:
3 + 3 + 3 + 3 + 5 + 2 + 2 + 4 + 2 + 2 + 3 + 3 + 4 + + 2 + 3 + 3 + 2 +3 + 2 + 2 + 5 +3 + 1 + 2
_
x = ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------40
= 2,6.
E se alm da mdia do nmero de assoalhadas, estivermos interessados na mdia das
reas, das casas observadas? O processo precisamente o mesmo
99 + 90,5 + 109 + 104,8 + + 154,2 + 75,9 + 90,2
_
x = -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------40
= 102,19 m2
A mdia uma medida muito importante na vida de um estudante. Durante os anos
em que estiver a estudar ser constantemente questionado sobre a sua mdia! Ter
ainda que ter uma mdia de candidatura positiva (superior a 9,5) se pretender
candidatar-se ao ensino superior... Convir terminar um curso com uma mdia
razovel, se pretender arranjar um emprego..., etc.
anlise de dados
115
anlise de dados
Freq. Abs.
ni
Freq. Rel.
fi
1
2
3
4
5
3
17
16
2
2
0,075
0,425
0,400
0,050
0,050
Total
40
1,000
Rep. classe
xi
Freq. Abs.
ni
Freq. Rel.
fi
[64, 81[
[81, 98[
[98, 115[
[115, 132[
[132, 149[
[149, 166[
72,5
89,5
106,5
123,5
140,5
157,5
4
14
15
4
1
2
0,100
0,350
0,375
0,100
0,025
0,050
40
1,000
Total
116
3.2.2 Mediana
A mediana um valor que divide a amostra ao meio: metade dos valores da amostra so no superiores (menores ou iguais) mediana e os restantes so no
inferiores (maiores ou iguais) mediana. Por outras palavras, at mediana
(inclusiv) est, pelo menos, 50% da amostra; para l da mediana (inclusiv) est
tambm, pelo menos, 50% da amostra.
Contrariamente com o que se passa com a mdia, o clculo da mediana envolve um
passo prvio de ordenao da amostra.
Como obter a mediana?
Para determinar a mediana fundamental, como dissmos anteriormente, comear
por ordenar os dados. Entretanto podem-se verificar duas situaes, quanto
dimenso da amostra:
Se a dimenso da amostra mpar, h um dos elementos da amostra ordenada
que tem tantos elementos para a esquerda como para a direita. A ttulo de
exemplo, se a amostra tiver dimenso 11, o elemento na 6. posio tem 5
elementos da amostra para a sua esquerda e outros tantos para a sua direita.
Esse elemento central da amostra ser, neste caso, a mediana.
Repare-se que da forma como se calcula a mediana, quando a dimenso n da amostra mpar, a mediana um elemento da amostra. Quando n par, s ser um
elemento da amostra se os dois elementos centrais forem iguais.
Uma regra prtica para obter a posio da mediana consiste em fazer o quociente
n+1
-------------------:
2
Se este quociente for um nmero inteiro, o que se verifica quando n mpar,
toma-se para mediana o elemento nessa posio;
Se este quociente terminar em 0,5, o que se verifica quando n par, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que corresponde
essa ordem, com o elemento da ordem seguinte.
anlise de dados
Se a dimenso da amostra par, no h nenhum elemento que tenha a propriedade de a dividir ao meio. H dois valores centrais e define-se a mediana
como sendo a mdia aritmtica desses dois valores.
117
anlise de dados
Por exemplo, suponhamos que se pretende saber qual a mediana dos pesos (em kg)
dos 15 alunos de uma turma do 2. ano. Recolhida a informao sobre esses pesos,
obtiveram-se os seguintes valores:
27
32
26
27
30
30
33
29
41
27
31
32
29
31
28
33
41
27
27
27
28
29
29
30
30
31
31
32
32
15 + 1
Ento a mediana o elemento na 8. posio (---------------------------) , ou seja o 30. Se a amos2
tra anterior tivesse s 14 elementos e o 41 no pertencesse amostra, ento a
14 + 1
mediana seria a semi-soma dos elementos da 7. posio (parte inteira de -------------------------- = 7,5)
2
29 + 30
e da 8. posio, ou seja, 29,5 (= --------------------------- ).
2
Dado um histograma, fcil obter a posio da mediana, pois esta est numa posio
tal, que passando uma linha vertical por esse ponto, o histograma fica dividido em
duas partes com reas iguais, como se representa na figura seguinte:
Ao contrrio da mediana que divide o histograma em duas partes com reas iguais,
a mdia o ponto de equilbrio do histograma, em que se entra em linha de conta
no s com a frequncia das classes, mas tambm, com a distncia a que esto do
centro. Assim, na figura anterior, enquanto que no histograma do lado esquerdo, a
mdia coincidir com a mediana, no do centro, que apresenta um enviesamento para
a direita, a mdia ser puxada para a direita da mediana. Por outro lado, no histograma que apresenta o enviesamento para a esquerda, a mdia ser puxada para
a esquerda da mediana.
Como j referimos, a mdia, ao contrrio da mediana, uma medida muito pouco
resistente, isto , muito influenciada por valores "muito grandes" ou "muito
pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes
valores, a que se d o nome de outliers, so os responsveis pela m utilizao da
mdia em muitas situaes em que teria mais significado utilizar a mediana.
A mediana tem como principal desvantagem o facto de, no seu clculo, s fazer
intervir 1 ou 2 valores da amostra. No entanto, esta desvantagem transforma-se em
vantagem, por comparao com a mdia, quando a distribuio da amostra muito
enviesada. A mediana muito resistente e no afectada pelos valores extremos.
118
Resumindo, como a mdia influenciada quer por valores muito grandes, quer por
valores muito pequenos, se a distribuio dos dados for enviesada para a direita
(alguns valores grandes como outliers), a mdia tende a ser maior que a mediana;
se for aproximadamente simtrica, a mdia aproxima-se da mediana e se for
enviesada para a esquerda (alguns valores pequenos como outliers), a mdia tende
a ser inferior mediana. Representando as distribuies dos dados (esta observao
vlida para as representaes grficas na forma de diagrama de barras ou de histograma) na forma de uma mancha, temos, de um modo geral (Graa Martins, 2005):
Observe-se que o simples clculo da mdia e da mediana nos pode dar informao
sobre a forma da distribuio dos dados.
No estudo de dados qualitativos ordinais (isto , onde se pode considerar uma ordem
subjacente categorias) faz sentido indicar a categoria mediana. A categoria mediana
aquela onde, pela primeira vez, a frequncia relativa acumulada atinge ou
ultrapassa os 50%. Esta mesma definio serve para identificar a classe mediana no
caso de se estar perante dados agrupados.
N. de irmos
Freq. Abs.
Freq. Rel.%
0
1
2
3
4
3
11
3
2
1
15
55
15
10
05
15
70
85
95
100
20
100
anlise de dados
119
anlise de dados
Tempo de
casa escola
(minutos)
Freq. Abs.
At 10
de 10 a 20
de 20 a 30
de 30 a 40
4
7
6
3
20
35
30
15
20
55
85
100
Total
20
100
Freq. Abs.
ni
Freq. Rel.
fi
1
2
3
4
5
3
17
16
2
2
0,075
0,425
0,400
0,050
0,050
3
20
36
38
40
7,5
50
90
95
100
Total
40
1,000
400
450
600
700
1000
5000
23
58
50
20
120
Salrio (euros)
N. empregados
Freq. Rel. %
Freq. Rel. Acum. %
400
450
600
700
1000
5000
23
14,38%
14,38%
58
36,25%
50,63%
50
31,25%
81,88%
20
12,50%
94,38%
7
4,38%
98,75%
2
1,25%
100,00%
anlise de dados
Exemplo
121
anlise de dados
3.2.3 Quartis
Os quartis, j utilizados anteriormente na construo do diagrama de extremos e
quartis, so outras medidas de localizao de alguns pontos de interesse, que no o
centro da distribuio dos dados. Como vimos na definio da mediana, esta divide a
amostra em duas partes com igual percentagem de elementos. Considerando cada
uma destas partes e calculando a sua mediana, obteremos os quartis. Assim, a
mediana e os quartis localizam pontos que dividem a distribuio dos dados em 4
partes com igual percentagem de elementos.
H vrios processos para calcular os quartis, nem todos conducentes aos mesmos
valores, mas a valores aproximados. A metodologia que, a este nvel, recomendamos
para os obter a seguinte:
Ordenar os dados e calcular a mediana Me;
O 1. quartil, Q1, a mediana dos dados que ficam para a esquerda de Me;
O 3. quartil, Q3, a mediana dos dados que ficam para a direita de Me.
Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dvidas, no
caso em que a dimenso da amostra mpar. Efectivamente, neste caso a mediana
coincide com um dos elementos da amostra e poderamos optar por consider-lo
includo nas duas metades em que fica dividida a amostra, ou no o considerar em
nenhuma das metades. A nossa opo consider-lo pertencente s duas metades.
Consideremos de novo o exemplo utilizado para ilustrar o clculo da mediana, dos
pesos dos 15 alunos de uma turma do 2. ano, j ordenados:
Neste caso a mediana divide a amostra em duas partes de 7 elementos, cada uma,
e, do mesmo modo que anteriormente, os quartis sero as medianas dessas partes.
Os quartis so medidas de localizao com algum interesse prtico, pois permitem
localizar os 50% dos valores centrais dos dados e como veremos, so utilizados para
definir uma medida de disperso ou variabilidade desses dados.
122
Mnimo
Mximo
Mnimo
Mximo
Mnimo
Mximo
Mnimo
Mximo
1
ms
3.500
5.000
10
meses
8.300
10.900
1 ano
7m
10.150
13.300
2 anos
4m
11.500
15.250
3 anos
4m
13.200
17.700
2
meses
4.000
6.000
11
meses
8.500
11.250
1 ano
8m
10.300
13.600
2 anos
5m
11.600
15.500
3 anos
8m
13.750
18.500
3
meses
4.750
7.000
1
ano
8.800
11.500
1 ano
9m
10.500
13.800
2 anos
6m
11.750
15.700
4
anos
14.300
19.300
4
meses
5.500
7.800
1 ano
1m
9.000
11.800
1 ano
10m
10.600
14.000
2 anos
7m
11.900
15.900
4 anos
4m
15.000
20.200
5
meses
6.000
8.500
1 ano
2m
9.250
12.000
1 ano
11m
10.700
14.200
2 anos
8m
12.000
16.000
4 anos
8m
15.500
21.000
6
meses
6.500
9.000
1 ano
3m
9.500
12.400
2
anos
10.900
14.500
2 anos
9m
12.100
16.300
5
anos
16.000
21.800
7
meses
7.000
9.700
1 ano
4m
9.700
12.600
2 anos
1m
11.000
14.650
2 anos
10
12.250
16.500
8
meses
7.500
10.000
1 ano
5m
9.800
12.800
2 anos
2m
11.200
14.800
2 anos
11m
12.400
16.750
anlise de dados
Mnimo
Mximo
Ao
nascer
2.750
4.000
9
meses
7.900
10.500
1 ano
6m
10.000
13.000
2 anos
3m
11.300
15.000
3
anos
12.600
17.000
A partir da tabela anterior, conclumos que um peso razovel, nem muito magro, nem
muito gordo, para um beb de 2 anos e meio, ser um peso compreendido no
intervalo [11,750kg, 15,700kg].
3.2.4 Percentis
123
anlise de dados
Exemplo:
Conversa entre me e filho Imagine a seguinte conversa entre uma me e o seu
filho de 15 anos.
Filho - Me, tive 14 no teste de Biologia!
Me E ento isso bom ou nem por isso?
Filho Como assim? Digo que tive 14 e ainda me perguntas se isso bom?
Me Pois, pergunto. E at pergunto a que percentil que corresponde essa nota?
Filho Mas o que isso de percentil? No sei do que ests a falar!
Me Quantos alunos na tua escola fizeram esse teste?
Filho Foram 100, porqu?
Me E quantos tiveram nota maior que 14?
Filho Bom, no vi bem, mas parece-me que foram uns 80!
Me Afinal, no tens razo para estar to satisfeito! Ficaste no percentil 20. S 20%
dos teus colegas tiveram nota menor ou igual tua. Esse exame foi mesmo
muito fcil.
Exemplo:
Nota mnima de acesso Uma Universidade pretendia estabelecer uma nota
mnima de acesso para a prova especfica de Matemtica. Estava, no entanto, com o
seguinte problema: se a prova fosse muito difcil, como tinha sido nos anos
anteriores, corria o risco de no ter alunos, ou ter muito poucos, com nota maior ou
igual a 95 (numa escala de 0 a 200) e ficar com as vagas por preencher. Ento o
Conselho Directivo tomou a seguinte deciso. Independentemente da distribuio que
se vier a verificar para as notas no exame de Matemtica, fixaram como nota mnima
aquela que permita que 55% dos alunos que realizarem o exame, se possam
candidatar. Com esta deciso, a nota mnima de acesso no necessariamente
positiva.
Nota Este exemplo no fico e foi a metodologia seguida durante alguns anos
pelo Conselho de Reitores das Universidades Portuguesas (CRUP) e outras instituies
de Ensino Superior, na definio da nota mnima de acesso, como refere o Decreto-Lei que se trancreve, em parte, a seguir:
ENSINO SUPERIOR PBLICO
Decreto-Lei n. 296-A/98, (alneas a) e c) do artigo 24.) de 25 de Setembro, alterado pelo
Decreto-Lei n. 99/99, de 30 de Maro
CLASSIFICAO MNIMA NAS PROVAS DE INGRESSO
I. Recomendao do CRUP
1. Para candidatura aos pares estabelecimento/curso que adoptaram a Recomendao do CRUP no tocante
fixao da classificao mnima prevista na alnea a) do artigo 24. do Decreto-Lei n. 296-A/98, de 25
de Setembro, alterado pelo Decreto-Lei n. 99/99, de 30 de Maro, os candidatos devem obter no exame
nacional de cada uma das provas de ingresso exigidas para o curso superior a que se candidatam,
classificao no inferior a 95 pontos na escala de 0 a 200.
2. Se, excludos os casos de classificao igual a zero pontos, o nmero de examinandos com classificao
igual ou superior a 95 pontos em determinado exame nacional de prova de ingresso for inferior a 55% do
nmero total, o valor da classificao mnima aquele que permita a admisso ao concurso, por esta via,
de 55% dos examinandos.
3. A regra aplicada a cada chamada de cada exame.
124
em Portugal / 2001
306
IV. Percentil 50
2. Se, excludos os casos de classificao igual a zero pontos, na escala de 0 a 200, o nmero de
examinandos com classificao igual ou superior a 100 pontos for inferior a 50% do nmero total, o valor
da classificao mnima aquele que permita a admisso ao concurso, por esta via, de 50% dos
examinandos.
3. A regra aplicada a cada chamada de cada exame.
3.2.5 Moda
Em amostras de dados qualitativos d-se o nome de categoria modal ou, tambm,
simplesmente, moda, categoria de maior frequncia. Esta mesma definio
usualmente utilizada tambm para dados quantitativos (discretos ou contnuos), ou
seja, define-se moda como sendo a classe de maior frequncia (dados agrupados).
No entanto, neste caso, de dados quantitativos, tem vindo a ter cada vez maior
interesse generalizar a definio de moda. Assim, vamos designar por moda qualquer
classe que esteja ladeada por classes de menor frequncia. As modas sero, pois, os
picos na distribuio de frequncias.
anlise de dados
1. Para candidatura aos cursos da Faculdade de Cincias da Universidade do Porto, os candidatos devem
obter no exame nacional de cada uma das provas de ingresso exigidas para o curso superior a que se
candidatam, classificao no inferior a 100 pontos na escala de 0 a 200.
125
anlise de dados
Exemplo:
Virose desconhecida (Graa Martins, 1999) Suponha que numa regio comearam
a aparecer pessoas com uma virose desconhecida. Os mdicos do Centro de Sade
dessa regio procuraram recolher alguma informao sobre as pessoas atacadas por
essa virose. Foi recolhida uma amostra de 35 desses doentes a quem se perguntou,
entre outras caractersticas, a idade. Depois de analisados os dados os mdicos foram
informados que a idade mdia dos doentes era de 32 anos. Um dos mdicos, mais
curioso que os outros, pediu que lhe mostrassem a distribuio dos dados, tendo-lhe
sido apresentada a seguinte distribuio num grfico de caule-e-folhas:
0
0
0
0
0
1
1
6
6
7
7
7
7
7
8
1
2
4
6
8
1
2
4
6
8
2
5
7
8
8
9
0
2
4
7
9
0
2
5
1
3
5
3
5
7
3
5
7
126
A bimodalidade torna-se ainda mais evidente se a zona central de uma das distribuies se encontrar muito afastada da zona central da outra e se a percentagem
de observaes pertencentes a cada uma das duas subpopulaes for idntica.
Retomando o exemplo das alturas, se numa amostra de 100 indivduos tivermos 10
mulheres e 90 homens muito pouco provvel que o histograma apresente
bimodalidade, contrariamente ao que dever ocorrer em amostras com 50 homens e
50 mulheres.
Considere-se o exemplo dos Dados sobre casas, do captulo 1. No pargrafo 2.4.2
apresentmos um histograma construdo para a varivel Preo, que tinha o seguinte
aspecto:
anlise de dados
Note-se que a zona de maior concentrao ou densidade, est entre 1,70m e 1,80m,
sendo a moda (mximo relativo da curva) igual a 1,75m. A forma da distribuio das
alturas das mulheres dever ser idntica, mas localizada em torno de 1,60m:
127
12
Freq.abs.
anlise de dados
14
10
8
6
4
2
0
80
120
160
200
240
280
320
360
Preo
Histograma para a varivel Preo das casas do ficheiro Dados sobre Casas
Este histograma apresenta duas classes modais! Uma delas a classe dos 160 aos
200 mil euros, e a outra a classe que vai de 280 a 320 mil euros. Olhando para as
caractersticas das casas, podem apontar-se algumas possveis causas para esta
bimodalidade: h casas novas e casas usadas; h casas com garagem e casas sem
garagem; as casas no so todas da mesma zona e pode haver alguma zona onde,
em mdia, as casas so mais caras que nas outras duas zonas!... claro que, como
a frequncia da segunda classe modal relativamente baixa, pode-se ainda
argumentar que a bimodalidade no devida a uma mistura de populaes mas sim
obra do acaso!... Ainda a propsito deste exemplo, chamamos mais uma vez a
ateno, para o facto de o histograma ser uma representao grfica que, para alguns
conjuntos de dados, pode mudar sensivelmente de aspecto, quando se altera a
amplitude de classe ou o ponto onde se comeam a construir as classes. Assim, para
o mesmo conjunto de dados pode acontecer haver representaes grficas diferentes,
nomeadamente em termos do nmero de modas.
Observao:
Quando se pretende saber qual o centro de uma distribuio de dados, a resposta a
esta pergunta fcil se a distribuio for aproximadamente simtrica e unimodal (s
com uma moda). Se a distribuio dos dados apresentar outras formas,
nomeadamente enviesamento ou vrias modas, j o conceito de centro da distribuio dos dados pode no fazer qualquer sentido, como j referimos
anteriormente ao tratarmos das medidas de localizao.
128
Tarefa
Vamos pesar laranjas (cont.)
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
133
134
137
138
139
140
141
142
144
145
146
147
148
148
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
149
150
151
151
151
151
152
152
153
153
154
154
156
157
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
160
162
163
164
164
166
167
168
168
172
172
174
175
176
Como o nmero de dados par, a mediana a semi-soma dos dados que se encontram nas posies 21. e 22., ou seja
152 + 152
Mediana = -------------------------------------- =152
2
Para determinar os quartis, vamos considerar as medianas de cada uma das partes
em que ficaram divididos os dados, pela mediana: o 1. quartil ser a mediana dos
dados que esto nas posies de 1 a 21, enquanto que o 3. quartil ser a mediana
dos dados que esto nas posies de 22 a 42. Como agora temos um nmero mpar
de dados, a mediana ser o elemento do meio. Assim, temos:
1. quartil = 146 (elemento na 11. posio)
3. quartil = 164 (elemento na 32. posio)
129
anlise de dados
Mnimo = 133
Mximo = 176
1. quartil = 146
3. quartil= 164
Mediana = 152
133
146
152
1. quartil mediana
164
176
3. quartil
130
O melhor dar
a cada um a mdia!
131
anlise de dados
Antes da repartio
Depois da repartio
Uma questo que pode ser levantada por um aluno , por exemplo, a seguinte: e se
a Luisinha tivesse encontrado 3 euros em vez de 2 euros? Como que resolvamos a
situao?
O Huguinho deu 2 euros Luisinha, que ficou com a mesma quantia que a Zezinha,
mas ainda sobrou 1 euro. Para ficarem os 3 com quantias iguais, teramos de dividir
o euro em 3 partes iguais e dar a cada um, uma dessas partes. S assim que cada
um ficava com uma quantia igual, ou seja a mdia.
Se em vez de euros, tivessemos bolos, seria mais fcil dividir o bolo sobrante em 3
partes iguais e dar a cada um uma das partes:
132
anlise de dados
Por exemplo, se na turma o professor perguntar a cada um dos alunos quantos irmos
tem e calcular a mdia dos valores registados, natural que obtenha um valor no
inteiro. Se obtiver o valor 1,6, como podemos interpret-lo? O professor pode
incentivar os alunos a registar os valores obtidos num diagrama de pontos e
verificarem que a maior concentrao de valores se regista volta do 1 e do 2
(estamos a admitir que na turma nenhum aluno tem um nmero de irmos substancialmente maior que os outros alunos, que provocasse uma inflao na mdia...).
Pode-se dar ainda como exemplo a informao fornecida pelo Instituto Nacional de
Estatstica sobre o nmero mdio de filhos das famlias portuguesas.
133
Tarefa
Vamos comer queijo,
mas no exageremos
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Queijo
Brie
Camembert
da Ilha
da Serra curado
da Serra fresco
de Azeito
de vora
de Serpa
de Tomar
flamengo 20%
flamengo 30%
flamengo 45%
fresco
Gorgonzola
Gruyre
Parmeso
Roquefort
Suo
Gordura (g)
Calorias
20
23
26
32
27
25
34
26
27
8
14
23
21
37
20
28
32
29
263
313
357
385
327
309
412
330
305
185
246
315
265
407
315
401
371
357
Alimento com baixo teor em gordura mas podendo ter um elevado contedo
em calorias.
134
0
1
2
3
8
4
0
2
0
2
1
4
3
7
Podemos dizer que os 25% dos queijos menos gordos, so os que tm uma
quantidade de gordura menor ou igual a 21 g por cada 100 g de queijo, ou sejam:
Brie, Flamengo 20%, Flamengo 30%, Fresco e Gruyre. Analogamente, os 25% dos
queijos mais gordos, so que tm quantidade de gordura superior ou igual a 29 g, por
cada 100 gramas de queijo e que so: Serra Curado, vora, Gorgonzola, Roquefort e
Suo.
anlise de dados
135
Uma vez que temos calculados os quartis e a mediana, vamos construir o diagrama
de extremos e quartis:
40
35
30
25
1. quartil
Mnimo
20
15
Mediana
Mximo
3. quartil
10
5
0
A representao anterior sugere algum enviesamento para a esquerda (embora o diagrama de extremos e quartis esteja ao alto, continuamos a falar no enviesamento
para a esquerda, quando este for na direco dos valores mais pequenos), tal como
a representao em caule-e-folhas j havia sugerido.
Tarefa proposta
Vamos comparar
vrios tipos de mas
136
Tarefa proposta
Os frutos tm muitas calorias?
Gordura
Calorias
Nome
Gordura
Calorias
13
1
56
48
1
1
65
0
48
1
0
60
1
2
2
0
0
0
0
130
59
626
596
59
49
676
90
573
182
63
630
64
50
70
54
51
58
41
Limo
Ma
Manga
Maracuj
Melancia
Melo
Morango
Nspera
Noz
Papaia
Pra
Pssego
Pinho
Pistcio
Rom
Tngera
Tangerina
Toranja
Uva
1
1
0
1
0
0
1
1
67
0
1
1
52
54
0
0
0
1
1
37
64
57
90
25
31
34
54
686
50
37
45
618
594
54
41
46
43
89
137
anlise de dados
3.3
Medidas de disperso
15
10
0
15
13
7
15
15
15
15
17
23
15
20
30
138
14
21
3.3.3 Desvio-padro
Tal como a mediana, que calculada unicamente a partir de um ou dois valores da
amostra, tambm a amplitude interquartis calculada unicamente a partir dos
quartis, ignorando assim muita informao sobre a forma como os dados se distribuem. Quando a distribuio dos dados aproximadamente simtrica, situao em
que tem sentido falar da mdia como medida de localizao do centro de distribuio
dos dados, utiliza-se como medida de variabilidade ou disperso dos dados, o desvio-padro, que no seu clculo tem em conta os desvios de todos os dados relativamente
mdia.
anlise de dados
Na seco 3.2.3 calculmos os quartis da amostra constituda pelo peso dos 15 alunos
de uma turma do 2. ano. Vimos que o 1. quartil Q1=27 e o 3. quartil Q3=31, donde
a amplitude interquartis = 4
3.3.1 Amplitude
139
anlise de dados
_
Consideremos ento a amostra (x1,x2,...,xn) com mdia x . Para medir a variabilidade
dos dados relativamente mdia, comea-se por calcular, para cada dado, a
diferena entre ele e a mdia, a que chamamos desvio:
_
_
_
_
x1- x , x2-x
x , x3- x , ..., xn- x
Para obter a variabilidade de todos os dados, seria natural somar todos os desvios.
Acontece que a soma destes desvios sempre igual a zero, pois os desvios positivos
anulam com os negativos, pelo que esta soluo no serve. Ento, vamos considerar
no os prprios desvios, mas os seus quadrados:
_
_
_
_
(x1- x )2, (x2- x )2, (x3- x )2, ..., (xn- x )2
Define-se varincia e representa-se por s2, a medida que se obtm somando os quadrados dos desvios e dividindo pelo nmero de observaes menos uma:
_
_
_
_
(x1 x )2 + (x2 x )2 + (x3 x )2 + + (xn x )2
2
s =----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------n 1
O motivo que nos leva a considerar os quadrados dos desvios j tem uma explicao.
Mas ento porque que no consideramos a mdia desses desvios ao quadrado,
dividindo a sua soma por n em vez de (n-1), como est proposto? A este nvel, a
resposta que pode ser dada prende-se de certo modo com o motivo que nos levou a
considerar os quadrados, em vez dos prprios desvios: como a soma dos n desvios
igual zero, basta conhecer (n-1) desses desvios, para que o n-simo fique
automaticamente determinado. Assim, como s temos (n-1) desvios independentes,
dividimos por (n-1) em vez de n.
A varincia, como medida de variabilidade tem um problema que o facto de no vir
nas mesmas unidades que os dados originais. Resolve-se este problema considerando
a raiz quadrada, a que se d o nome de desvio-padro:
15
14
18
25
14
15
14
140
16
17
20
17
anlise de dados
141
Nota mal digitada - Um professor ao digitar, numa folha de clculo, as notas (numa
escala de 0 a 20) que os seus 38 alunos tiveram no teste de Matemtica, enganou-se e ao escrever 15, escreveu 155. Como que este erro pode afectar o valor das
medidas de localizao, mdia e mediana e das medidas de disperso, desvio padro
e amplitude interquartis?
Nitidamente o valor 155 um outlier, que provocar um aumento (substancial) da
mdia, relativamente ao valor que seria o correcto com a nota de 15. A mediana
possivelmente no vir alterada e se houver alterao, no ser significativa. No que
diz respeito s medidas de disperso, o desvio-padro tambm vir inflacionado,
enquanto que a amplitude interquartis no deve ser afectada.
Exemplo:
Notas de trs turmas - Trs turmas do 10. ano fizeram o mesmo teste de
Matemtica, tendo-se construdo os seguintes histogramas para as classificaes
obtidas:
Freq. abs.
6
5
4
3
2
1
0
20
30
40
50
Turma 1
60
70
80
90
100
70
80
90
100
70
80
90
100
Nota
Turma 2
Freq. abs.
5
4
3
2
1
0
20
30
40
50
Turma 2
60
Nota
Turma 3
8
7
6
5
4
3
2
1
0
20
Turma 3
142
Turma 1
Freq. abs.
anlise de dados
Exemplo
30
40
50
60
Nota
A turma 3, teve, de um modo geral notas mais altas. Alis, houve mais alunos a ter
notas altas do que baixas, como se depreende pelo enviesamento. Assim, de
esperar que seja a turma 3 a ter maior mdia. Tambm para esta turma se espera
maior mediana que para as outras turmas e alm disso espera-se que a mediana seja
maior que a mdia, pelo tipo de enviesamento apresentado.
Exemplo:
Preo das casas - Recordemos, de novo, o exemplo dos Dados sobre casas. Na
seco 2.5.1 apresentmos um grfico com 3 diagramas de extremos e quartis,
referentes ao preo das casas, nas 3 zonas A, B e C:
anlise de dados
Grficos de extremos e quartis paralelos, para os preos das casas nas zonas A, B e C
A partir das representaes grficas anteriores ser possvel dizer em qual das turmas
se espera maior mdia para o teste? E maior mediana? E em qual das turmas se
espera que a mediana esteja mais afastada da mdia?
143
anlise de dados
Zona
Mdia
Mediana
A
B
C
219,14
181,82
131,72
208,88
181,06
126,80
Analisando a tabela, verifica-se que, como se esperava, os preos das casas das
zonas A e C, tm mdias superiores s medianas. Para a zona B obteve-se um valor
para a mdia muito prximo da mediana.
Como se comportaro as medidas de variabilidade? Sugere-se a construo de uma
tabela anloga anterior, com as medidas do desvio padro e da amplitude
interquartis, para analisar as diferenas obtidas.
Exemplo:
Trabalhadores da Empresa Fio de Ouro - Um grupo de trabalhadores, constitudo
por mulheres, foi-se queixar ao sindicato da indstria txtil, alegando que, na
empresa Fio de Ouro, pertencente ao Sr. Silva, o salrio mdio dos homens era
superior ao das mulheres. Ser que tinham razo para se queixarem? A trabalho
igual, o Sr. Silva estava a pagar de forma diferente aos homens e s mulheres? Com
base na tabela fornecida pela contabilidade, vamos averiguar o que se passa com a
questo anterior:
144
Nome
Cargo
Antnio
Filipe
Pedro
Paulo
Jos
Ana
Maria
Rosa
Joo
Filipa
Lus
Joaquim
Verssimo
Eduardo
Fernando Silva
Eugnio
lvaro
Alberto
Beto
Anacleto
Antnio
Tcnico
Tcnico
Tcnico
Administ.
Tcnico
Tcnico
Administ.
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Scio-gerente
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Administ.
Salrio
809
864
959
621
949
770
655
762
783
853
807
974
821
1037
5500
1006
893
1031
787
801
695
Nome
Cargo
Emlia
Pedro
Joo
Lusa
Cristiano
Ronaldo
Cristina
Valdemar
Vasco
Vanessa
Ctia
Bruno
Raquel
Miguel
Ricardo
Tlio
Tiago
Isabel
Dinis
Daniela
Antnia
Administ.
Tcnico
Tcnico
Administ.
Administ.
Administ.
Tcnico
Tcnico
Administ.
Tcnico
Administ.
Tcnico
Tcnico
Tcnico
Tcnico
Tcnico
Administ.
Administ.
Tcnico
Tcnico
Tcnico
Salrio
687
836
807
665
582
712
915
927
702
909
746
853
853
1028
847
926
747
719
911
945
970
Nome
Cargo
Miguel
Pedro
Telmo
Joo
Lus
Fernanda
Eugnia
Rita
Ana
Filipa
Raquel
Rute
Pedro
Ivete
Joo
Miguel
Eduardo
Tiago
Armando
Valente
Susana
Tcnico
840
Tcnico
837
Administ. 662
Tcnico
884
Tcnico
861
Tcnico
963
Administ. 756
Tcnico
797
Administ. 712
Tcnico
967
Tcnico
1013
Tcnico
816
Administ. 731
Administ. 670
Administ. 742
Administ. 628
Tcnico
799
Tcnico
803
Tcnico
802
Tcnico
831
Tcnico
788
Salrio
6000
1200
5000
1000
4000
800
1. quartil
1quartil
Mnimo
3000
Mnimo
Mediana
600
Mediana
Mximo
3. quartil
2000
1000
Mximo
3quartil
400
200
0
Mulheres
Homens
Mulheres
Homens
Estamos numa situao em que existe um outlier, o salrio de 5500 euros auferido
pelo scio-gerente. Retirou-se este valor dos salrios dos homens e construiu-se de
novo os diagramas de extremos e quartis paralelos, que se apresentam no lado direito
da figura anterior. As representaes obtidas no apresentam praticamente
enviesamento, pelo que vamos utilizar a mdia como medida de localizao do centro dos dados.
Para explorar um pouco mais os dados (sem o outlier), calcularam-se as mdias para
os empregados do sexo feminino e masculino, separando ainda os tcnicos dos
administrativos, tendo-se obtido a tabela seguinte:
Sexo
Administrativo
Tcnico
Feminino
Masculino
701
682
880
877
815
828
691
878
823
anlise de dados
Cargo
145
Coeficiente de correlao
Vimos na seco 2.7, que quando temos dados bivariados, uma forma de os
representar graficamente atravs do diagrama de disperso, em que cada par de
dados (x,y) representado, num sistema de eixos ortogonais, por um ponto de
coordenadas (x,y). Obtm-se assim uma nuvem de pontos que nos permite avaliar
de imediato se h ou no uma forte associao entre as duas variveis. A associao
mais simples que os pontos podem apresentar a associao linear e o maior ou
menor grau de proximidade dos pontos a uma linha recta pode ser traduzido
numericamente por um coeficiente a que se d o nome de coeficiente de
correlao linear.
No diagrama de disperso seguinte, esto representados os pares (rea, Preo) das
40 casas que constituem a amostra dos Dados sobre casas. A nuvem de pontos
apresenta-se um pouco dispersa, mas no deixa por isso de ser bem patente a sua
forma alongada que se desenvolve em torno de uma recta com um declive positivo:
400
350
300
Preo
anlise de dados
3.4
250
200
150
100
50
100
150
200
rea
Como se v, verifica-se uma tendncia para que casas de maior rea tenham preos
mais elevados.
146
que vai ser utilizada, ainda, para justificar graficamente o maior ou menor valor
obtido para o coeficiente de correlao, conforme o aspecto da nuvem de pontos.
anlise de dados
147
anlise de dados
148
Neste caso tanto podem surgir produtos negativos, como positivos, distribuindo-se de
forma mais ou menos equitativa. Ento o valor de r vem prximo de zero.
Mais uma vez chamamos a ateno que o coeficiente de correlao mede unicamente
a relao linear existente entre as variveis e no outro tipo de ligao. Por exemplo,
o seguinte diagrama de pontos indica uma forte associao entre as variveis x e y:
Y
30
25
20
15
10
0
-5
anlise de dados
149
Exemplo:
Ser que o vinho bom para o corao? (Moore, 1997) H a convico de que
o consumo moderado de vinho ajuda a prevenir ataques cardacos. Na tabela seguinte
apresentamos, para 19 pases desenvolvidos, alguns valores respeitantes ao consumo
anual de vinho (litros de lcool obtidos a partir do consumo de vinho, por pessoa) e
a taxa de mortes anuais por doenas cardacas (mortes por 100 000 pessoas):
Pas
Austrlia
ustria
Blgica
Canad
Dinamarca
Finlndia
Frana
Islndia
Irlanda
Itlia
lcool
Taxa de mortes
Pas
lcool
Taxa de mortes
2,5
3,9
2,9
2,4
2,9
0,8
9,1
0,8
0,7
7,9
211
167
131
191
220
297
71
211
300
107
Holanda
N.Zelndia
Noruega
Espanha
Sucia
Sua
R. Unido
EUA
Alemanha
1,8
1,9
0,8
6,5
1,6
5,8
1,3
1,2
2,7
167
266
227
86
207
115
285
199
172
anlise de dados
Para a nuvem de pontos referente aos pares (rea, Preo) obteve-se como coeficiente
de correlao linear o valor r=0,68. Este valor evidencia uma correlao positiva no
muito forte, confirmando a observao feita anteriormente de que a nuvem se
apresenta bastante dispersa e com uma inclinao positiva h tendncia para que
casas de maior rea tenham preos mais elevados, mas a rea, por si s, no
consegue explicar na sua totalidade o preo da casa.
Ento podemos concluir que quanto mais lcool consumirmos, menor a probabilidade
de morrer de um ataque cardaco? No! A associao no deve ser interpretada como
causa efeito. Pode, eventualmente, haver outras variveis, com que no estamos a
entrar em linha de conta, que contribuam para a associao linear verificada entre as
variveis cuja associao se est a estudar. Se formos, por exemplo, estudar para uma
determinada poca do ano, a associao entre o consumo dirio de gelados e o nmero
dirio de incndios, podemos obter uma forte associao positiva entre aquelas duas
variveis. Poderemos assim concluir que comer gelados provoca incndios? Obviamente
que no. O que acontece que com o aumento de calor verifica-se o aumento do
consumo de gelados, o mesmo acontecendo com o nmero de incndios.
150
Idade e altura das crianas (Graa Martins, 1999) - A tabela seguinte apresenta
os valores das idades em meses e das alturas de algumas crianas de uma escola:
Criana
Idade (meses)
Altura (cm)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
109
113
115
116
119
120
121
124
126
129
130
133
134
135
137
139
141
142
137,6
147,8
136,8
140,7
132,7
145,4
135,0
133,0
148,5
148,3
147,5
148,8
133,2
148,7
152,0
150,6
165,3
149,9
Altura
160
150
140
130
100
110
120
130
Idade
140
150
anlise de dados
170
Exemplo:
151
PROBABILIDADE
4.1
Introduo
anlise de dados
PROBABILIDADE
155
Quando lanamos um dado ao ar, tambm no sabemos de antemo, qual a face que
vai sair. Sabemos partida, antes de realizar a experincia de lanar o dado ao ar,
que pode sair qualquer uma das faces numeradas de 1 a 6, mas no temos
informao suficiente para dizer qual das faces que vai sair, na prxima realizao
da experincia. por essa razo que se diz que a sada da face com 5 pintas, por
exemplo, um acontecimento aleatrio.
As probabilidades assumem valores numa escala de 0% a 100%. Se um
acontecimento impossvel, atribui-se-lhe uma probabilidade de 0% (ou 0). Se temos
a certeza que um acontecimento se vai verificar, ento atribui-se-lhe a probabilidade
de 100% (ou 1).
PROBABILIDADE
anlise de dados
Exemplo:
156
-50%
0%
10%
50%
90%
100%
200%
4.2
E se o dado tiver 2 faces de cor cinza e 4 vermelhas? Quantas vezes se espera que
saia da cor cinza, nos 600 lanamentos? Como agora s temos duas faces de cor
cinza, esperamos que um tero das vezes saia a cor cinza, ou seja, aproximadamente
200 vezes. Ento agora a probabilidade de sair a cor cinza de 1 em 3, ou seja 1/3.
Nos exemplos anteriores, no raciocnio utilizado para calcular as probabilidades dos
acontecimentos desejados, colocmo-nos sempre numa situao especial situao
de simetria, em que todos os resultados possveis das experincias estavam em
igualdade de circunstncias e no tnhamos razo para privilegiar algum(s)
resultado(s) relativamente aos outros. Quando falmos em retirar uma rifa,
estvamos a dar igual possibilidade a cada uma das rifas, da caixa, de ser
seleccionada.
anlise de dados
Suponha agora que tem um dado de 6 faces que, em vez de terem pintas esto
pintadas: 3 faces esto pintadas de cor cinza e as outras 3 de vermelho. Suponha que
lana o dado 600 vezes. Quantas vezes se espera que saia a face cor cinza? E a face
vermelha? Se o dado estiver bem construdo, cada face tem igual possibilidade de
sair, pelo que como existem 3 faces de cor cinza, esperamos que elas saiam,
aproximadamente, metade das vezes, ou seja cerca de 300 vezes. Assim, existe igual
probabilidade de sair a face de cor cinza ou a face vermelha.
PROBABILIDADE
157
PROBABILIDADE
anlise de dados
158
Exemplo:
O jogo com berlindes Numa caixa esto 6 berlindes, 2 de cor cinza e 4 vermelhos.
Quando retira o berlinde anota a cor e repe outra vez na caixa.
Exemplo:
As duas caixas de berlindes Suponha que tem as seguintes caixas, cada uma
com 5 berlindes cinza e vermelhos. Quando se retira um berlinde, se ele for cinza
ganham-se 2 euros, se for vermelho ganha-se 1 euro:
Do-lhe a possibilidade de escolher uma das 2 caixas para fazer 100 extraces, com
reposio. Qual das caixas prefere?
PROBABILIDADE
anlise de dados
159
Tarefa
Vamos lanar dois dados
Na escola o professor props o seguinte jogo para ser jogado entre a Rita, o Joo e
o Miguel: lanam-se 2 dados de 6 faces e verifica-se a soma das pintas dos dados,
que pode ir de 2 a 12. Se a soma for 2, 3, 4 ou 5 o Joo ganha um ponto; se for 6,
7 ou 8 ganha a Rita um ponto; finalmente, se for 9, 10, 11 ou 12, ganha o Miguel. A
Rita ficou muito zangada com o professor, dizendo que este a estava a desfavorecer,
uma vez que aos outros colegas dava 4 possibilidades, enquanto que a ela s dava 3.
Ser que ela tinha razo?
Para ser mais fcil de descrever a actividade, vamos considerar dois dados em que
um preto e o outro branco. Vamos esquematizar todas as situaes possveis de
se verificarem, quando se lanam os dois dados:
Suponhamos que no dado preto saiu 1 pinta. Ento no dado branco pode ter sado
qualquer valor de 1 a 6:
Repetindo o processo, mas agora com 2, 3, ..., 6 pintas no dado preto, obtemos a
figura seguinte, onde temos esquematizado todos as situaes possveis, em nmero
de 36:
Vamos considerar uma tabela com os nmeros das pintas e a soma respectiva:
160
6+1=7
5+1=6
4+1=5
3+1=4
2+1=3
1+1=2
6+2=8
5+2=7
4+2=6
3+2=5
2+2=4
1+2=3
6+3=9
5+3=8
4+3=7
3+3=6
2+3=5
1+3=4
6+4=10
5+4=9
4+4=8
3+4=7
2+4=6
1+4=5
6+5=11
5+5=10
4+5=9
3+5=8
2+5=7
1+5=6
6+6=12
5+6=11
4+6=10
3+6=9
2+6=8
1+6=7
Analisando com cuidado a tabela anterior, verificamos que existem algumas somas
que surgem com mais frequncia do que outras. Por exemplo a soma 12 s aparece
quando sair 6 pintas nos dois dados
Quem ganha
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
5
4
3
2
1
Joo
Joo
Joo
Joo
Rita
Rita
Rita
Miguel
Miguel
Miguel
Miguel
Ento quando se lanam os dois dados, de acordo com as regras estipuladas para o
jogo:
anlise de dados
PROBABILIDADE
161
162
Tarefa proposta
Uma verso desta tarefa pode ser realizada na sala de aula da seguinte forma: o
professor coloca numa taa de plstico transparente alguns smarties (em nmero
superior ao nmero de alunos da turma). O professor lana 2 dados e conforme o
nmero que se verificar para a soma das pintas das faces que ficam voltadas para
cima, retira um smartie da taa e coloca no prato do Joo, da Rita ou do Miguel (na
figura, exemplificamos uma situao em que a soma igual a 3, pelo que o smartie
foi colocado no prato do Joo). Quando se esgotarem os smarties da taa, ganha
aquele que tiver maior nmero de smarties no seu prato. Quem que se espera que
ganhe?
163
Estes resultados no sossegaram o Tiago, pois ele comeou a pensar que s teria
40% de possibilidades de ser seleccionado, uma vez que em 10 vezes a moeda s lhe
foi favorvel 4 vezes!
164
0.8
Freq. rel.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
90
100
N. de lanamentos
anlise de dados
1
0.9
PROBABILIDADE
165
Na escola o professor props o seguinte jogo a ser jogado por dois alunos, o David e
o Antnio: lanam-se duas moedas e em cada lanamento, se sairem faces
diferentes, o David ganha um ponto; caso contrrio ganha o Antnio o ponto. Ganha
o jogo, aquele que, ao fim de 50 jogadas tiver ganho mais pontos. Quem que
ganhar o jogo?
Vamos agora simular o lanamento de 2 moedas equilibradas, generalizando o exemplo anterior, em que se lanou uma moeda.
166
PROBABILIDADE
anlise de dados
Neste jogo ganhou o Antnio, pois ao fim de 50 jogadas tinha alcanado 26 pontos,
enquanto que o David tinha 24 pontos. Resolveram jogar novamente o mesmo jogo,
tendo obtido os resultados seguintes:
167
PROBABILIDADE
anlise de dados
Desta vez ganhou o David! Resolveram fazer ainda um 3. jogo para a desforra e
obtiveram os seguintes resultados:
168
Agora empataram!
Uma verso deste exemplo pode ser realizado na sala de aula, em que o professor
desenha no quadro um trajecto que ser percorrido pelos alunos que esto a jogar,
da seguinte maneira: sempre que um dos alunos ganha, avana uma quadrcula.
Ganhar o que chegar mais rpido meta.
David
anlise de dados
Antnio
PROBABILIDADE
Afinal no se pode dizer partida quem que sair o vencedor, pois qualquer um dos
dois alunos tem igual chance de ganhar o jogo.
169
Tarefa proposta
Moedas no equilibradas
(Adaptado de Rossman, A. et al., 2001)
Moeda B: 1 em 3 ou 1/3
Moeda C: 1 em 2 ou 1/2
Moeda D: 3 em 4 ou 3/4
Moeda E: 4 em 5 ou 4/5
Com o objectivo de identificar qual das moedas seria a A, B, ..., F, lanou-se cada
moeda 5 vezes, tendo-se obtido os seguintes resultados:
N. do
lanamento
1. moeda
2. moeda
3. moeda
4. moeda
5. moeda
6. moeda
1
2
3
4
5
N
N
E
N
N
N
N
N
N
N
E
E
N
E
E
N
N
N
E
N
N
N
N
N
N
E
N
E
E
E
Freq. relativa
Qual a moeda?
170
10 lanamentos
1. moeda
2. moeda
3. moeda
4. moeda
5. moeda
6. moeda
Freq. relativa
Qual a moeda?
0,70
0,90
0,20
0,80
1,00
0,20
1. moeda
2. moeda
3. moeda
4. moeda
5. moeda
6. moeda
Freq. relativa
Qual a moeda?
0,56
0,88
0,28
0,88
1,00
0,20
50 lanamentos
1. moeda
2. moeda
3. moeda
4. moeda
5. moeda
6. moeda
Freq. relativa
Qual a moeda?
0,58
0,92
0,26
0,78
1,00
0,32
0.7
0.6
0.5
0.4
0.3
0.1
0.0
0
10
20
30
40
50
60
70
80
90
100
Comente o que que este grfico revela sobre a probabilidade, como um conceito
sobre o comportamento de um processo aleatrio a longo-termo e no a curto-termo.
anlise de dados
N. de lanamentos
PROBABILIDADE
0.2
171
173
Alguma bibliografia relacionada com o ensino da estatstica, no exclusivamente no 1. ciclo do Ensino Bsico
Abrantes, P.; Serrazina, L. e Oliveira, I. (1999). A Matemtica na Educao Bsica.
Lisboa: Ministrio da Educao.
Azarquiel (1993). Estatstica no 3. ciclo do Ensino Bsico. Lisboa: APM.
DEB (2001). Currculo Nacional do Ensino Bsico Competncias Essenciais.
Ministrio da Educao. Departamento da Educao Bsica.
Ministrio da Educao (1990). Programa do 1. ciclo do Ensino Bsico. Lisboa:
Ministrio da Educao.
NCTM (1991). Normas para o currculo e a avaliao em Matemtica escolar. Lisboa:
APM.
NCTM (1993). Normas para o currculo e a avaliao em Matemtica Escolar
- Coleco de adendas (do 1. ao 6. ano de escolaridade ). Lisboa: APM.
NCTM (2001). Normas para o currculo e a avaliao em Matemtica Escolar. Lidar
com dados e probabilidades (anos de escolaridade 5-8). Lisboa: APM.
NCTM (1994). Normas Profissionais para o Ensino da Matemtica. Lisboa: APM.
NCTM (1999). Normas para a Avaliao em Matemtica Escolar. Lisboa: APM.
NCTM (2000). Principles and Standards for School Mathematics. Reston: NCTM.
Palhares, P. (coord.). (2004). Elementos de Matemtica para professores do Ensino
Bsico. Lisboa: Lidel.
Ponte, J.P. e Serrazina, M.L. (2000). Didctica da Matemtica do 1. Ciclo. Lisboa:
Universidade Aberta.
Revista Educao e Matemtica, da APM: Associao de Professores de Matemtica.
174