Professional Documents
Culture Documents
21
Sumrio
Sumrio ................................................................................................................................ Lista de Tabelas ................................................................................................................. Lista de Figuras .................................................................................................................. I. O papel da Estatstica na pesquisa cientfica ................................................................... 1.1 Relao entre o projeto de pesquisa e a estatstica .......................................... 1.2 Formulao de hipteses ou questes de pesquisa .......................................... 1.3 Planejamento operacional da pesquisa ................................................................. 1.4 Mtodos de amostragem ......................................................................................... 1.5 Definio operacional das variveis ..................................................................... 1.6 Mtodos de coletas de dados .................................................................................. 1.7 Qualidade dos instrumentos de medida ................................................................ 1.8 Anlises dos dados ..................................................................................................... i iv iv 1 1 3 4 5 5 8 8 10
II. Dicas para trabalhar com o SPSS ......................................................................... 2.1 O que o SPSS .......................................................................................... 2.2 As janelas ou telas do SPSS ...................................................................... 2.2.1 A tela de dados.................................................................................. 2.2.2 A tela de sada .................................................................................. 2.2.3 A tela de sintaxe................................................................................ 2.2.4 A tela de grficos.............................................................................. 2.3 O menu principal do SPSS ........................................................................ 2.3.1 O comando FILE............................................................................... 2.3.2 O comando EDIT.............................................................................. 2.3.3 O comando DATA ........................................................................... 2.3.4 O comando TRANSFORM............................................................... 2.3.5 O comando STATISTICS ............................................................... 2.3.6 O comando GRAPHS ...................................................................... 2.3.7 O comando UTILITIES.................................................................... 2.3.8 O comando WINDOWS................................................................... 2.4 Criando um banco de dados no SPSS ........................................................
11 11 11 11 12 13 13 13 14 15 15 17 18 19 19 19 20
22
III. Anlise exploratria de dados ............................................................................. 3.1 Trabalhando com variveis qualitativas .................................................... 3.2 Trabalhando com variveis quantitativas .................................................. 3.2.1 Trabalhando com variveis discretas que tomam poucos valores ou com sries temporais ................................................................ 3.2.2 Trabalhando com variveis discretas com muitos valores ou com variveis contnuas ......................................................................... 3.3 Anlise univariada para variveis quantitativas ........................................ 3.3.1 Principais estatsticas: definio e operacionalizao ...................... 3.3.2 Medidas de tendncia central: mdia, mediana e moda ................... 3.3.3 Medidas de posio .......................................................................... 3.3.4 Medidas de disperso ....................................................................... 3.3.5 O Diagrama de Box-Plot .................................................................. 3.4 Anlise bivariada para variveis quantitativas ......................................... 3.5 Outros comando do SPSS para anlise exploratria de dados .................. IV. Introduo Probabilidades ............................................................................... 4.1 Por que precisamos aprender probabilidades?.......................................... 4.2 Introduo probabilidades ..................................................................... 4.2.1 Experimento e fenmeno aleatrio ................................................. 4.2.2 Definio frequentista de probabilidades ....................................... 4.2.3 Definio axiomtica de probabilidades ......................................... 4.2.4 Probabilidade condicional ............................................................... 4.2.5 Independncia de eventos ................................................................ 4.2.6 Amostragem sem reposio ............................................................. 4.2.7 Amostragem com reposio ............................................................ 4.3 Varivel aleatria ....................................................................................... 4.3.1 Varivel aleatria discreta ............................................................... 4.3.1.1 Distribuio de Bernoulli ..................................................... 4.3.1.2 Distribuio Binomial .......................................................... 4.3.2 Varivel aleatria contnua................................................................ 4.3.2.1 Distribuio Normal ............................................................. a) Estudando a normalidade das variveis ........................... b) Teste de normalidade ....................................................... 4.3.2.2 Distribuio Uniforme ......................................................... 4.4 Distribuies amostrais ............................................................................. 4.4.1 Distribuio da mdia amostral ........................................................ 4.4.2 O Teorema Central do Limite ........................................................... 4.4.3 Distribuio da frequncia e da proporo amostral......................... 4.4.4 Distribuio qui-quadrado ................................................................ 4.4.5 Distribuio t-student........................................................................ 4.4.6 Distribuio F....................................................................................
21 21 25 25 27 27 32 33 36 38 41 42 47 50 50 53 54 57 58 59 62 63 64 65 65 67 67 67 68 76 78 80 87 88 91 93 93 94 95
23
V. Inferncia Estatstica ............................................................................................ 5.1 Introduo................................................................................................... 5.2 Estimao de parmetros ........................................................................... 5.2.1 Estimao pontual .......................................................................... 5.2.2 Estimao por intervalo ou intervalar .............................................. 5.2.2.1 Intervalo de confiana para a mdia populacional .............. 5.2.2.2 Intervalo de confiana para a proporo populacional ........ 5.2.2.3 Intervalo de confiana para a varincia populacional ......... 5.3 Tamanho de amostra .................................................................................. 5.3.1 Tamanho de amostra para a mdia populacional ............................ 5.3.2 Tamanho de amostra para a proporo populacional ......................
VI. Teste de Hipteses .............................................................................................. 6.1 A estatstica como ferramenta auxiliar na tomada de decises ................. 6.2 Teste de hipteses para mdia populacional.............................................. 6.2.1 Teste de hipteses para mdia populacional: pequenas amostras ... 6.3 Teste de hipteses para proporo populacional ....................................... 6.4 Teste de hipteses para a diferena de duas mdias .................................. 6.4.1 Amostras emparelhadas ................................................................... 6.4.2 Amostras independentes .................................................................. 6.5 Testando a igualdade de mais de duas mdias ANOVA ........................... 6.5.1 Comparaes mltiplas ................................................................................. VII. Anlise de dados categricos ............................................................................ 7.1 Tabelas de contingncia ............................................................................ 7.2 Teste de independncia .............................................................................. 7.3 Teste de homogeneidade ........................................................................... 7.4 O coeficiente de contingncia ................................................................... 7.5 O teste exato de Fisher .............................................................................. VIII. Anlise de correlao e regresso ....................................................................
107 107 112 114 119 122 127 131 140 145 146 146 147 153 154 154 156
8.1 A covarincia e o coeficiente de correlao de Pearson ............................ 157 8.2 Anlise de regresso .................................................................................. 162
24
Lista de Tabelas Tabela 1. Procedimentos disponveis para apresentao de dados ............................ Tabela 2. Distribuio dos alunos por srie na Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998 ......................................................................... Tabela 3. Distribuio da repetncia por srie na Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998. ........................................................................ Tabela 4. Evoluo do nmero de alunos matriculados no Ensino Fundamental da cidade XYZ, no perodo de 1988 a 1998 ................................................... Tabela 5. Nmero de mulheres por classe social, segundo o nmero de filhos......... Tabela 6. Exemplos de alguns experimentos e fenmenos aleatrios ...................... Tabela 7. Clculo da mdia amostral se uma das crianas for a primeira ................ Tabela 8. Quadro de deciso em condio de incerteza ........................................... Tabela 9. Mudana no quadro decisrio ao mudar a hiptese ................................... Tabela 10. Os erros em funo da formulao de hipteses ....................................... Tabela 11. Quadro de deciso em condies de incerteza .......................................... Tabela 12. Quadro comparativo da formulao de hipteses do ponto de vista do consumidor e do produtor .......................................................................... Tabela 13. Quadro de deciso em condio de incerteza ............................................ Tabela 14. Quadro comparativo da formulao de hipteses ..................................... Tabela 15. Os modelos da Pesquisa Experimental: experimentao provocada......... Tabela 16. Os modelos da Pesquisa Experimental: experimentao invocada............ Tabela 17. Nmero de crianas segundo tipo de comercial escolhido e gnero.......... Tabela 18. Porcentagem de crianas por tipo de comercial escolhido e gnero........... Tabela 19. Porcentagem de crianas por gnero e tipo de comercial escolhido .......... Tabela 20. Nmero de alunos segundo seu desempenho em Matemtica e participao dos pais nas atividades extra-escolares .................................. Tabela 21. Clculo do coeficiente de correlao de Pearson ....................................... Lista de Figuras Esquema de um projeto de pesquisa .......................................................... A produo do conhecimento cientfico..................................................... Relaes entre o mundo terico e o mundo emprico ................................ Tipos de hipteses ...................................................................................... Mtodos de coleta de dados........................................................................ Distribuio dos alunos por srie na Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998. ........................................................................ Figura 7. Distribuio da repetncia por srie na Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998. ........................................................................ Figura 8. Evoluo do nmero de alunos matriculados no Ensino Fundamental da cidade XYZ, no perodo de 1988 a 1998 ................................................... Figura 9. Distribuio das notas na prova de Matemtica dos alunos da 5 srie ...... Figura 10. Distribuio das notas na prova de Matemtica dos alunos da 5 srie, por escola ......................................................................................................... Figura 11. Histograma das notas na prova de Matemtica dos alunos da 5 srie das trs escolas .................................................................................................
Apostila de Estatstica Prof Irene Mauricio Cazorla
22 21 24 26 26 55 89 108 109 110 114 115 119 119 125 126 148 148 149 153 157
1 2 2 3 8 24 25 26 30 31 38
III. Anlise exploratria de dados Lista de Figuras Figura 12. Relao entre o desempenho e atitude em relao a Matemtica dos alunos da 5 srie por escola ..................................................................... Figura 13. Relao entre salrio, anos de estudos, tempo de servio e nmero de filhos ......................................................................................................... Figura 14. Relao entre a nota dos alunos no SARESP e na prova discursiva ........ Figura 15. Distribuio da nota de um aluno em Matemtica ................................... Figura 16. Distribuio das notas na prova de Matemtica ....................................... Figura 17. Histograma de 5000 nmeros aleatrios gerados por uma distribuio normal de mdia 7 e desvio padro 1 ....................................................... Figura 18. Histograma e funo de densidade de probabilidade de 300 nmeros aleatrios gerados por uma distribuio N(50;100) .................................. Figura 19. Normal Probability Plot de uma distribuio normal .............................. Figura 20. Detrended Normal Plot de uma distribuio normal ................................ Figura 21. Histograma de 300 nmeros aleatrios gerados por uma distribuio uniforme de parmetros 20 e 80 ............................................................... Figura 22. Normal Probability Plot de uma distribuio uniforme ........................... Figura 23. Detrended Normal Plot de uma distribuio uniforme ............................ Figura 24. Anlise visual sobre a normalidade das trs escolas ................................ Figura 25. Histograma das atitudes em relao a Matemtica de todos os alunos de Paulnia ..................................................................................................... Figura 26. Box-plot das atitudes frente a Matemtica por srie e gnero .................. Figura 27. Esquema do processo de inferncia estatstica ......................................... Figura 28. Distribuio das notas da populao ......................................................... Figura 29. Distribuio das notas da amostra de tamanho 2 ...................................... Figura 30. Histogramas correspondentes distribuio normal de algumas populaes ................................................................................................ Figura 31. Esquema geral de um curso de estatstica ................................................ Figura 32. Regio de rejeio e de aceitao da hiptese nula e relao entre alfa e beta, no caso da postura conservadora ..................................................... Figura 33. Regio crtica na postura do produtor ...................................................... Figura 34. Relao entre o peso inicial e final das cobaias ........................................ Figura 35. Regio crtica ............................................................................................ Figura 36. Distribuio das notas no pr-teste ........................................................... Figura 37. Distribuio das diferenas de notas (ps-pre) ........................................ Figura 38. Relao entre o desempenho nos testes, por grupo................................... Figura 39. Porcentagem de crianas por tipo de comercial escolhido e gnero ........ Figura 40. Porcentagem de crianas por gnero e tipo de comercial escolhido ........ Figura 41. Relao entre X e Y .................................................................................. Figura 42. Relao entre as variveis estudadas ........................................................ Lista de Quadros Quadro 1. Quadro 2 Quadro 3. Quadro 3. Distribuio normal padro ...................................................................... Distribuio Qui-quadrado ....................................................................... Distribuio t-student ............................................................................... Distribuio F de Snedecor ......................................................................
Apostila de Estatstica Prof Irene Mauricio Cazorla
25
43 44 46 51 68 69 77 78 79 81 81 82 84 85 86 87 90 90 92 96 111 117 130 133 136 138 140 148 149 158 162
73 74 74 75
26
O projeto de pesquisa1 Conceitualizao do objeto de pesquisa 1. Definio do objeto de pesquisa 2. Situao dos conhecimentos 3. Modelo terico e hipteses ou questes da pesquisa
Escolha de uma estratgia de pesquisa 4.a) Modelo de pesquisa escolhido 4.b) Validade do modelo
Por estratgia de pesquisa entende-se a integrao e articulao do conjunto das decises a serem tomadas, para apreender de maneira coerente a realidade emprica, a fim de testar de maneira rigorosa as hipteses ou questes de pesquisa
Planificao operacional da pesquisa 5) populao estudada 6) definio das variveis e coleta de dados 7) Anlise de dados 8) Cronograma e oramento 9) Pertinncia da pesquisa 10) Respeito s regras ticas
A estatstica ajuda na definio da populao a ser estudada, na definio das variveis, na coleta de dados e na anlise.
Extrado de Contandriopoulos e outros, pag. 16 Apostila de Estatstica Prof Irene Mauricio Cazorla
III. Anlise exploratria de dados A roda do conhecimento cientfico2 Teorias O papel da estatstica Parmetros populacionais Inferncia Estatstica
27
Generalizaes
Hipteses
Observaes
X1
Proposio terica
X2
Operacionalizao
X2
Hiptese
Figura 3: Relaes entre o mundo terico e o mundo emprico3 Modelo terico. Uma teoria uma explicao sistemtica dos fenmenos observados e das leis relativas a eles. Uma teoria se expressa pelos enunciados das relaes que existem entre os conceitos. O modelo terico escolhido deve ento propor uma soluo original para a situao problemtica que constitui o objeto do estudo projetado, caso j exista possvel que seja preciso adapt-lo e modific-lo. Quando no existe um modelo terico o pesquisador deve propor um que integre a situao dos conhecimentos e as suas prprias observaes. A qualidade de um modelo terico reside na sua capacidade de dar conta dos fenmenos observados no mundo emprico.
2 3
III. Anlise exploratria de dados 1.2 Formulao das hipteses ou questes de pesquisa
28
Hipteses. Uma hiptese um enunciado formal das relaes esperadas entre pelo menos uma varivel independente e uma varivel dependente. Nas pesquisas exploratrias, as hipteses podem se tornar questes de pesquisa. Estas questes pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretvel. As hipteses devem ser formuladas na forma de uma relao a ser verificada entre, pelo menos, duas variveis e no em termo de uma hiptese nula, impossvel de verificar, como no caso seguinte: Os programas de diagnstico de cncer do pulmo por radiografia no diminuem a mortalidade por cncer de seio As hipteses de uma pesquisa devem enunciar-se por propostas claras e especficas quanto possvel, como, por exemplo: Os programas de diagnstico de cncer do seio por mamografia diminuem em um tero o risco de mortalidade por este cncer A inteno de utilizar preservativo associada positivamente presena de normas sociais aprovando a adoo desse comportamento. Em um mesmo estudo pode haver mais de uma hiptese e estas podem se relacionar de diferentes formas, conforme Figura 4. 1.3 Planejamento operacional da pesquisa O planejamento operacional da pesquisa consiste em prever as aes que devero ser efetuadas para aplicar a estratgia da pesquisa escolhida. Estas aes dizem respeito seleo da populao a ser estudada, definio das variveis e coleta de dados, assim como anlise dos dados recolhidos. Populao. Toda questo de pesquisa define um universo de objetos aos quais os resultados do estudo devero ser aplicados. A populao alvo, tambm chamada populao estudada, composta de elementos distintos possuindo um certo nmero de caractersticas comuns (pelo menos). Estes elementos, chamados de unidades populacionais, so as unidades de anlise sobre as quais sero recolhidas informaes. Uma populao ou universo, no sentido geral, um conjunto de elementos com pelo menos uma caracterstica comum. Essa caracterstica comum deve delimitar inequivocamente quais os elementos que pertencem populao e quais os que no pertencem (Costa neto, 1977)
29
Figura 4: Tipos de hipteses4 As unidades populacionais podem estar constitudas por pessoas, famlias, turmas de alunos, empresas, escolas, ou ainda fazer parte de um objeto mais complexo, como por exemplo, rgos ou partes do corpo, ou, ainda, podem ser objetos, como, por exemplo, peas defeituosas, plantas, animais, entre outros. Duas sries de critrios servem para definir os elementos que constituem a populao alvo: os critrios de incluso e, de excluso. A conjuno desses critrios deveria ser tal modo que todo elemento pudesse ser classificado, sem equvoco, como fazendo ou no parte da populao alvo. Teoricamente, a populao alvo deveria ser definida com uma preciso tal que fosse possvel estabelecer a lista de todos os elementos que a constituem, o que em alguns casos, impossvel. Amostra. Uma amostra um subconjunto de indivduos da populao alvo. Para que as generalizaes sejam vlidas, as caractersticas da amostra devem ser as mesmas da populao.
4
Extrado de Contandriopoulos e outros, pag. 33 Apostila de Estatstica Prof Irene Mauricio Cazorla
30
Existem dois tipos de amostras, as probabilsticas, baseadas nas leis de probabilidades, e as amostras no probabilsticas, que tentam reproduzir o mais fielmente possvel a populao alvo. Entretanto, somente as amostras probabilsticas podem, por definio, originar uma generalizao estatstica, apoiada no clculo de probabilidades e permitir a utilizao da potente ferramenta que a inferncia estatstica. Existem vrias tcnicas de amostragem, cada uma tem vantagens e desvantagens, e a escolha dever ser feita pelo pesquisador de acordo aos objetivos propostos pela pesquisa. 1.4 Tcnicas de amostragem Amostragem probabilstica: a) Amostragem aleatria simples b) Amostragem sistemtica c) Amostragem por conglomerados d) Amostragem estratificada Amostragem no probabilstica a) Amostragem acidental b) Amostragem de voluntrios c) Amostragem por escolhas racionais i) Julgamento do especialista ii) Julgamento por escolha deliberada d) Amostragem por quotas 1.5 Definio operacional das variveis Toda questo de pesquisa define um nmero de construes tericas que o pesquisador quer associar. O grau de operacionalizao destas construes no faz parte de um consenso. Porm, a seo que trata das definies das variveis deve permitir ao leitor avaliar a adequao entre os instrumentos utilizados, as variveis escolhidas e as construes tericas descritas no quadro conceitual. Varivel uma caracterstica da populao Classificao funcional das variveis Tipos de pesquisa Pesquisa experimental Tipos de variveis Variveis independentes Variveis dependentes As outras variveis (variveis de controle, fator de confuso, entre outras) No pertinente a classificao, pois as variveis se relacionam em rede No necessrio distinguir as variveis, pois o objetivo estabelecer e validar uma interveno ou um instrumento de medida de uma construo
31
Variveis dependentes. So aquelas cujos efeitos so esperados de acordo com as causas. Elas se situam, habitualmente, no fim do processo causal e so sempre definidas na hiptese ou na questo de pesquisa. Variveis independentes. So aquelas cujos efeitos queremos medir. Podem ser assinaladas s causas do fenmeno que se quer estudar. Quando um estudo tem mais de uma hiptese, podem ser definidas diversas variveis dependentes. Elas podem ser independentes umas das outras ou constituir uma ordem hierrquica, na qual certas variveis dependentes podem ter um efeito sobre outras variveis dependentes. Por exemplo: Hiptese 1: O consumo de lcool diminui o estado de alerta do crebro Hiptese 2: O risco de acidentes de trnsito aumenta quando o estado de alerta do crebro diminui consumo de lcool varivel independente Notao estatstica: X Y Z estado de alerta do crebro varivel dependente intermediria risco de acidentes de trnsito varivel dependente principal
A varivel dependente intermediria ou mediatriz representa o mecanismo que precisa a relao entre a varivel dependente principal e a varivel independente. Classificao das variveis pela sua natureza Nominal (no existe ordenao entre as categorias) Qualitativas Ordinal (existe uma ordem natural nas categorias) Discretas (resultado de contagens) Quantitativas Contnuas (resultados de mensuraes) Exemplos: nominal: sexo, raa, consumo de lcool (sim, no), gostar de matemtica, ... ordinal: classe social, grau de instruo, consumo de lcool (pouco, mdio, muito), ... discreta: nmero de filhos, nmero de reprovaes em matemtica, nmero de copos de lcool consumidos,... contnua: estatura, nota na prova de matemtica, quantidade de lcool consumido, ...
Apostila de Estatstica Prof Irene Mauricio Cazorla
32
Observa-se que uma varivel quantitativa pode-se transformar em uma varivel qualitativa e isso depende da descrio da varivel Descrio das variveis A varivel constitui um primeiro nvel de operacionalizao de uma construo terica e, para cada uma, se deve dar, em seguida, uma descrio operacional. Para algumas variveis a descrio simples, porm, em outros casos, essa definio mais complexa. Idade Nominal Ordinal Discretas Contnuas Criana, jovem, velho Nmero de anos completos Idade em anos, meses, dias,... Consumo de lcool Sim, No Pouco, mdio, muito Nmero de copos de lcool ingeridos Quantidade de lcool presente no sangue Classe social Baixa, mdia, alta Nmero de salrios mnimos completos Renda familiar em reais
No exemplo do consumo de lcool e o risco de acidente, pode-se definir a varivel consumo de lcool das seguintes formas: a) nmero de copos consumidos nas quatro horas que precedem o momento de dirigir, segundo a declarao do motorista; b) concentrao de lcool no sangue segundo o bafmetro; c) observao do motorista enquanto passa pelo teste de dirigir em marcha a r em linha reta; d) anlise em laboratrio de uma amostra sangunea Outro exemplo medir atitude em relao a matemtica, pode-se perguntar: Voc gosta de matemtica? a) ( )No ( )Sim b) ( )Detesta ( )Gosta pouco ( )Mais ou menos ( )Gosta muito ( )Gosta muitssimo c) De uma escala de 0 a 10 atribua uma nota para o quanto voc gosta de matemtica: ______ d) Na escala a seguir, marque com um X o quanto voc gosta de matemtica: 0 1 2 3 4 5 6 7 8 9 10
Diante das dificuldades de operacionalizar as variveis, recomenda-se descrever detalhadamente as condies operacionais de medida, assim como os instrumentos utilizados.
Apostila de Estatstica Prof Irene Mauricio Cazorla
33
Existem trs grandes fontes de dados: a utilizao de documentos, a observao pelo pesquisador e a informao fornecida pelos indivduos.
Oficiais Escritos Utilizao de documentos Mudos Experimental Sistemtica Ligada entrevista Observao Livre Participante De explorao Livre Informaes fornecidas pelos indivduos Dirigida Figura 5: Mtodos de coleta de dados
5
Pessoais
Semi-experimental Natural
1.7 Qualidade dos instrumentos de medida A qualidade de um instrumento de medida se aprecia pela sua fidelidade (ou confiabilidade) e pela sua validade. A confiabilidade a capacidade de um instrumento medir fielmente um fenmeno. A validade capacidade de um instrumento medir com preciso o fenmeno a ser estudado Confiabilidade Validade
5
34
Recomenda-se pr-testar os instrumentos a fim de avaliar sua confiabilidade e validade antes de trabalhar com a populao alvo. Confiabilidade de um instrumento de medida A confiabilidade de um instrumento de pesquisa sua capacidade de reproduzir um resultado de forma consistente no tempo e no espao, ou com observaes diferentes quando for utilizado corretamente. por definio, a apreciao da confiabilidade se baseia na repetio da medida e na comparao dos resultados obtidos Existem trs abordagens para avaliar a confiabilidade de um instrumento: a) a comparao com resultados obtidos pela utilizao de um mesmo instrumento, em diferentes momentos, para avaliar sua estabilidade; b) a apreciao da equivalncia dos resultados obtidos, quando um mesmo fenmeno medido por vrios observadores ao mesmo tempo; c) quando um instrumento composto por vrios itens ou indicadores, sua confiabilidade pode ser apreciada medindo a homogeneidade de seus componentes A escolha do mtodo estatstico para medir confiabilidade de um instrumento depende do mtodo de validao previsto e do tipo de dados por ele fornecidos. A confiabilidade se avalia de forma diferente: se a medida obtida for uma varivel contnua (como a inteligncia ou o peso do indivduo), uma varivel ordinal (a pertena a um nvel, como os da escala scio-econmica), ou ainda, uma varivel nominal (como um diagnstico). A confiabilidade de um instrumento de medida uma caracterstica independente da questo de pesquisa. Ela pode, no entanto, variar em funo das populaes Os seguintes testes sero abordados para avaliar a confiabilidade dos instrumentos de medida: coeficiente de correlao de Pearson; coeficiente alfa de Cronbach coeficiente de correlao intra-classe coeficiente Kappa de Cohen
Validade da medida. A validade se define como a capacidade de um instrumento medir com preciso o fenmeno em estudo, isto , a adequao existente entre as variveis escolhidas e o conceito terico a ser medido. Existem trs tipos de validade: Validade de contedo Validade prtica ou de critrio Validade de construo
Apostila de Estatstica Prof Irene Mauricio Cazorla
III. Anlise exploratria de dados 1.8 Anlise dos dados Anlises qualitativas
35
No existe regra formal, no sentido estatstico, para a anlise qualitativa dos dados. Porm, quando os dados se apresentam em forma de discurso, a anlise pode compreender quatro etapas: a) b) c) d) a preparao e a descrio do material bruto; a reduo dos dados; a escolha e a aplicao dos modos de anlise; a anlise transversal das situaes ou dos casos estudados.
Anlises quantitativas O planejamento das anlises deve ser feita em funo de cada uma das questes ou hipteses da pesquisa. Devem ser considerados dois nveis de anlises: as descritivas e as ligadas s hipteses. Anlises descritivas As anlise descritivas servem para descrever o comportamento de uma varivel em uma populao ou no interior de subpopulaes. Todos os estudos utilizando dados quantitativos, independentemente das hipteses da pesquisa, requerem anlises descritivas. Anlises ligadas s hipteses Cada uma das hipteses formuladas no quadro conceitual deve ser verificada. Quando os dados coletados so de natureza quantitativa, esta verificao se faz com a ajuda de ferramentas estatsticas. A natureza da hiptese constitui o primeiro determinante da escolha da ferramenta estatstica a ser utilizada, devendo ser levados em conta os seguintes pontos: as caractersticas da estratgia da pesquisa; o modelo; as variveis medidas.
Esta a seo da anlise estatstica do projeto de pesquisa que ser desenvolvida ao longo da disciplina.
36
37
Suponha que voc tem o seguinte banco de dados: nome do aluno, sexo, idade, srie, turma variveis nome 1 2 3 4 ... Luiz Carla Paula sexo
Masculino Feminino
idade 9 8 8 7
serie 3 2 3 2
turma A B C D
Leonardo Masculino
Feminino
Lembre-se que o SPSS um pacote em ingls, logo os nomes das variveis no aceitam acentos, , fem, etc., use no mximo oito letras. Os rtulos ou LABELS aceitam qualquer smbolo, logo podemos usar os smbolos prprios do portugus. Como veremos mais tarde no necessrio escrever por extenso os rtulos das variveis, podemos usar cdigos e depois dar nome aos cdigos, que podem ser guardados em uma biblioteca (templates), para uso em outras variveis ou em trabalhos futuros. Recomenda-se codificar todas as variveis, mesmo sendo estas de carter qualitativas, ou seja entrar como se fosse uma varivel numrica, isto facilitar muito o trabalho futuro, como por exemplo quando estamos usando a tcnica da anlise de varincia. Ao gravar um banco de dados do SPSS este automaticamente o far com extenso .SAV, por essa razo basta dar o nome, tambm gravar o arquivo no diretrio SPSSWIN que contm apenas arquivos de dados gerados pelo SPSS, a menos que voc tenha selecionado um outro diretrio. 2.2.2 A tela de sada A tela de sada - OUTPUT - guarda todas as tabelas, estatsticas, testes, resultantes da aplicao dos comandos nos dados. s vezes estamos rodando vrias vezes o mesmo comando, ou porque erramos, ou porque inserimos novas opes, cada rodada gera uma sada, logo, a tela de sada acumula, via de regra, muito lixo, que deve ser limpado para no gravar resultados desnecessrios. Por isso no esquea de limpar a tela. Para limpar a tela de sada, ir no EDIT, clicar SELECT ALL e acionar a tecla DELETE. Caso voc queira guardar a sada num documento WORD, selecione toda a sada, indo no EDIT e clicando SELECT ALL, copiar com o comando CONTROL C, ou clicando o comando COPY do comando EDIT e colar no WORD, com o comando COLAR ou CONTROL V. no esquea de arrumar a sada, pois via de regra o WORD utiliza o formato padro e fica desarrumado. Para arrumar selecione todo o documento e use o tipo de letra COURIER NEW e diminuir o tamanho da letra.
38
Outra forma de inserir a sada do SPSS no seu texto do WORD faz-lo de forma direta com o comando copiar/colar. Neste caso, apenas cuide do formato das tabelas, utilize a letra COURIER NEW . 2.2.3 A tela de sintaxe Geralmente, em pequenas anlises no ser necessrio usar este recurso, que muito til para rodar um mesmo programa com vrios bancos de dados. 2.2.4 A tela de grficos O SPSS cria uma tela para cada grfico e os guarda no CHART CARROUSSEL, caso voc queira gravar um grfico voc dever edit-lo e depois salv-lo com um nome, automaticamente o SPSS colocar a extenso .CHT. Caso voc queira colar esse grfico no seu relatrio, no WORD, por exemplo, voc dever executar os seguintes passos: 1. Com o grfico editado no SPSS, ir no menu EDITAR e clicar em COPY CHART; 2. Abrir seu relatrio no WORD, colocar o cursor onde voc deseja inserir o grfico e clicar COLAR ESPECIAL, o WORD abrir um menu indicando a natureza do grfico, ai s dar enter. Outra forma copiar e colar direto (Control C no grfico no SPSS e Control V no WORD). No WORD para evitar que seu grfico mude de local a cada alterao recomendvel inseri-lo em uma caixa de texto. Um outro cuidado a ser observado com os grficos gerados pelo SPSS que edit-los a partir do WORD aumenta significativamente a quantidade de memria utilizada pelo documento, por esta razo melhor delet-lo e fazer as correes no prprio SPSS e colar de novo. 2.3 O menu principal do SPSS O SPSS um programa estatstico amigvel, praticamente auto-explicativo, conta com a ajuda - HELP. Os principais comandos so:
File Manipula arquivos de dados, de sada, de sintaxe e de grficos. Abre arquivos novos e j existentes, fecha, salva e salva com outro nome; Imprime e outros subcomandos mais especficos do SPSS. Edita os arquivos, copia, cola, deleta, seleciona, busca, substitui, entre outros. Manipula os dados, seleciona, sorteia, insere variveis, renomeia, entre outros Transforma os dados e variveis, atravs de clculos, recodifica, entre outros Disponibiliza as tcnicas estatsticas mais usuais na pesquisa cientfica Alguns comandos teis Mostras as janelas, em cada janela h um arquivo, geralmente dados, sada e grficos Tela de ajuda
39
Funo
Abre um arquivo novo
Nome
Significado
Read ASCII data Close Save Save As Display data Info Apply Data Dictionary Apply Chart Template Print Print Setup Stop processor Exit
Data Arquivo de dados SPSS Syntax Arquivo de sintaxe SPSS Output Arquivo de sada Abre um arquivo j existente Data Arquivo de dados Oracle SQL server SPSS Syntax Arquivo de sintaxe SPSS Output Arquivo de sada L um arquivo gravado em ASCII, por exemplo com o EDIT do DOS Fecha o arquivo Salva o arquivo Salva o arquivo com outro nome Mostra os dados (*) Mostra a natureza das variveis Imprime Pra o programa Sair
Para abrir um banco de dados j existente, seguir os passos: File Open Data o SPSS abre um menu onde mostra o diretrio SPSSWIN e mostrar os arquivos com extenso .SAV. Clicar duas vezes o arquivo desejado Para salvar um banco de dados, seguir os passos: File Save as o SPSS abre um menu onde mostra o diretrio SPSSWIN e mostrar os arquivos com extenso .SAV deixando um espao, para colocar o nome desejado. Quando voc est digitando seus dados recomendvel gravar a cada certo tempo, neste caso: File Save data Este procedimento pode ser usado tanto para abrir como salvar dados, sadas, grficos e programas. Para isto voc deve estar na tela que deseja gravar. Na tela de sada: File Save as
o SPSS abre um menu onde mostra o diretrio SPSSWIN e mostrar os arquivos com extenso .LST deixando um espao, para colocar o nome desejado.
Apostila de Estatstica Prof Irene Mauricio Cazorla
III. Anlise exploratria de dados Na tela de grficos, editar o grfico: File Save as
40
o SPSS abre um menu onde mostra o diretrio SPSSWIN e mostrar os arquivos com extenso .CHT deixando um espao, para colocar o nome desejado.
O mesmo procedimento para leitura de sadas e/ou grficos j existentes: File File Open Open OUTPUT CHART
2.3.2 O Comando EDIT Como j foi dito, o comando EDIT gerencia os comandos de edio dos arquivos, copia, cola, procura, limpa, etc. Edit
Undo Cut Cut Copy Copy Table Copy Chart Paste Clear Select all Search For Data Search For Text Replace Text Round Preferences Voc pode manipular o formato de sada. Por exemplo, a ordem default das variveis alfabtica, voc pode modificar para que o SPSS processe na ordem de entrada dos dados. Aqui, voc pode modificar o comprimento dos valores das variveis, bem como o nmero de casas decimais. No OUTPUT voc pode modificar o nmero de linha e colunas das pginas da sada. Alt+F5 F5 Shift+F5 Shift+Ins Del Shift+Del Ctrl+Ins
Teclado
Significado
Desfaz o ltimo corte Corta a parte selecionada do arquivo Copia a parte selecionada do arquivo Copia uma tabela selecionada Copia um grfico (Use para levar o grfico para o WORD) Cola a parte selecionada do arquivo Deleta a parte selecionada do arquivo Seleciona o arquivo inteiro Procura por um dado especfico, da varivel onde est o cursor Procura por um texto especfico Substitui um texto selecionado
2.3.3 O Comando DATA Manipula os dados, tanto as variveis quanto os registros. Para selecionar uma varivel clicar uma vez no nome dela, a coluna ficar em preto.
Apostila de Estatstica Prof Irene Mauricio Cazorla
41
Clicar duas vezes no nome da varivel Name: colocar o nome da varivel Type: diz o tipo de varivel (Numrica, StringAlfanumrica, Data, etc.), quantas casas ela tem e quantos nmeros decimais Label: so os rtulos para as variveis qualitativas. recomendvel definir uma varivel qualitativa como numrica e depois atribuir os rtulos ou labels. Por exemplo a varivel sexo, digitar 1 para sexo feminino e 2 para sexo masculino e nos labels colocar a equivalncia.
Missing values: define como deve ser os valores da varivel que no tem informao
Templates Column format: formata a coluna de dados Para acionar, selecionar as variveis desejadas e clicar em templates. Clicar em define, que abre uma tela inferior. Digitar o nome desejado em name e em value labels colocar para cada valor digitado e o nome desejado. Clicar em ADD para adicionar BIBLIOTECA. Clicar em apply, value labels e dar OK. Selecionar a varivel depois de onde voc queira que o SPSS insira a nova varivel, depois e s clicar este comando. Insere um novo registro Selecionar o registro varivel depois de onde voc (sujeito) queira que o SPSS insira o novo registro, depois e s clicar este comando. Vai para o registro desejado Digitar o nmero do registro desejado Ordena o arquivo segundo os Ao clicar neste comando ele abre uma tela onde valores de uma varivel voc seleciona a varivel desejada e a ordem, Aascendente, D descendente Cria um novo arquivo onde as Selecione as variveis a ser transpostas em linhas viram colunas e as variable(s) a varivel chave em variable name. colunas linhas Est ltima vai virar nome das variveis recm criadas. Junta dois ou mais arquivos. ADD CASES: Os arquivos devem estar Adiciona novos registros ou junta dois arquivos, ordenados (Usar SORT) um debaixo do outro. Cuidado pois as variveis tem que ter os mesmos nomes. O SPSS guarda os dados em um novo arquivo, ou seja no compromete os dados originais ADD VARIABLES: Adiciona novas variveis que esto em outro arquivo. Neste caso o cuidado ter uma varivel indexadora, tipo RA, nmero de matrcula, nmero do questionrio, etc. Continua... uma biblioteca de rtulos que podem ser atribudo as variveis. Recomendasse usar quando vrias variveis possuem os mesmos labels, como por exemplo o caso das variveis da escala de atitudes Insere uma nova varivel
Merge Files
42
Split file
Selected cases
Weight cases
Cria um novo arquivo com Selecionar a varivel(s) de agregao e colocar em valores de variveis agregadas, break variable, que pode ser mais de uma. pode ser a soma, mdia, etc. Selecionar a varivel(s) que devero ser agregadas e colocar em aggregate variable, que pode ser mais de uma. O defaul calcular a mdia, mas se voc quiser usar outras funes entrar em funtion e trocar. Se voc quiser trocar o nome do novo arquivo que o SPSS criar entrar em file. Divide (virtualmente) um Clicar em repeat analysis for each group arquivo segundo uma varivel Selecionar a varivel desejada e colocar em group qualitativa based on. Este recurso til quando temos de fazer relatrios iguais por grupos. Seleciona os casos que Clicar em if condition is satisfied. Clicar em if. cumprem uma certa condio Selecionar a varivel e especificar a condio. O SPSS cria um filtro e no considerar os casos que no satisfazem a condio. Este recurso bom para encontrar erros no Banco de dados. Depois de processar voltar a este comando e clicar em all cases, para rodar o arquivo completo. Pondera os valores da varivel muito til quando temos valores que devem tomar pesos ou ponderaes diferentes
2.3.4 O Comando TRASFORM Transforma as variveis, criando novas a partir de outras, recodifica variveis, etc.
Transform Compute Funo Calcula uma nova varivel a partir de outras j existentes, podendo usar todas as funes matemticas e estatsticas Como acionar e os subcomandos
Into the same variable: altera os valores da varivel e guarda as alteraes na mesma varivel. Selecionar a varivel e entrar em Old and new values, e a cada valor antigo colocar o valor novo e adicionar clicando add, no fim dar continue. Into the diferent variable: cria uma nova varivel em funo de uma j existente, seguir o mesmo esquema do item anterior Rank cases Atribui postos na varivel segundo uma outra Automatic recode Cria uma nova varivel com o mesmo contedo da varivel desejada Run Pending transforms Roda as transformaes pendentes
Colocar o nome da nova varivel em target variable. Em numerical expression colocar as variveis existentes e as operaes entre elas. Por exemplo soma=a1+a2+a3+a4. Ainda voc pode selecionar os casos que voc deseje trabalhar clicando em if a semente para gerar um nmero aleatrio Recodifica variveis
III. Anlise exploratria de dados 2.3.5 O Comando STATISTICS Oferece vrios procedimentos estatsticos
Statistics Summarize Subcomandos Frequencies Descriptives Explore Crosstabs List cases Report Summaries in Rows Means Independentsampled T-test Paired-sampled T-test ANOVA models One-Way ANOVA Simple factorial General factorial Multivariate Bivariate Partial Distances Regression Linear Logistic Probit Nonlinear Loglinear General Hierarchical Logit Classify K-means cluster Hierarchical clusters Discriminant Data Reduction Factor Scale Reliabity analysis Multidimensional Scaling Non Parametric Test Chi-square Binomial Runs 1-Sample K-S 2-Independent Samples k-Independent Samples 2-Related Samples K-Related Samples Survival Anlise de sobrevivncia Multiple response Anlise de respostas mltiplas Funo
43
Compare means
Correlate
Calcula a tabela de distribuio de frequncias. Calcula as principais estatsticas descritivas. Faz uma anlise completa das variveis, podendo ainda repetir essas analises por outra varivel. Calcula a tabela de distribuio de frequncias cruzadas, calcula o teste chi-quadrado para associao de variveis e outros testes. Lista casos escolhendo as variveis desejadas Organiza relatrios em linhas, segundo uma varivel Calcula a mdia, o desvio padro, soma, etc. das variveis desejadas. Calcula o teste de diferena de duas mdias de populaes independentes Calcula o teste de diferena de duas mdias de populaes emparelhadas. Testa a diferena de mdias de mais de duas amostras Testa a diferena de mdias do modelo fatorial Testa a diferena de mdias do modelo geral Calcula o teste de anlise de varincia multivariada Calcula a matriz de correlao, tomando as variveis de duas em duas Calcula o coeficiente de correlao parcial Calcula a distncia euclidiana entre os casos (sujeitos) Ajusta o modelo de regresso linear Ajusta o modelo de regresso logstica Ajusta o modelo Probit Ajusta um modelo no linear
Anlise de clusters Anlise de clusters hierrquicos Anlise discriminante Anlise factorial Anlise de confiabilidade Testes no paramtricos ou de distribuio livre
III. Anlise exploratria de dados 2.3.6 O Comando GRAPHS Oferece vrios tipos de grficos
Graphs Bar Line Area Pie Boxplot Scatter Histogram Funo Grfico de barra De linha De rea Circular Da caixa De disperso Histograma Tipo de variveis
44
Qualitativas, discretas de poucos valores Sries de tempo Srie de tempo Qualitativas Quantitativas Relao entre duas variveis quantitativas, podendo colorir segundo outra varivel Quantitativa (de preferncia contnua). Tem a opo de desenhar a curva normal superposta ao histograma
2.3.7 O Comando UTILITIES Oferece vrios procedimentos teis no gerenciamento das informaes
Utilities Command Index Fonts Variable File Info Output Page Titles Define sets Use sets Grid lines Value labels Auto New case Designate window Coloca (ou tira) as linhas de grade da tela de dados Mostra os rtulos das variveis Fonte da letra usada na tela de dados e de sada Mostra a definio utilizada para a varivel Mostra a definio utilizada para todas as variveis do arquivo ativo Coloca ttulo em todas as pginas Funo
2.3.8 O Comando WINDOWS Manipula a apresentao das janelas e serve para mudar de janela.
Windows Tile Cascade Icon Bar Status Bar Mostra as janelas ativas Funo Coloca todas as janelas ativas uma ao lado da outra Coloca as janelas em cascata, para mudar de tela s clicar na tela desejada
45
O SPSS oferece a opo de criar o banco de dados no prprio SPSS, bem como importar um banco de dados do EXCEL ou de qualquer outro banco de dados de extenso dbf. Para criar um banco de dados no prprio SPSS, basta definir cada uma das variveis e para isso clicar duas vezes no cabealho da varivel, o SPSS abre uma tela de definio, onde voc indica o tipo de varivel (numrica, string-alfanumrica-, data, etc.), os labels (rtulos), formatos, nome da varivel. Aqui recomenda-se o uso de cdigos numricos para as variveis qualitativas. Por exemplo: 1=Masculino, 2=Feminino. Os rtulos podem ser guardados em uma biblioteca que voc pode acessar em qualquer momento, isso economiza tempo e trabalho. Uma vez criadas as variveis, voc est pronto para digitar seus dados. Retomando o exemplo da pgina 12:
1 2 3 4 ...
nome sexo Masculino Luiz Feminino Carla Leonardo Masculino Feminino Paula
idade 9 8 8 7
serie 3 2 3 2
turma A B C D
...
1 2 3 4 ...
sexo
1 2 1 2
idade 9 8 8 7
serie 3 2 3 2
turma 1 2 3 4
...
Tabela de cdigos: Embora o SPSS tenha a numerao Sexo: das linhas, recomenda-se codificar 1=Masculino todos os sujeitos isso facilita a 2=Feminino identificao dos questionrios, principalmente na hora da crtica e consistncia da digitao e das respostas Srie: 1=1 srie 2=2 srie ... Turma: 1=A 2=B ....
46
srie
Tomado como referncia o Banco de Dados de Paulnia, a distribuio da amostra por srie :
Tabela 2. Distribuio dos alunos por srie da Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998.
Srie Nmero de alunos 5 srie do E.F. 103 6 srie do E.F. 139 7 srie do E.F. 167 8 srie do E.F. 187 1 ano E.M. 245 2 ano E.M. 400 3 ano E.M. 164 Total 1405 Fonte: Pesquisa realizada em junho de 1998 Porcentagem 7,3 9,9 11,9 13,8 17,4 28,5 11,7 100,0
Observa-se que a sada do SPSS inclui a porcentagem vlida, ou seja, retirando a influncia dos valores perdidos (missing), que no faz sentido quando isto no acontece.
Apostila de Estatstica Prof Irene Mauricio Cazorla
III. Anlise exploratria de dados Tabela 1. Procedimentos disponveis para a apresentao de dados
Tipo da varivel Valores da varivel Tipo de tabela Tabela de distribuio de frequncias Tipo de estatstica Frequncias absolutas e relativas Tipo de grfico Barras simples Circular
22
Qualitativa
Recomenda-se definir a varivel como numrica e depois colocar os rtulos 1=Feminino; 2=Masculino Sexo 5=5 srie do 1 Grau; 6=6 srie do 1 Srie Grau; 7=7 srie do 1 Grau; 8=8 srie do 1 Grau; 9=1 ano do 2 Grau; 10=2 Grau de instruo do pai ano do 2 Grau e 11=3 ano do 2 Grau. 1=Analfabeto; 2=1 Grau; 3=2 Grau; Tipo de escola 4=Superior Turno 1=Pblica; 2=Particular Repetncia em 1=Matutino; 2=Vespertino e 3=Noturno matemtica 1=Sim; 2=No Repetncia versus srie
Qualitativa cruzada
Freqncia simples; relativa linha e/ou coluna (valor esperado, teste chi-quadrado...)
Discreta
(que toma poucos valores) Nmero de filhos por mulher Nmero de reprovaes por srie Nmero de horas por dia que estuda matemtica 0; 1; 2; .... 10 0; 1; 2; 3; 4 0; 1; 2; 3; 4
Tabela de distribuio de Frequncias absolutas Grfico de basto frequncias e relativas Grfico de barras simples
Observa-se que variveis qualitativas ordinais podem ser tratadas como variveis quantitativas, por exemplo, srie em que estuda, que poderia ser interpretado como nmero de anos de estudo aprovados. Assim, o estudo da taxa de fracasso escolar por srie pode ser trabalhado, tanto com o teste qui-quadrado, quanto com a anlise de regresso e correlao. Apostila de Estatstica Prof Irene Mauricio Cazorla
23
Discreta
(que toma muitos valores ) Nmero de alunos por 20; 21; ...., 50 turma 30,31,.....,70,... Idade do pai (anos completos) Nmero de veculos que 0,1,2, ...... 500,... passam por um ponto movimentado
Contnua
Nota na prova de matemtica Valor na escala de atitudes(*) Renda familiar Coeficiente de Inteligncia Tempo gasto na prova
Intervalo fechado de 0 a 10: [0;10] Intervalo fechado de 20 a 80: [20; 80] Intervalo semi-fechado de 0 a M: [0; M[ Intervalo fechado de 0 a 150: [0; 150] Intervalo fechado de 0 a 2 horas: [0; 2]
Mdia; Tabela de distribuio de Mediana frequncias desde que Moda os dados tenham sido Desvio padro agrupados em faixas Coeficiente de variao ou intervalos Quartis ...
Diagrama de ramo e folha Histograma (pode usar a opo da distribuio normal, caso se esteja trabalhando sob esse pressuposto)
Relao entre variveis Quando se quer analisar associao entre duas ou mais variveis
quantitativas Uma quantitativa em funo de uma qualitativa
Anlise de correlao Anlise de regresso Anlise de varincia Anlise de covarincia Anlise de sries temporais Anlise de regresso e correlao
Uma quantitativa em funo de variveis qualitativas e quantitativas Quando se pretende analisar a trajetria de Sries temporais variveis ao longo do tempo Nmero de alunos matriculados no perodo de 1980 a 1998 Tabela contendo a varivel tempo e as variveis estudada
Scatter plot ou diagrama de pontos Diagrama de ramo e folha, box-plot Scatter plot ou diagrama de pontos Grfico de linhas; De reas Drop-line
50
30 25 20
28,5
15 10 5 0
7,3
Figura 6. Distribuio dos alunos por srie, da Escola General Porphyrio da Paz, de Paulnia, Campinas-SP, maio de 1998. Pode-se, tambm, apresentar os dados de uma varivel qualitativa classificada por outra, ou seja, a Tabela de Distribuio de Freqncias de dupla entrada ou Bivariada. Por exemplo, a repetncia por srie: Tabela 3. Distribuio da repetncia por srie, da Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998.
Frequncia % linha %coluna 5 srie Ensino Fundamental 6 srie Ensino Fundamental 7 srie Ensino Fundamental 8 srie Ensino Fundamental 1 ano Ensino Mdio 2 ano Ensino Mdio 3 ano Ensino Mdio Total Srie Reprovou alguma vez? Sim 36 35,0 % 6,0 % 37 26,6 % 6,1 % 68 40,7 % 11,3 % 51 27,3 % 8,5 % 115 46,9 % 19,1 % 214 53,5 % 35,5 % 81 49,4 % 13,5 % 602 42,8 % No 67 65,0% 8,4 % 102 79,4 % 12,7 % 99 59,3 % 12,3 % 136 72,7 % 17,0 % 130 53,1 % 16,2 % 186 46,5 % 23,2 % 83 50,6 % 10,2 % 803 57,1 % Total 103 7,3 % 139 9,9 % 167 11,9 % 187 13,3 % 245 17,4 % 400 28,5 % 164 11,7 % 1405 100,0 %
51
srie
coluna (col)
Selecionar as opes
repete
statistics caso queira testar hipteses Cells Valor esperado / %linha / %coluna ....
100%
80%
65
60%
73,4
59,3
53,1 72,7
46,5
50,6
Reprovou?
No Sim
40%
20%
35
26,6
6
40,7
46,9 27,3
8 1
53,5
49,4
0% 5 7 2 3
Figura 7. Distribuio da repetncia por srie, na Escola General Porphyrio da Paz, Paulnia-SP, maio de 1998. Voc pode usar a parte grfica do SPSS ou do EXCEL, este ltimo tem mais recursos na parte de grfico de barras, circular, linhas. O SPSS melhor para o diagrama de disperso e histograma, onde coloca a curva normal ajustada. 3.2 Trabalhando com variveis quantitativas 3.2.1 Trabalhando com variveis discretas que tomam poucos valores ou com sries temporais Quando a varivel discreta e toma poucos valores recomenda-se a Tabela de Distribuio de Freqncias, grficos de barras, linhas, basto e algumas estatsticas descritivas. Por exemplo.
52
Tabela 4. Evoluo do nmero de alunos matriculados no Ensino Fundamental da cidade XYZ, no perodo de 1988 a 1998.
Governo X Ano 1989 1990 1991 14.524 1992 15.008 1993 15.501 Governo Y 1994 15.900 1995 16.100 1996 16.200 Governo Z 1997 16.250 1998 16.300
Neste caso, voc pode usar grfico de barras ou de linhas. Voc pode calcular e graficar a taxa de crescimento, a fim de analisar se houve interferncia da poltica dos governos na evoluo do nmero de matrculas, etc.
Nmero de alunos
16500 16000 15500 15000 14500 14000 13500 13000 89 90 91 92 93 94 95 96 97 98
Figura 8. Evoluo do Evoluo do nmero de alunos matriculados no Ensino Fundamental da cidade XYZ, no perodo de 1988 a 1998. Observe que a escala do nmero de alunos matriculados inicia em 13.000 e no em zero. Este tipo de apresentao tem vantagens e desvantagens. Iniciar a escala em zero eliminar a percepo visual da evoluo desta varivel, em contraposio, iniciar a escala em 13 mil pode ressaltar diferenas no significativas. Neste caso, aconselhvel calcular a taxa de variao, que parece ser um indicador mais adequado aos dados, at porque, fcil saber qual a taxa de crescimento da populao, que pode-se tornar um parmetro de comparao. Outro exemplo o nmero de filhos por mulher. Suponha que voc tem dados diferenciado por classe social: Tabela 5. Nmero de mulheres por classe social, segundo o nmero de filhos.
Classe Social Alta Mdia Baixa 0 10 10 10 1 70 500 500 Nmero de filhos 2 3 20 0 450 40 700 200 4 0 0 80 5 ou mais 0 0 10
53
Como voc apresentaria esses dados? Ser que existe evidncias empricas sobre a relao entre nmero de filhos e classe social? Trabalhe esses dados. 3.2.2 Trabalhando com variveis discretas, que tomam muitos valores, ou com variveis contnuas. Para variveis discretas (que tomam muitos valores) ou para variveis contnuas recomenda-se trabalhar com intervalos de classe (ou faixas) ou com o diagrama de ramo e folha. 3.3 Anlise univariada para variveis quantitativas Suponha que foi realizada uma pesquisa para analisar o desempenho dos alunos na disciplina de matemtica, na 5 srie, em trs escolas diferentes. De cada escola foi selecionada uma turma, que no critrio dos professores era a de melhor desempenho em Matemtica. Essas trs turmas foram submetidas a um teste de conhecimentos e a uma escala de atitudes. Dados brutos (fictcios) de notas no teste de conhecimentos matemticos e valores na escala de atitude
ALUNO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 NOTA1 5,00 2,30 5,50 5,60 7,00 6,70 5,50 4,00 2,60 2,40 3,30 8,80 4,50 5,30 2,30 4,90 4,50 5,60 3,30 5,30 3,90 4,10 3,80 3,70 2,80 1,20 3,10 3,20 4,10 5,50 4,90 4,70 3,80 4,40 4,10 2,30 4,10 2,90 3,80 4,20 NOTA2 7,70 8,80 7,80 9,90 10,00 2,30 8,70 9,40 9,20 7,70 8,50 8,60 7,30 8,30 8,90 9,40 7,80 6,50 6,50 8,70 10,00 8,90 7,80 , , , , , , , , , , , , , , , , , NOTA3 ATITUDE1 ATITUDE2 ATITUDE3 3,00 50 70 30 3,30 25 80 33 4,40 60 72 46 4,50 55 75 48 5,50 78 76 50 2,30 55 20 29 5,30 50 60 54 6,20 42 70 60 4,60 30 57 50 7,00 35 69 80 5,50 30 60 60 6,30 70 66 72 6,10 40 71 72 4,50 55 56 50 6,20 30 60 62 5,30 50 60 53 5,40 52 59 55 4,50 60 50 48 4,80 33 48 50 4,90 43 50 50 3,30 35 40 40 5,50 40 60 56 5,60 32 58 60 5,70 35 , 62 6,20 25 , 58 4,50 25 , 50 5,50 34 , 50 4,30 35 , 48 2,30 46 , 40 , 59 , , , 30 , , , 48 , , , 42 , , , 46 , , , 50 , , , 30 , , , 25 , , , 30 , , , 40 , , , 40 , ,
IV. Noes de probabilidades O diagrama de ramo e folha Este diagrama muito til para uma primeira anlise dos dados.
54
Passos para construir um diagrama de ramo e folha: 1. Encontrar o valor mnimo e mximo dos dados, no caso da escola 1, o mnimo 1,2 e o mximo 8,8 2. Como a varivel toma valores entre zero e dez pode-se convencionar que o ramo a unidade e a folha a casa decimal 3. A partir dai examina-se cada valor e coloca-se a parte decimal na folha. O valor zero, significa que h informao e que um nmero inteiro. J quando naquele valor inteiro no existe observaes, no colocar nada, deixar em branco 4. Ordenar os ramos Original Ramo Folha (unidade) (decimal) 1 2 2 3643839 3 339871288 4 059511974112 5 05653635 6 7 7 0 8 8 Organizado Ramo Folha (unidade) (decimal) 1 2 2 3334689 3 123378889 4 011112455799 5 03355566 6 7 7 0 8 8
Frequncia 1 7 9 12 8 1 1 1
Que concluses voc pode extrair olhando o formato da distribuio de notas por escola? Observe que o diagrama de ramo e folhas faz as vezes do histograma. Se voc estivesse trabalhando com a escala de atitudes, cujos valores variam de 20 a 80, voc pode construir o diagrama, sendo que as dezenas seriam as folhas e as unidades os ramos.
Apostila de Estatstica Prof Irene Mauricio Cazorla
55
Para processar os dados no SPSS, a primeira providncia criar um arquivo de dados no SPSS e, voc pode fazer isso de duas maneiras. Caso 1: Criar um arquivo da forma como esto os dados, ou seja (EXPLORA1.SAV):
1 coluna, 1 varivel: Aluno - nmero que identifica o aluno 2 coluna, 2 varivel: Nota1 - nota dos alunos da escola 1 3 coluna, 3 varivel: Nota2 - nota dos alunos da escola 2 4 coluna, 4 varivel: Nota3 - nota dos alunos da escola 3 5 coluna, 5 varivel: Atitude1 valor na escala de atitudes dos alunos da escola 1 6 coluna, 6 varivel: Atitude2 - valor na escala de atitudes dos alunos da escola 2 7 coluna, 7 varivel: Atitude3 - valor na escala de atitudes dos alunos da escola 3
voc ter surpresas desagradveis, pois o SPSS levar em conta apenas os registros que tem valores em todas as variveis, ou seja calcular todas as estatstica em funo dos 23 primeiros alunos. Caso 2: Criar um arquivo com as seguintes variveis (EXPLORA2.SAV):
1 coluna, 1 varivel: Aluno - nmero que identifica o aluno 2 coluna, 2 varivel: Escola nmero que identifica a escola 3 coluna, 3 varivel: Nota- nota dos alunos segundo ordem e escola 4 coluna, 4 varivel: Atitude valor na escala de atitudes segundo ordem e escola
Esta a forma correta de se criar o banco de dados. Para usar o comando EXPLORE: Statistics Summarize Explore Selecionar a(s) variveis desejadas Exemplo da sada do subcomando EXPLORE:
NOTA By ESCOLA Valid cases: Mean Median 5% Trim Frequency 4,2250 4,1000 4,1583 Stem & . . . . . . . 1 40,0 Missing cases: ,2303 2,1214 1,4565 Min Max Range IQR ,0 Percent missing: 1,2000 8,8000 7,6000 2,0000 Skewness S E Skew Kurtosis S E Kurt ,0 ,6835 ,3738 1,4602 ,7326
1,00 1 7,00 2 9,00 3 12,00 4 8,00 5 1,00 6 1,00 7 1,00 Extremes Stem width: Each leaf:
1,00 1 case(s)
IV. Noes de probabilidades Fazendo o histograma para as notas das trs escolas, usando o SPSS. Para isso, seguir os seguintes passos: Graphs Histogram Selecionar a varivel e clicar em curva normal
Nmero de alunos 20
56
10
0 1,00 1,50 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00 7,50 8,00 8,50 9,00 10,00 9,50
NOTA Figura 9. Distribuio das notas na prova de Matemtica dos alunos da 5 srie
Voc observa que o SPSS automaticamente criou intervalos de 0,5 pontos. Caso voc queira modificar essa amplitude, voc ter de editar o grfico e alterar o eixo da escala. Voc pode usar o EXCEL, mas este software no proporciona o ajuste curva normal.
Nmero de alunos
25 20 15 10 5 0
5
NOTAS
10
57
As estatsticas fornecidas pelo comando EXPLORE devem ser colocadas em tabelas comparativas, a fim de analisar o perfil das escolas, porm no preciso que todos esses valores sejam inseridos no corpo do relatrio, via de regra, coloca-se a mdia e o desvio padro, s vezes, o coeficiente de variao. Varivel Nota Estatstica N de observaes Mdia Mediana Mnimo Mximo Amplitude Desvio padro 1 Quartil 3 Quartil Assimetria Curtose Escola1 40 4,2 4,1 1,2 8,8 7,6 1,45 3,2 5,2 0,68 1,46 Escola2 23 8,2 8,6 2,3 10,0 7,7 1,62 7,7 9,2 -2,28 0,48 Escola3 29 4,9 5,3 2,3 7,0 4,7 1,19 4,5 5,7 -0,69 0,07 Geral 92 5,4 5,3 1,2 10,0 8,8 2,16 3,9 6,9 0,43 -0,63
O SPSS no calcula a Moda nem o Coeficiente de Variao, logo, se for preciso deve-se calcular estas estatsticas. Para visualizar comparativamente o desempenho dos alunos por escola, alm do diagrama de ramo e folha, pode-se usar o diagrama box-plot: Graphs Box-plot Escolher a opo desejada
N O T A
12
10
12
4
46
2 0
N = 40 23
29
ESCOLA
Figura 10. Distribuio das notas na prova de Matemtica dos alunos da 5 srie, por escola A interpretao destes resultados ser apresentada logo a seguir.
Apostila de Estatstica Prof Irene Mauricio Cazorla
58
3.3.1 Principais estatsticas: definio e operacionalizao Deve-se ter cuidado com a notao, uma vez que se pode estar trabalhando tanto com dados populacionais, quanto amostrais. Notao das principais estatsticas:
Parmetro populacional Tamanho Mdia Proporo Varincia Tamanho da populao Estimador Tamanho da amostra Varivel aleatria
N
Mdia populacional
n
Mdia amostral
Proporo populacional
X
Proporo amostral
Varincia populacional
P
Varincia amostral
Coeficiente de correlao
S2
Desvio padro amostral
S
Coef. correlao amostral
_ X Me Mo
a soma dos valores da varivel dividida pelo nmero de observaes o valor que ocupa a posio central da srie de observaes de uma varivel, dividindo o conjunto em duas partes iguais. 50% dos dados tomam valores menores ou iguais ao valor da mediana e os 50% restantes acima. definida como a realizao mais freqente dos valores observados
Medidas de posio: quartis, percentis. Os quartis dividem o conjunto de dados em quatro partes iguais e os percentis em 100 partes iguais.
Estatstica 1 quartil 2 quartil (Mediana) 3 quartil Notao Definio, propriedades
Q1 Q2 Me Q3
o valor que ocupa a posio tal que um quarto dos dados (25%) tomam valores menores ou iguais ao valor do primeiro quartil. Coincide com o valor da mediana, ou seja 50% dos dados tomam valores menores ou iguais aos da mediana. Entre o primeiro quartil (Q1) e a mediana (Me) ficam 25% dos dados. o valor que ocupa a posio tal que um quarto dos dados (25%) tomam valores maiores ou iguais ao valor do terceiro quartil. Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25%
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades De todos os percentis os mais importantes so: Percentil 1 5 10 25 50 75 90 95 99 Notao Definio, propriedades P1 P5 P10 P25 P50 P75 P90 P95 P99 1% dos dados tomam valores menores ou iguais 5% dos dados tomam valores menores ou iguais 10% dos dados tomam valores menores ou iguais 25% dos dados tomam valores menores ou iguais (Q1) 50% dos dados tomam valores menores ou iguais (Q2 = Me) 25% dos dados tomam valores maiores ou iguais (Q3) 10% dos dados tomam valores maiores ou iguais 5% dos dados tomam valores maiores ou iguais 1% dos dados tomam valores maiores ou iguais
59
Medidas de disperso: medem o grau de variabilidade ou disperso dos dados Estatstica Amplitude Amplitude Interquartlica Desvio mdio Varincia Desvio padro Coeficiente de variao Notao Definio, propriedades A IQ DM S2 S CV a distncia entre o valor mnimo e mximo e da varivel A = Xmax - Xmin a distncia entre o valor do primeiro e do terceiro quartil IQ = Q3 Q1 a mdia dos valores absolutos dos desvios dos valores da varivel em relao mdia a mdia dos quadrados dos desvios dos valores da varivel em relao mdia a raiz quadrada da varincia uma medida de disperso relativa. definida como o quociente entre o desvio padro e a mdia, multiplicado por 100, para expressar porcentagem.
3.3.2 Medidas de tendncia central Mdia: o centro de gravidade do conjunto de dados, ela definida como a soma de todos os valores da varivel dividida pelo nmero de observaes: Mdia amostral Mdia populacional
X=
x
i =1
x
i =1
Calcular a mdia do nmero de filhos por mulher, por classe social e geral, da Tabela 5, pgina 29. Tea comentrios.
Apostila de Estatstica Prof Irene Mauricio Cazorla
60
Suponha que voc tem trs alunos cujas notas nas cinco provas de matemtica so as seguintes: Aluno Prova1 Prova2 Prova3 Prova4 Prova5 Mdia A B C 8 6 10 8 6 10 8 8 10 8 10 5 8 10 5 8 8 8
Observe que os trs alunos tm a mesma nota mdia, mas ser que essa estatstica suficiente para descrever o desempenho dos alunos? Ser que lcito afirmar que os trs alunos tem desempenho similar? No. A mdia insuficiente para descrever um conjunto de dados, para isso preciso complementar com uma medida de variao ou de disperso, que ser estudado na prxima seo, nas medidas de disperso. A mdia e os valores extremos A mdia apresenta um grave problema., ela fortemente influenciada pelos valores extremos. Por esta razo deve-se fazer uma anlise cuidadosa dos dados. Suponha que voc est estudando a distribuio de renda de nove famlias, em nmero de salrios mnimos, com os seguintes valores: X: Nmero de salrios mnimos X: 1, 1, 1, 1, 2, 2, 3, 5, 20 A renda mdia dessas nove famlias quatro. Mas o que acontece se a famlia com renda igual a 20 salrios mnimos fosse retirada da amostra? O valor da mdia cai para dois salrios mnimos, o que parece mais razovel j que esse valor descreve melhor este conjunto de dados. Distribuio de renda das famlias da amostra * * * * 0 1 valor extremo * * 2 * 3 4 * 5 6 7 8 9 * 10 11 12 13 14 15 16 17 18 19 20
Este exemplo ilustra como a mdia vulnervel ao efeito de valores extremos. Neste caso recomendado utilizar a mediana.
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades Mediana (Me): divide o conjunto de dados em duas partes iguais, abaixo dela ficam metade dos dados (50%) e acima a outra metade (50%). Utilizando os valores anteriores
lugar / posio varivel valores da varivel 1 X1 1 2 X2 1 3 X3 1 4 X4 1 5 X5 2 6 X6 2 7 X7 3 8 X8 5 9 X9 20
61
Observe que a mediana independente dos valores extremos, porque ela s leva em considerao os valores de posio central. Passos para encontrar a mediana: Caso n 1: quando o nmero de dados impar 1. Ordenar os dados em ordem ascendente (pode ser tambm na ordem descendente, mas no comum e pode atrapalhar na hora de calcular as medidas de posio) 2. O lugar ou posio que a mediana ocupa : (n+1)/2 e 3. O valor da mediana o valor da varivel que ocupa o lugar (n+1)/2
Me = X(n+1)/2
No exemplo: n=9, logo (n+1)/2=5, logo o valor da mediana ser: Me=X5=2 Se n fosse igual a 21, ento o valor da mediana ser: Me=X11 Se n fosse igual a 49, ento o valor da mediana ser: Me=X25 Caso n 2: quando o nmero de dados par 4. Ordenar os dados em ordem ascendente 5. O lugar ou posio que a mediana ocupa est entre: n/2 e (n/2)+1 e 6. O valor da mediana ser a mdia simples dos valores que ocupam esses lugares
X n/2 + X n/2 +1 Me = 2
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades Suponha que, no exemplo anterior, o valor extremo X9 =20, fosse eliminado
lugar / posio varivel valores da varivel 1 X1 1 2 X2 1 3 X3 1 4 X4 1 5 X5 2 6 X6 2 7 X7 3 8 X8 5
62
Mediana=1,5 Como n=8, logo a mediana estar entre o 4 e 5 lugar, ou seja: Me = (X4 + X5)/2 Me = ( 1 + 2) / 2 . Me = 1,5 . Se n fosse igual a 20, ento o valor da mediana ser: Me=(X10 + X11)/2 Se n fosse igual a 50, ento o valor da mediana ser a media de: Me=(X25 + X26)/2 Observe como varia a mdia e a mediana ao se retirar o valor extremo Valor extremo Com Sem Mdia 4 2 Mediana 2 1,5
Moda (Mo): o valor que se repete com maior frequncia. Ele pode no existir, bem como pode ter mais de valor, principalmente quando a varivel toma muitos valores. No exemplo anterior, a moda igual a 1.
Mo = 1 salrio mnimo.
Calcule a moda no exemplo do nmero de filhos por mulher segundo classe social, da Tabela 5, pgina 29. Construa um grfico apropriado. Comente os resultados. 3.3.3 Medidas de Posio Assim como as medidas de tendncia central tem por objetivo fornecer indicadores do local onde a maioria dos dados se concentram, as medidas de posio tem por objetivo
63
indicar onde o ponto de corte para uma certa posio. As medidas mais conhecidas so os quartis e sua verso mais geral, os percentis. Quartil: assim como a mediana divide em duas partes iguais um conjunto de dados, os quartis dividem em quatro partes iguais Usando o exemplo da nota dos 92 alunos das trs escolas, pgina 31:
Ramo Geral (unidade) 1 2 2 3333334689 3 012333378889 4 011112344555555678999 5 03333455555556667 6 12223557 7 00377888 8 356778899 9 2449 10 00 Lugar ou posio (os dados j esto ordenados) 1 2345678901 234567890123 456789012345678901234 56789012345678901 23456789 01234567 890123456 7890 12 Frequncia 1 10 12 21 17 8 8 9 4 2 Freq. acumulada 1 11 23 44 61 69 77 86 90 92
A formula geral para calcular qualquer percentil p, que via de regra toma os seguintes valores: 1, 5, 10, 25, 50, 75, 90, 95 e 99.
XP = (1 f )*Xi + f*Xi+1
Percentil P Valores de f 1 0,01 5 0,05 10 0,10 25 0,25
onde
i=f*n
75 0,75 90 0,90 95 0,95 99 0,99
50 0,50
No caso dos quartis: n=92 n/4=92/4=23 25% 23 23 Q1=0,75*X23 + 0,25*X24 Q1=0,75*3,9 + 0,25*4 Q1=3,925 25% 23 46 25% 23 69 25% 23 92 Q3=0,25*X69 + 0,75*X70 Q3=0,25*6,9 + 0,75*7,0 Q3=6,925 90 0,90 83 95 0,95 87 99 0,99 92
Para calcular qualquer percentil, neste exemplo, onde n=92: Percentil P 1 5 10 25 50 75 Valores de f 0,01 0,05 0,10 0,25 0,50 0,75 Valores de i 1 5 9 23 46 69
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades Figura 11. Histograma das notas dos alunos da 5 srie das trs escolas
20
64
10
0 1,00 1,50 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00 7,50 8,00 8,50 9,00 10,00 9,50
NOTA
P5=2,3 5% dos alunos obtiveram notas menores ou iguais a 2,3 3.3.4 Medidas de disperso Medem o grau de variabilidade ou disperso dos dados.
A amplitude mede a distncia entre o menor valor mximo e mnimo, ela uma estatstica rudimentar, pois embora d uma noo de disperso ela no diz qual sua natureza. A amplitude interquartil, ou comprimento da caixa, a distncia entre o primeiro e terceiro quartil, muito til para detectar valores extremos, e muito usado no diagrama de BOXPLOT Amplitude = Xmximo - Xmnimo Amplitude interquatil = Q3 Q1 Construindo o desvio padro: Para entender a construo do desvio padro deve-se, primeiro, analisar a natureza dos desvios dos valores da varivel em relao a sua prpria mdia. Para isto retoma-se o exemplo dos trs alunos, cujas mdias eram iguais, mas seus desempenhos diferentes (pag. 37). Analisando os desvios observa-se que os trs alunos tm desempenhos diferentes, enquanto o aluno A constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro tem uma queda abrupta no seu desempenho e no consegue se recuperar. Ou seja, apesar dos trs alunos terem o mesmo desempenho mdio, eles tem variabilidades diferentes.
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades Analisando os desvios dos valores da varivel em relao a mdia. Aluno Prova1 Prova2 A Desvios B Desvios 6 8 8 0 0 8 6 -2 0 -2 8 C Desvios 10 10 -2 8 10 -2 -2 +3 +3 5 5 8 +2 +2 10 10 Prova3 8 0 0 0 Prova4 Prova5 8 8 (Xi - X)= 0 + 0 + 0 + 0 + 0 (Xi - X)=0 Soma dos desvios (Xi-X)
65
Poderia se pensar em construir um desvio mdio, como sendo a soma dos desvios dividida pelo nmero de observaes, porm, a soma dos desvios igual a zero. Ento, como construir uma medida de disperso? Como o problema a compensao dos valores positivos com os negativos, a pergunta : como converter os valores negativos em positivos? De duas maneiras: tomando valor absoluto (distncia) ou elevando ao quadrado cada desvio. Assim tm-se o desvio mdio e a varincia.
Desvio
Varincia
Desvio
2
DM =
Xi X
i =1
S =
(X
i =1
X)
S = s2
Assim, o Desvio Mdio (DM) a mdia dos valores absolutos dos desvios e a varincia (S2) a mdia dos quadrados dos desvios. Mas ao calcular a varincia elevou-se ao quadrado cada desvio, ou seja, os desvios foram aumentados; ento, preciso retirar esse efeito, assim, deve-se extrair a raiz quadrada da varincia, dando origem ao desvio padro (S).
Apostila de Estatstica Prof Irene Mauricio Cazorla
66
S=0
S=1,79
S=2,45
Observa-se que o desvio padro sempre maior ou igual ao desvio mdio, e isto devido ao fato de ter elevado ao quadrado cada desvio, aumentando desproporcionalmente o peso dos valores extremos. Lembrar que o fato de ter extrado a raiz quadrada da varincia no elimina completamente o efeito de ter elevado ao quadrado cada desvio, uma vez que a raiz quadrada de uma soma no igual a soma da raiz quadrada de cada somando. Aluno A B C Mdia 8 8 8 Mediana 8 8 10 Moda 8 6 / 10 10 Amplitude 0 4 5 Desvio mdio 0 1,6 2,4 Desvio padro 0 1,79 2,45
Logo, conclui-se que apesar dos trs alunos terem a mesma nota mdia, seus desempenhos tem diferentes graus de variabilidade, sendo que o aluno A tem um desempenho perfeitamente homogneo e o aluno C o mais disperso. Observa-se que quanto mais disperso o conjunto de dados maior o desvio padro, desvio mdio e amplitude. + homogeno + disperso desvio padro desvio padro zero aumenta
Entretanto, s vezes pode-se querer comparar o grau de disperso de dois conjuntos de dados com unidades de medidas diferentes. Neste caso, deve-se usar o coeficiente de variao (CV), que uma medida de disperso relativa, uma vez que ela no est afetada pelas unidades da medida da varivel.
Apostila de Estatstica Prof Irene Mauricio Cazorla
67
Suponha que voc tem a mdia e o desvio padro da renda familiar de trs pases, de sistemas monetrios diferentes. Como voc poderia comparar e saber em que pas a distribuio de renda mais homognea?
CV = S * 100 X
Pas A B C
Neste exemplo, apesar de os trs pases ter o mesmo desvio padro, isso no implica que elas tenham a mesma distribuio de renda. 3.3.5 O diagrama de Box-Plot ou diagrama da caixa Como construir o diagrama de Box-Plot * 25% dos dados esto acima da caixa
O
Valores extremos: valores maiores que 3 comprimentos da caixa, a partir do percentil 75% Outliers: valores maiores que 1,5 comprimentos da caixa, a partir do percentil 75%
Mediana
Outliers: valores menores que 1,5 comprimentos da caixa, a partir do percentil 25% Valores extremos: valores menores que 3 comprimentos da caixa, a partir do percentil 25%
IV. Noes de probabilidades Retomando o exemplo das notas dos 92 alunos da 5 srie das trs escolas, pagina 34. Estatsticas Q1 Q3 Q3 - Q1 1,5 *(Q3 - Q1) 3,0 *(Q3 - Q1) Outliers inferiores Xi Q1 -1,5 *(Q3 - Q1) Valores extremos inferiores Xi Q1 - 3,0 *(Q3 - Q1) Outliers superiores Xi Q3 + 1,5 *(Q3 - Q1) Valores extremos superiores Xi Q3 + 3,0 *(Q3 - Q1) Escola 1 3,2 5,2 2,0 3,0 6,0 0,2 ** 8,2 ** Escola 2 7,7 9,2 1,5 2,25 4,5 4,45 3,2 ** ** Escola 3 4,5 5,7 1,2 1,8 3,6 2,7 0,9 7,5 9,3 Geral 3,9 6,9 3,0 4.5 9,0 ** ** ** **
68
** valores menores que zero ou maiores que dez, por tanto impossveis. 3.4 Anlise bivariada de variveis quantitativas Para estudar a influncia de uma varivel em outra ou o grau de associao entre elas devese usar o diagrama de pontos (scatter plot). Este grfico permite examinar se existe relao entre as variveis em estudo. Por exemplo, estudar a relao entre as atitudes frente a matemtica e o desempenho na disciplina. Para obter o diagrama do pontos da relao das duas variveis seguir os passos: Graphs Scatter plot Simple Y axis varivel dependente X axis varivel independente Set markers by escola (para colorir por escola)
69
N O T A
12
10
ESCOLA
2 3 2 0 10 20 30 40 50 60 70 80 90 1
ATITUDE1
Figura 12. Relao entre o desempenho e atitude em relao a Matemtica dos alunos da 5 srie, por escola Observe que a nota varia de zero at dez e que a escala de atitudes varia de 20 a 80, apesar disto, a escala do grfico vai alm desses limites e isto porque quando se usa a escala exata muitos pontos caem nos limiares e ficam mal desenhados. Olhando o grfico percebe-se que existe uma relao positiva e linear entre as duas variveis, ou seja, quando uma aumenta a outra tambm aumenta e quando uma diminui a outra tambm diminui. Percebe-se, tambm, que existe uma relao diferente por escola. A escola 2 tem sua nuvem de pontos no quadrante superior direito, o que significa que essas crianas tendem a ter atitudes mais positivas e melhor desempenho. J os alunos da escola 1 tendem a ser mais negativos e seu desempenho tende, tambm, a ser menor. Para analisar a relao entre essas duas variveis deve-se utilizar as tcnicas de correlao e regresso. Observa-se que quando se est analisando um conjunto de variveis e suas possveis relaes pode-se fazer uso da matriz de correlao e o scatter plot mltiplo: Graphs Scatter plot Matrix Matrix variables variveis desejadas Set markers by escola (para colorir por grupos, se necessrio)
Apostila de Estatstica Prof Irene Mauricio Cazorla
70
Suponha que os seguintes dados se referem a situao de funcionrios de uma empresa sobre: salrio, anos de estudo, nmero de filhos e tempo de sevio, que podem ser encontrados no arquivo (EXPLORA3.SAV):
CODIGO SALARIO ANOSESTU NFILHOS TSERVICO 1 4 5 6 7 8 9 10 11 12 13 14 15 200 300 400 400 500 800 1000 1000 2500 3000 4000 5000 6000 5 5 6 7 8 8 11 12 15 16 22 23 23 4 4 5 4 3 3 3 2 1 1 2 1 1 5 8 10 12 8 10 15 10 2 4 10 15 20
Conforme Figura 13, observa-se que existe uma relao exponencial positiva entre salrio e anos de estudo; uma relao negativa, tambm exponencial ou inversa entre salrio e nmero de filhos; uma relao linear, positiva entre salrio e tempo de servios, observando-se dois grupos diferentes; uma relao inversa linear entre anos de estudo e nmero de filhos; e uma relao difusa entre anos de estudo e tempo de servio.
SALARIO
ANOSESTU
NFILHOS
TSERVICO
Figura 13.Relao entre salrio, anos de estudos, tempo de servio e nmero de filhos
71
Quando voc utiliza a anlise de regresso para verificar o grau de associao de suas variveis, ajustando uma funo, voc pode graficar simultaneamente a funo ajustada e os dados originais. Para exemplificar, usaremos parte do banco de dados EXPLORA4.SAV que contem parte dos dados pesquisados por Ivonete, que aplicou a mesma prova aplicada no SARESP, aps alguns dias da aplicao oficial, s que, ao invs de ter alternativas para marcar, ela solicitou aos alunos que resolvessem as questes, denominando esta prova de DISCURSIVA.
ALUNO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 SARESP DISCURSI 50,00 60,00 30,00 55,00 70,00 40,00 40,00 40,00 60,00 90,00 60,00 30,00 40,00 40,00 40,00 60,00 70,00 65,00 45,00 85,00 25,00 55,00 50,00 55,00 50,00 50,00 35,00 60,00 50,00 30,00 38,00 58,00 62,00 64,00 59,00 50,00 51,00 57,00 76,00 101,00 47,00 33,00 47,00 65,00 51,00 68,00 93,00 81,00 52,00 117,00 5,00 49,00 37,00 65,00 70,00 30,00 44,00 73,00 39,00 29,00 PRE_1 55,89415 67,28595 33,11056 61,59005 78,67775 44,50236 44,50236 44,50236 67,28595 101,46134 67,28595 33,11056 44,50236 44,50236 44,50236 67,28595 78,67775 72,98185 50,19826 95,76544 27,41466 61,59005 55,89415 61,59005 55,89415 55,89415 38,80646 67,28595 55,89415 33,11056
A anlise de regresso ser estudada no Captulo VIII. Anlise de correlao e regresso, mais adiante, mas caso voc queira reproduzir os resultados, seguir os passos: Statistics Regression Linear Dependent variable Independente variable SAVE para gravar o valor predito Predicted values Unstandardized o SPSS grava uma nova varivel chamada PRE_1 na ltima coluna
Apostila de Estatstica Prof Irene Mauricio Cazorla
IV. Noes de probabilidades Graphs Scatter plot Overlay Y X pairs Swap pairs
72
(marcar x e y simultaneamente) caso a ordem no esteja de acordo com Y X (dependente-independente) trocar com este comando
Como a prova estava composta de 30 questes, onde cada questo valia 5 pontos, e como no SARESP s existem duas possibilidades, acertou (5 pontos), errou (0 pontos), logo a nota no SARESP vai de 0 a 150, de cinco em cinco. J a nota na prova discursiva diferente, uma vez que a correo dependeu do grau de elaborao da resposta, podendo obter notas entre 0 e 5. Em teoria, ambas notas deveriam coincidir, assim se esperaria que a maioria dos pontos casse em torno da reta X=Y. A Figura 14 ilustra os resultados.
150
R2=61.2%
d i 100 s c u r s i v 50 a
0 0 50 100 150
saresp
Figura 14. Relao entre a nota dos alunos no SARESP e na prova Discursiva Discutir detalhadamente todas as implicaes desta anlise.
IV. Noes de probabilidades 3.5 Outros comandos do SPSS para anlise exploratria de dados
73
Os outros comandos do SPSS que fornecem estatsticas descritivas. Trabalhando com o banco de dados do SPSS: BANK.SAV. Para saber o que cada varivel contem: Utilities File info
OUTPUT: List of variables on the working file Name ID Employee code Print Format: F4 Write Format: F4 Beginning salary Print Format: F5 Write Format: F5 Missing Values: 0 Sex of employee Print Format: F1 Write Format: F1 Missing Values: 9 Value 0 1 TIME Label Males Females 4 Position 1
SALBEG
SEX
Job seniority Print Format: F2 Write Format: F2 Missing Values: 0 Age of employee Print Format: F6.2 Write Format: F6.2 Missing Values: ,00 Current salary Print Format: F5 Write Format: F5 Missing Values: 0 Educational level Print Format: F2 Write Format: F2 Missing Values: 0 Work experience Print Format: F6.2 Write Format: F6.2 Employment category Print Format: F1 Write Format: F1 Missing Values: 0 Value 1 2 3 4 5 6 7 Label Clerical Office trainee Security officer College trainee Exempt employee MBA trainee Technical
AGE
SALNOW
EDLEVEL
WORK
JOBCAT
74
Sex & race classification Print Format: F1 Write Format: F8.2 Value 1 2 3 4 Label White males Minority males White females Minority females
usando o comando DESCRIPTIVES (usar s com variveis quantitativas!) Statistics Summarize Descriptives Selecionar as variveis desejadas Selecionar as estatsticas desejadas em options Output
Number of valid observations (listwise) = Variable WORK EDLEVEL AGE TIME SALBEG SALNOW Mean 7,99 13,49 37,19 81,11 6806,43 13767,83 Std Dev 8,72 2,88 11,79 10,06 3148,26 6830,26 Minimum ,00 8 23,00 63 3600 6300 474,00 Maximum 39,67 21 64,50 98 31992 54000 Valid N 474 474 474 474 474 474 Label Work experience Educational level Age of employee Job seniority Beginning salary Current salary
Observe que a varivel EDLEVEL= nvel educacional uma varivel discreta, checar a validade das estatsticas descritivas:
EDLEVEL Educational level (usando o comando frequencies) Value 8 12 14 15 16 17 18 19 20 21 Total Valid cases 474 Frequency 53 190 6 116 59 11 9 27 2 1 ------474 0 Percent 11,2 40,1 1,3 24,5 12,4 2,3 1,9 5,7 ,4 ,2 ------100,0 Percent 11,2 40,1 1,3 24,5 12,4 2,3 1,9 5,7 ,4 ,2 ------100,0 Percent 11,2 51,3 52,5 77,0 89,5 91,8 93,7 99,4 99,8 100,0 Valid Cum Value Label
Missing cases
IV. Noes de probabilidades Quando voc deseja listar algumas observaes com algumas variveis usar: Statistics Summarize List cases Variables (selecionar as variveis desejadas) (selecionar as opes desejadas) sada do List Cases dos 10 primeiros funcionrios
ID SALBEG SALNOW 628 630 632 633 635 637 641 649 650 652 8400 24000 10200 8700 17400 12996 6900 5400 5040 6300 16080 41400 21960 19200 28350 27250 16080 14100 12420 12300 10 Number of cases listed: 10
75
Quando voc deseja listar as estatsticas descritivas, por grupos e para todos os dados usar: Statistics Summarize Report Summaries in Row Data coluns (selecionar as variveis desejadas) Break options (selecionar a varivel dos grupos, por exemplo, sexo, raa, etc.) options (para as colunas ou variveis voc pode selecionar as estatsticas desejadas a serem calculadas para cada grupo) options (voc pode selecionar as mesmas estatsticas para serem calculadas para todos os dados) OUTPUT
Page Sex of employee ________ Males Mean StdDev Females Mean StdDev Grand Total Mean StdDev 6806 3148 13768 6830 Beginning salary _________ 8121 3645 5237 1174 1 Current salary _______ 16577 7800 10413 3023
IV. Noes de probabilidades IV. NOES DE PROBABILIDADES 4.1 Por que precisamos aprender probabilidades?
76
Nas aulas anteriores vimos as diversas formas de apresentar os dados visando captar as informaes subjacentes nesses. Observamos, por exemplo, que o desempenho dos alunos da 5 srie na prova de matemtica e na escala de atitudes varia segundo a escola (pag. 27). Os alunos da escola 1 tm atitudes tendendo ao negativo e com baixo desempenho, enquanto que os alunos da escola 2 mostram um bom relacionamento com a matemtica, e os alunos da escola 3, mostram um desempenho intermedirio entre as duas escolas. Mas, como saber se essas diferenas so estatisticamente significativas? Como saber se o baixo desempenho dos alunos da escola 1 apenas fruto do acaso? E, isso, porque estamos trabalhando com amostras, uma vez que a prova foi aplicada uma nica vez, alm disso, esses alunos podem estar vindo de uma populao maior, onde, mesmo que tenhamos escolhido aleatoriamente, podemos, por acaso, termos escolhido os alunos com os piores desempenhos. Ento, como podemos afirmar que as crianas das escolas tem desempenhos diferentes? Esse um exemplo tpico em que precisamos tomar uma deciso em condies de incertezas. Observamos que para fazer um estudo desta natureza, parte-se do pressuposto de que todos os alunos vem de uma populao normal, de condies similares, no sentido de maturidade fsica, afetiva, intelectual, tendo visto os mesmos contedos da matemtica, ou seja, que as diferenas entre o desempenho se deva apenas a forma como a Matemtica foi aprendida e ensinada, o que est atrelada escola que, no caso, estamos pressupondo ser o fator determinante na explicao das possveis diferenas. Este um exemplo que ser tratado pela Anlise de Varincia, mais adiante. Por enquanto necessrio entender o processo probabilstico subjacente na anlise. Precisamos de dois conceitos, o de amostragem e o da distribuio de uma varivel, ou seja, do conceito de probabilidade. Suponhamos que a populao de estudo est composta por todos os alunos que esto cursando a 5 srie, nas trs escolas, onde estamos medindo duas variveis: o desempenho, atravs da nota e a atitude frente a matemtica, atravs da escala de atitude: Populao: todos os alunos da 5 srie das trs escolas X: nota na prova de matemtica quantitativa contnua toma valores de zero a dez Y: valor na escala de atitude quantitativa contnua toma valores de 20 a 80 Observa-se que estas variveis (funes) so diferentes de uma funo, matemtica ou fsica, como, por exemplo, a funo velocidade, que depende do espao e o tempo, que, se conhecidos, possvel conhecer apriori valor da velocidade, ou seja, tem um carter determinstico. J a nota em uma prova no pode ser conhecida apriori, depende de uma srie de fatores probabilsticos. Vejamos que fatores so esses:
IV. Noes de probabilidades Analisando o desempenho do aluno nas provas: Aluno Prova1 Prova2 prova3 ...
77
e
Desempenho do aluno em Matemtica (anlise longitudinal) X: nota do aluno em Matemtica Espera-se que o aluno tenha um desempenho e que as diversas provas iro medi-lo, com certa fidedignidade. Isto no significa que o aluno sempre obter a mesma nota em todas as provas, haver uma variao aleatria, que pode ser considerada erro de medio, fruto de vrios fatores, tais como, calibrao da prova (nvel de dificuldade), do estado emocional do aluno, de ter estudado ou no na vspera, entre outros. A varivel nota do aluno chamada de varivel aleatria. Veremos , adiante, a definio deste conceito. Esta varivel aleatria ter como mdia (esperana matemtica) o desempenho do aluno em matemtica (parmetro), as provas so apenas amostras, medies da varivel. Espera-se que a maioria das notas fiquem muito prximas da mdia e que a variao seja pequena, esse comportamento conhecido como distribuio normal. Se medssemos infinitas vezes o desempenho do aluno e se seu desempenho seguisse uma distribuio normal, com mdia 7,0 e desvio padro 1,0, o formato da distribuio das notas deste aluno seria:
Norma l
=7,0 =1 0
IV. Noes de probabilidades Analisando o desempenho dos alunos em uma prova: Prova aluno1 aluno2 aluno3 ...
78
d e d...
Desempenho dos alunos em uma prova de Matemtica (anlise transversal) X: nota dos alunos na prova Da mesma forma podemos supor que a prova foi calibrada para ter uma mdia de 7,0 e um desvio padro de 1,0. Nesse caso, a distribuio das notas com esses parmetros ser o mesmo da Figura 15. Ou seja, temos duas variveis aleatrias interagindo simultaneamente, uma fruto do desempenho do aluno e outra, da prova. Alm dessas variaes, existe outro fator, que tornar mais complexo o mundo de probabilidades subjacentes nesta anlise, que resultante do processo de amostragem. Analisando a variabilidade inerente ao processo de amostragem: Populao (N alunos) Amostra (n alunos; n<N)
Onde:
ede... dd...
X: nota dos alunos na prova de Matemtica : a nota mdia de todos os alunos (parmetro populacional) X : a mdia amostral, depende dos alunos que comporo a amostra, que depende das leis de probabilidades. Assim, o presente captulo tem por objetivo apresentar a teoria de probabilidades subjacente no processo estatstico.
79
A principal preocupao da estatstica tirar concluses acerca dos parmetros populacionais, baseando-se nos resultados observados em uma amostra. Quando a amostra selecionada aleatoriamente no podemos determinar, ou prever apriori, os resultados (experimento aleatrio). Contudo, podemos construir modelos probabilsticos que permitem calcular as chances de ocorrncia dos possveis resultados, atravs da teoria de probabilidades. Suponha que voc deseje conhecer a chance relativa terica de sair cara no experimento lanar n vezes uma moeda no viciada. Existem duas formas de abordar o problema, uma atravs da experimentao e a outra atravs de um modelo probabilstico. Atravs da experimentao, observamos a freqncia relativa com que cara aparece nos n lanamentos. Se repetirmos o experimento teremos outra freqncia relativa observada, que no necessariamente igual a anterior, mas esperamos que esteja muito prximo dela. Assim, se repetirmos vrias vezes os n lanamentos, esperamos que as freqncias observadas convirjam para um nmero chamado probabilidade. Buffon e Pearson realizaram esse tipo de experimento com os seguintes resultados: Estimativa da probabilidade atravs das freqncias observadas Buffon Possveis resultados Cara Coroa Total Freqncia Absoluta 2048 1992 4040 Freqncia Relativa 0,5069 0,4931 1,0000 Pearson Freqncia Absoluta 12012 11988 24000 Freqncia Relativa 0,5005 0,4995 1,0000
Outra forma de se chegar a freqncia relativa terica atravs da construo de um modelo probabilstico terico sob certas suposies adequadas. Assim, no exemplo, sabemos que existem somente dois possveis resultados: cara ou coroa, sendo que as duas faces tem as mesmas chances de ocorrer. Ento, a freqncia relativa terica para a ocorrncia de cada resultado ou 0,5. Possveis resultados Freqncia terica cara coroa total 1
Este modelo representa de forma adequada o resultado do experimento e, quando falamos de probabilidades da ocorrncia dos possveis resultados do experimento, estamos no referindo as chances tericas deles acontecerem.
Apostila de Estatstica Prof Irene Mauricio Cazorla
80
A partir de fenmenos ou experimentos aleatrios pode-se construir modelos probabilsticos, baseados em certas suposies tericas adequadas, que reflitam seus comportamentos, de maneira que seja possvel determinar as chances de ocorrncia (probabilidade) dos possveis resultados (espao amostral), sem precisar de realizar o experimento. 4.2.1 Experimento e fenmeno aleatrio aquele que repetido em condies idnticas produz geralmente resultados distintos. Por exemplo jogar uma moeda no viciada, sabemos que a chance de sair cara 50%, mas no conseguimos prever com exatido o resultado da jogada, mesmo controlando todas as circunstncias relevantes ao experimento (jogar a moeda). O conceito de fenmeno aleatrio ligeiramente diferente do conceito de experimento aleatrio. Nos experimentos aleatrios podemos controlar, de certa forma, fatores alheios ao problema os quais podem influenciar os resultados do experimento, alm disso, podemos reproduzir o experimento com certa margem de liberdade. J nos fenmenos aleatrios ns somos meros observadores, os fenmenos aleatrios tratados pela estatstica so aqueles que possuem regularidade estatstica, isto , so observveis e suceptveis de repetio (ver exemplos na Tabela 6, pgina 55). Espao amostral ( ) o conjunto formado por todos os possveis resultados de um experimento ou fenmeno aleatrio Espao amostral discreto: quando as realizaes do experimento denotam uma qualidade ou so resultados de uma contagem, o espao amostral dito discreto, isto , suceptvel de enumerao (finita ou infinita), nesse caso, cada possvel resultado chamado de evento elementar {wi}. = { {w1}, {w2}, {w3}, ... } onde cada {wi} representa um nico possvel resultado; a unio de todos os eventos elementares compem o espao amostral; a interseo de qualquer par de eventos elementares o conjunto vazio, ou seja, so mutuamente exclusivos. Espao amostral contnuo: quando as realizaes do experimento so resultados de uma mensurao, isto , os possveis resultados no so enumerveis, o espao amostral chamado de contnuo. Neste caso, no faz sentido falar em eventos elementares e, em geral, os eventos esto constitudos por intervalos (ver Tabela 6, pag. 55).
IV. Noes de probabilidades Tabela 6. Exemplos de alguns experimentos e fenmenos aleatrios N Experimento Tipo Experim Tipo Espao amostral Variveis aleatrias
55
2. Escolher aleatoriamente uma amostra de Experim trs alunos da disciplina de estatstica (*) 3. Lanar dois dados Experim 4. Escolher aleatoriamente eleitores e Experim perguntar em quem iro votar para presidente 5. Escolher aleatoriamente uma mulher e Experim anotar o nmero de filhos vivos 6. Observar o nmero de casos de Fenmeno meningite por ms 7. Aplicar uma prova de Matemtica de 5 Experim questes, com durao de duas horas 8. 9. 10. 11.
Discreto = { CCC, CCX, CXC, XXC, nmero de caras CXX,XCX, XXC, XXX} nmero de lanamentos at aparecer cara Discreto 1 = {ABC, ACD, ABE,... } nmero de alunos de sexo masculino 2 = {AAA, AAB, AAC,... } Discreto = { (1,1) (1,2), ... (6,6) } soma dos valores das faces diferena entre os valores das faces Discreto = {Lula, FHC, CG, E, X} nmero de eleitores quem votaro candidato X Discreto = { 0, 1, 2 ... } Contnuo = { X; 12 X 50 } Discreto = { 0, 1, 2 ... }
no
Contnuo = { X; 0 X 10} Discreto = { 0, 1, 2, 3, 4 e 5} Contnuo = { X; 0 X 2} Aplicar a escala de atitudes frente a Experim Contnuo = { X; 20 X 80 } Matemtica e observar a pontuao Observar a reprovao em Matemtica Fenmeno Contnuo = { X; 0% X 100%} Porcentagem de alunos reprovados por turma dos alunos de 5 sries por turma Observar o tempo de vida (at queimar) Experim Contnuo = { X; X 0 } Tempo de vida da lmpada (em horas) de uma lmpada Observar a quantidade de chuva mensal Fenmeno Contnuo = { X; 0 X M } Quantidade de chuva mensal (em mm)
M suficientemente grande, porm limitado
nmero de filhos vivos por mulher idade em que engravidou a primeira vez nmero de casos de meningite por ms nmero de casos por sexo, por faixa etria, ... nota na prova de Matemtica (nota) nmero de questes erradas tempo que demorou para responder a prova Valor na escala de atitudes
(*) Depende do tipo de amostra: sem o com reposio Apostila de Estatstica Prof Irene Mauricio Cazorla
56
Por exemplo, no experimento 3, lanar dois dados: A= { pelo menos uma face nmero par: todos os pares sombreados} B= {as duas faces tem o mesmo valor: (1,1), (2,2), (3,3), (4,4), (5,5), (6,6)}
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
No experimento 7, aplicar uma prova de Matemtica: A= { o aluno obter uma nota menor que 6} A={X; X < 6) B= { o aluno tirar notas entre 7 e 9} B={X; 7 < X < 9}
Operaes com eventos: Sejam A e B dois eventos associados a um espao amostral Unio A B: implica na ocorrncia de pelo menos um dos eventos Interseo A B: quando os dois evento ocorrem simultaneamente
A A
Ac
Diferena simtrica A B: ocorre apenas um dois evento Eventos mutuamente exclusivos: quando a interseo deles o evento impossvel
57
4.2.2 Definio frequentista de probabilidade A freqncia relativa de um evento definida como o quociente entre o nmero de casos favorveis ao evento e o nmero total de observaes. Por exemplo, quando lanamos uma moeda no viciada, a freqncia relativa de cara : Frequencia cara = Numero de vezes que cara aparece Numero de ensaios
Buffon encontrou essa freqncia igual a 0,5069 em 4.040 lanamentos, enquanto que Pearson achou 0,5005 em 24.000 lanamentos, sendo que a freqncia terica . Observa-se como estes experimentos foram tentativas de montar um modelo probabilstico, isto , atribuir probabilidades aos resultados do experimento. Ento podemos definir a probabilidade de sair cara como o limite para onde a freqncia relativa tende quando o nmero de ensaios tende para infinito: Numero de vezes que aparece cara ) n
P(cara ) = limite (
n >
Quando a varivel contnua, a freqncia relativa dada em termos de intervalos ou faixas, por exemplo, a freqncia relativa de alunos das trs escolas cujas notas variam de 4 a 6: Numero de alunos com notas entre 4 e 6 38 = = 0,4130 Numero de alunos 92
Frequencia[4;6] =
Ento, a estimativa da probabilidade de que um aluno tenha notas entre 4 e 6 ser 0,4130. Ao falarmos de probabilidades em termos de freqncia relativa, temos em mente o nmero em torno do qual os valores das freqncias relativas se concentram quando o nmero de repeties do experimento tende ao infinito. Esta a definio frequentista de probabilidade, mas uma definio que tem uma srie de limitaes. Logo definiremos a probabilidade axiomaticamente.
58
4.2.3 Definio axiomtica de probabilidade Probabilidade uma funo que associa a cada evento A, do espao amostral, um nmero P(A), chamado de probabilidade do evento A, satisfazendo os seguintes axiomas: Axioma 1: P(A) 0 Axioma 2: P() = 1 Axioma 3: Se A e B so dois eventos disjuntos, isto , A B= , ento: P(A B)= P(A)+ P(B) Em geral: Se A1, A2, A3, ..., so eventos disjuntos de , tal que Ai Aj = , para todo ij, ento: P(A1 A2... An)= P(A1) + P(A2)+...P(An) Exemplo: experimento lanar uma moeda x Cara Coroa P : 0 p 1-p 1 P(x) p 1-p
Cara Coroa
=
10 0 1 P: probabilidade
f ( x) =
1 2 e 1/ 2[( x )/ ] 2
P(4 x 6) = f ( x )dx
4
59
No exemplo das notas: 0 x 10 ; =7 e =1 Em geral: - x + ; - + e 0 Propriedades: Propriedade 1: 0 P 1 Propriedade 2: P() = 0 Propriedade 3: P(Ac)= 1 - P(A) Propriedade 4: Se A est contido em B, ento P(A) P (B) Propriedade 5: P(A B) P(A) + P(B) e isto devido a: P(A B) = P(A) + P(B) P(A B) Vejamos atravs de um exemplo como se atribui probabilidades aos eventos. No experimento lanar uma moeda, suponha que temos quatro funes P1, P2, P3, e P4, tais que: Evento Cara Coroa Total P1 1 P2 1 P3 0 1 1 P4 1/3 7/12
Observamos que com exceo de P4, as trs primeiras funes so de probabilidade, pois cumprem com os axiomas. Agora a pergunta : qual das trs funes devemos escolher para atribuir probabilidade aos eventos? Isto depende do experimento, se a moeda no for viciada, P1 a funo mais apropriada. Se ambos lados da moeda forem cara, ento P3 a mais adequada. Se suspeitamos que a moeda est carregada para sair coroa, talvez P2 seja a funo mais adequada para representar o experimento, em todo caso devemos recorrer a freqncia relativa para estimar os valores. 4.2.4 Probabilidade condicional A probabilidade condicional de um evento A dado a ocorrncia do evento B definida por: P(A B) P(B)
P(A / B) =
onde P(B) 0
A B
Logo, a probabilidade da interseo de dois eventos, pode ser obtido multiplicando as probabilidades, conhecido como a regra da multiplicao:
Apostila de Estatstica Prof Irene Mauricio Cazorla
60
A= { pelo menos uma face nmero par: todos os pares sombreados} P(A)=27/36 B= {as duas faces tem o mesmo valor: (1,1), (2,2), (3,3), (4,4), (5,5), (6,6)} P(B)=6/36
P(AB)=3/36 P(A B) 3 / 36 = = 3 / 6 = 0,5 P(B) 6 / 36 AB ={(2,2),(4,4),(6,6)}
P(A / B) =
Estas probabilidades so muito utilizadas na rea de medicina, principalmente para avaliar a qualidade dos testes utilizados para diagnosticar doenas e situaes clnicas, vejamos um exemplo: Diagnstico Grvida Sim Positivo P[grvida positivo] Negativo P[grvida negativo] =P[falso negativo] No P[nogrvida positivo] P[nogrvida positivo] =P[falso positivo] Probabilidade Marginal P[positivo] P[Negativo] 1,00 P[No grvida] Probabilidade marginal P[Grvida]
Aqui estamos trabalhando com duas variveis: gravidez e diagnstico. As probabilidades isoladas de cada varivel so conhecidas como probabilidades marginais, e isto porque so calculadas margem da outra varivel; j as probabilidades das intersees so conhecidas como probabilidades conjuntas, pois so calculadas atravs da ocorrncia das duas variveis simultaneamente. Neste tipo de anlise estamos interessados nas seguintes probabilidades: =P[falso negativo], que a probabilidade do teste no detectar a gravidez, quando a mulher est grvida (erro de diagnstico) =P[falso positivo], que a probabilidade do teste detectar a gravidez, quando a mulher no est grvida (erro de diagnstico)
61
Especificidade de um teste a probabilidade que o resultado do teste d negativo dado que a mulher no est grvida = P(-/N) Sensibilidade de um teste a probabilidade que o resultado do teste d positivo dado que a mulher est grvida = P(+/G) A qualidade do teste so medidos por esses indicadores. Usando o diagrama da rvore para ilustrar melhor as probabilidades Sensibilidade do teste P(+/G) Grvida P(G) P(N) No grvida P(-/N) especificidade do teste Suponha que 300 mulheres, que suspeitavam que estavam grvidas, fizeram o teste para diagnosticar a gravidez, com os seguintes resultados: Diagnstico Grvida Sim No Total Positivo 216 18 234 Negativo 24 42 66 Total 240 60 300 probabilidades marginais P(G) =240/300=0,80 P(N) = 60/300=0,20 P(+) = 234/300=0,78 P(-) = 66/300=0,22 Negativo P(N -) P(-/G) P(+/N) Negativo Positivo P(G -)==P[falso negativo] P(N +)==P[falso positivo] Positivo P(G +)
Probabilidades conjuntas P(G+) =216/300=0,72 P(G -) = 24/300=0,08 P(N+) = 18/300=0,06 P(N -) = 42/300=0,14
62
Probabilidades condicionais Sensibilidade Especificidade P(+ / G) = P(G +) 216 / 300 216 = = = 0,9 P(G) 240 / 300 240 P(N -) 42 / 300 42 = = = 0,7 P(N) 60 / 300 60
P(- / N) =
Usando o diagrama da rvore: P(+/G) 0,9 G P(G)=0,8 0,1 P(-/G) + P(G +)=0,8*0,9=0,72
P(G -)=0,8*0,1=0,08
P(N)=0,2 N
+ P(N +)=0,2*0,3=0,06
P(N -)=0,2*0,7=0,14
Probabilidade Total P(+)=P(G +) + P(N +) = 0,72 + 0,06 = 0,78 P(-)=P(G -) + P(N -) = 0,08 + 0,14 = 0,22 Teorema de Bayes Dado que voc recebeu o laudo do teste e o resultado positivo, qual a probabilidade de que o laudo esteja errado: P(G / +) = P(G +) 0,72 = = 0,9231 P(+) 0,78 P(N -) 0,14 = = 0,6364 P(-) 0,22
P(N / -) =
4.2.5 Independncia de eventos Dois eventos A e B so independentes se a ocorrncia de um deles no interfere no ocorrncia do outro: P(A/B)=P(A) P(A)de =Estatstica Apostila P(B) Prof Irene Mauricio Cazorla P(A B) P(AB)=P(A)*P(B)
63
P(A / B) =
P(A B) P(B)
Logo, dois eventos so independentes se a probabilidade da interseo igual ao produto de suas probabilidades isoladas, ou ainda, se a probabilidade conjunta produto das probabilidades marginais. No exemplo do diagnstico da gravidez: P(G +)= 0,72 P(G)=0,80 e P(+)=0,78 P(G)*P(+)=0,80*0,78=0,624 portanto so eventos dependentes. Logo P(G +) P(G)*P(+)
O conceito de independncia crucial na anlise estatstica, principalmente na escolha das amostras. Vejamos um exemplo atrelado a seleo de uma amostra. Suponha que desejamos estimar a proporo de homens e a idade mdia dos alunos da disciplina de Estatstica, composto por 11 alunos (N=11), dos quais dois so homens. Suponha que para estimar esses parmetros selecionamos uma amostra de tamanho trs (n=3). 4.2.6 Amostragem sem reposio Quando a populao finita, a amostragem sem reposio gera dependncia entre os elementos que compem a amostra. Vejamos como varia a populao a cada sorteio:
1 sorteio N=11
2 sorteio N=10
3 sorteio N=9
eeeee eeeed
M H
eeeeed eeeed
M H
64
eeeed eeeed
M
eeeed eee d
Sejam os eventos: H1={o aluno selecionado no primeiro sorteio de sexo masculino} M1={o aluno selecionado no primeiro sorteio de sexo feminino} H2={o aluno selecionado no segundo sorteio de sexo masculino} M2={o aluno selecionado no segundo sorteio de sexo feminino} H3={o aluno selecionado no terceiro sorteio de sexo masculino} M3={o aluno selecionado no terceiro sorteio de sexo feminino} P(H1) = 2/11 P(M1)= 9/11 P (H2 /H1 )=1/10 P (M2 /M1 )=8/10 P(H3 /H1H2)=0 P(M3 /M1M2)=7/9
P(H1H2H3 ) =P(H1) *P(H2 /H1 )* P(H3 / H1H2) = (2/11)*(1/10)*(0/9) = 0 P(M1M2M3 )=P(M1)*P(M2 /M1)* P(M3 /M1M2)= (9/11)*(8/10)*(7/9) = 504/990 Assim por diante... 1 sorteio (N=11) 2 sorteio (N=10) 1/10 2/11 H1 9/10 M2 H2 3 sorteio (N=9) 0 1 1/9 8/9 1/9 2/10 9/11 M1 8/10 M2 H2 8/9 2/9 7/9 H3 M3 H3 M3 H3 M3 H3 M3 Eventos H1H2H3 H1H2M3 H1M2H3 H1M2M3 M1H2H3 M1H2M3 M1M2H3 M1M2M3 Probabilidades 0/990 18/990 18/990 144/990 18/990 144/990 144/990 504/990
65
J na amostragem com reposio os eventos se tornam independentes: P(H1 ) = 2/11 P(H1) = P(H2) = P(H3) = 2/11
Ou seja, a probabilidade do aluno sorteado ser homem independe do sorteio e dos resultados anteriores. Logo podemos trabalhar apenas com os evento: H={o aluno selecionado de sexo masculino} M={o aluno selecionado de sexo feminino} P( H1H2H3 ) = P(HHH) = P(H) *P(H)* P(H) = (2/11)*(2/11)*(2/11) =(2/11)3 P(M1M2M3 ) = P(MMM)= P(M)*P(M)*P(M) = (9/11)*(9/11)*(9/11) =(9/11)3 E assim por diante... Em geral, se P(H)=p e P(M)=q, onde q=1-p, teremos a seguintes probabilidades: Eventos H1H2H3 H1H2M3 H1M2H3 H1M2M3 M1H2H3 M1H2M3 M1M2H3 M1M2M3 Sem reposio 0/990 18/990 18/990 144/990 18/990 144/990 144/990 504/990 Sem reposio (9/11) 0*(2/11)3 (9/11)1*(2/11)2 (9/11) 1*(2/11)2 (9/11)2*(2/11)1 (9/11)1*(2/11)2 (9/11)2*(2/11) 1 (9/11)2*(2/11) 1 (9/11)3*(2/11)0 Sem reposio em geral p3 qp2 qp2 q2 p qp2 q2 p q2 p q3
4.3 Varivel aleatria qualquer funo de nmero real, definida no espao amostral associado a um experimento aleatrio. Geralmente, quando o espao amostral formado por eventos que denotam qualidade, a varivel aleatria tem um papel importante, pois transforma os
66
eventos em nmeros, facilitando o tratamento matemtico destes. J quando o espao amostral contnuo, via de regra, a varivel aleatria a prpria identidade. 4.3.1 Varivel aleatria discreta No experimento escolher uma amostra de trs alunos da disciplina para estimar a proporo de homens, podemos definir a varivel aleatria X nmero de homens na amostra: Seja X: nmero de homens na amostra:
X:
HHH HHM HMH MHH HMM MHM MMH MMM
0 1 2 3
P(X) 0 1
Funo de probabilidade de uma varivel aleatria (amostragem sem reposio) P(X) 0,5 p=2/11 0,4 0,3 0,2 0,1 0,0 0
X
p=
p=
1 2 3 0 1 2 3 0 1 2 X: nmero de homens na amostra (amostragem com reposio) X P(X) P(X) P(X) P(X)
67
0 1 2 3 Total
p q3 3q2p 3q p2 p3 1
4.3.1.1 Distribuio de Bernoulli Uma varivel aleatria X, que assume apenas dois valores 0 (fracasso) e 1 (sucesso) com a funo de probabilidade x P(x) Fracasso 0 1-p Sucesso 1 p Total 1
chamada de varivel aleatria de Bernoulli Neste caso: E(X)=p V(X)=p(1-p) 4.3.1.2 Distribuio Binomial Se repetirmos um ensaio de Bernoulli n vezes, ou obtemos uma amostra de tamanho n de uma distribuio de Bernoulli, sendo que as repeties so independentes, ou seja, o resultado de um ensaio no tm influncia nenhuma no resultado de qualquer outro ensaio, podemos definir a varivel aleatria nmero de sucessos; X: nmero de sucessos em n ensaios X ~ B(n , p)
Ento X tem uma distribuio binomial, com parmetros n e p, onde p a probabilidade de sucesso no ensaio de Bernoulli e cuja funo de probabilidade est dada por: n P(x) = p x (1 p) n x x onde x = {0, 1, . . . , n} E(X)=np V(X)=np(1-p) Esta distribuio muito importante para a formao do estimador da proporo populacional.
68
4.3.2 Varivel aleatria contnua Como vimos anteriormente, via de regra, uma varivel aleatria contnua aquela que descreve a prpria funo de probabilidade associada a varivel em estudo. No exemplo das notas na prova e dos valores na escala de atitudes frente a Matemtica, observamos que estas so duas variveis aleatrias, pois tem como domnio o espao amostral e como imagem a probabilidade. Toda varivel aleatria contnua precisa de uma funo de densidade de probabilidade, a partir da qual possvel calcular as probabilidades. A probabilidade para uma varivel aleatria contnua definida como a rea contida no intervalo desejado e a funo de densidade de probabilidade, logo no existe a probabilidade da varivel tomar exatamente um valor. Retomando o exemplo da pgina 58 X: notas na prova de Matemtica
=
10 0 1 P: probabilidade
4.3.2.1 Distribuio normal Se X tem uma distribuio normal de parmetros e , sua funo de densidade probabilidade definida assim:
1 2 f ( x) = e 1/ 2[( x )/ ] 2
Onde:
P(a x b) = f ( x )dx
a
Notao: X ~ N (, 2) - x + - + 0
f ( x )dx = 1
e f(x) 0 para todo x que pertence aos reais No exemplo das notas: 0 x 10 ; =7 e =1
69
A probabilidade de que umX: aluno aleatoriamente nota escolhido do aluno em Matemtica tenha notas entre 4 e 6, rea sombreada na Figura 16, calculada como a rea contida no intervalo [ 4 ; 6 ] e a funo de densidade de probabilidade. Esta rea calculada atravs de um processo de integrao, muito laborioso. Felizmente existe uma tabela pronta que pode ser usada para calcular todas as probabilidades desejadas e os pacotes estatsticos j fornecem os valores. Caractersticas da distribuio normal A distribuio normal simtrica E(X)= V(X)=2 Figura 17. Histograma de 5000 nmeros aleatrios gerados por uma distribuio normal de mdia 7 e desvio padro 1
10
4 -3
5 -2
6 -
8 -
9 -2
10 -3
68%
70
95% 99% A distribuio normal padro: Z ~N (0,1) A distribuio normal padro aquela cuja mdia zero e cuja varincia 1. Existe uma tabela contendo as probabilidades. A distribuio normal padro: Z ~N (0,1)
0,0 1,2 1,6 1,9 2,3 49010 44950 45053 47500 39973 40147
71
2,5 4,5 Ento: P(0<Z<1,96)=0,475 P(-1,96<Z,1,96)=0,95 P(Z<-1,96)=P(Z>1,96)=0,025 conhecido como 1- 49999 50000
49492 49506
P(Z<-1,96) + P(Z>1,96)=0,05
/2
1-
/2
1% 5% 10%
/2
2,58 1,96 1,64
Padronizao de uma varivel aleatria N(, 2) Toda varivel aleatria normal de mdia e varincia 2 pode ser transformada em uma distribuio normal de mdia zero e varincia igual a 1, usando a seguinte transformao:
72
4 X-7: -3
10
-2
-1
Neste caso no precisamos dividir pelo desvio padro que este igual a 1 X: valor na escala de atitude frente a matemtica X ~N(50, 102) 20 X-50: -30 (X-50)/10: -3 -2 -1 0 1 2 3 -20 -10 0 10 20 30 30 40 50 60 70 80
Mas a tabela nos d o valor da probabilidade entre 0 e 2 P(0<Z<2)=0,47725 Como a distribuio simtrica, logo o valor de metade da funo igual o , ento podemos calcular P(Z>2) pelo complemento P(Z>2)= 0,50000 P(0<Z<2) = 0,50000 0,47725 = 0,02275 37 Podemos interpretar este resultado da seguinte forma, apenas 2,3% dos alunos tem uma atitude superior a 70 pontos. 50 59
73
P(37<X<59)= padronizando 37: Z= (X)/ = (37-50)/10=-1,7 P (-1,7<Z<0)=P(0<Z<1,7)=0,45543 padronizando 59: Z= (X)/ = (59-50)/10= 0,9 P ( 0 <Z<0,9)=0,31594 P(37<X<59)= P (-1,7<Z<0) + P ( 0 <Z<0,9)=0,45543 + 0,31594 = 0,77137 Quadro 1. Distribuio Normal Padro (Prezado usurio, aqui dever ser inserida a Tabela da Distribuio Normal Padro, que pode ser encontrada em qualquer livro de Estatstica Bsica)
74
Quadro 2. Distribuio de qui-quadrado: 2 (Prezado usurio, aqui dever ser inserida a Tabela da Distribuio de Qui-quadrado (2), que pode ser encontrada em qualquer livro de Estatstica Bsica)
Quadro 3. Distribuio de Student (Prezado usurio, aqui dever ser inserida a Tabela da Distribuio de Student (t-student), que pode ser encontrada em qualquer livro de Estatstica Bsica)
75
Quadro 4. Distribuio F de Fisher-Snedecor (Prezado usurio, aqui dever ser inserida a Tabela da Distribuio F de Fisher-Snedecor, que pode ser encontrada em qualquer livro de Estatstica Bsica)
76
a) Estudando a normalidade das variveis O banco de dados RANDOM.SAV contem 1000 registros de nmeros aleatrios gerados por vrias distribuies: Nor01 Nor5010 Nor71 Chi1 Chi10 Chi30 F11 F110 F1010 t10 t30 B3001 B3005 P2 P15 Logist01 X ~ N (0,1) X ~ N (50,100) X ~ N (7,1) X~21 X~210 X~230 X~F1,1 X~F1,10 X~F10,10 X~t10 X~t30 X~B(30, 0.1) X~B(30, 0.5) X~P(2) X~P(15) X~Lg(0,1) Normal Chi-quadrado F de Snedecor t-student Binomial Poisson Log-normal
O banco de dados RANDOM1.SAV contem 300 registros de nmeros aleatrios gerados por vrias distribuies: Nor5010 Uni2080 Bin10005 Bin10003 Bin10007 Bin100005 X ~ N (50,10) Normal X ~ U (20,80) Uniforme X ~ B (100, 0.5) X ~ B (100, 0.3) Binomial X ~ B (100, 0.7) X ~ B (100, 0.05)
Para estudar o grau de normalidade de uma varivel aleatria devemos testar hipteses, o que faremos posteriormente; por enquanto, vamos aprender a examinar o formato das variveis e os grficos que nos permitem avaliar de forma intuitiva se a varivel em questo pode ser modelada ou no por uma distribuio normal. Usando o comando EXPLORE para examinar os dados: Statistics Summarize Explore Escolha as variveis Plots escolha a opo para fazer os grficos Normality plots with tests Spread vs level with Levene test
77
1,00 2 3,00 2 16,00 3 36,00 3 38,00 4 59,00 4 54,00 5 47,00 5 27,00 6 12,00 6 4,00 7 2,00 7 1,00 Extremes Stem width: Each leaf:
10,00000 1 case(s)
frequncia
120
100
80
60
40
20 0 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5 67,5 72,5 77,5
NOR5010
Figura 18. Histograma e funo de densidade de probabilidade de 300 nmeros aleatrios gerados de uma distribuio N(50;100) Estes dados simulam a distribuio dos valores na escala de atitudes. Observe como, apesar desta amostra vir de uma distribuio normal, ela no perfeitamente normal.
78
b) Teste de normalidade Desde que a distribuio normal muito importante na inferncia estatstica, frequentemente devemos examinar a suposio de que nossos dados vem de uma distribuio normal. Uma forma de fazer isto atravs do grfico da probabilidade Normal - Normal Probability Plot-. Neste grfico, cada valor observado emparelhado com seu respectivo valor esperado, sob a suposio de normalidade. O valor esperado de uma distribuio normal est baseado no nmero de casos na amostra e na ordem (crescente) que ocupa na amostra. Se a amostra vem de uma distribuio normal esperamos que os pontos caiam na linha reta. A Figura 19 mostra a qualidade do ajuste do desempenho da amostra de 300 nmeros aleatrios gerados por uma distribuio normal com mdia 50 e desvio padro 10, simulando o comportamento da escala de atitudes.
-1
-2 -3 20
30
40
50
60
70
80
90
Observed Value
Figura 19. Normal Probability Plot de uma distribuio normal na abscissa coloca-se o valor observado da amostra, cuja mdia : 49,9015 e desvio padro 10,0657 (apesar de vir de uma simulao de mdia 50 e desvio padro 10). abscissa 20 ordenada -3 -2 -1 0 1 2 3 30 40 50 60 70 80
valor esperado Z = ( X - 49.9015) / 10,0657 Estes pares formam a linha reta, os pontos so calculados da seguinte maneira:
79
P (X 30 ) = 7 / 300 = 0,0233333 ==> 0,5 - 0,0233333 = 0,4777777777 na tabela normal o valor mais prximo 0,47670 ==> que da um valor de Z padronizado observado de -1,99 P (X 40 ) = 64 / 300 = 0,2133333 ==> 0,5 - 0,2133333 = 0,2866666 na tabela normal o valor mais prximo 0,28524 ==> que da um valor de Z padronizado observado de -0,79 e assim por diante... Outra forma de checar graficamente a normalidade dos dados graficar o valor observado versus a diferena entre o valor observado e o valor esperado: Detrended Normal Plot. Neste grfico, os pontos devem ficar em torno do valor zero, sem nenhuma tendncia.
,2
,1
0,0
-,1
-,2 20
30
40
50
60
70
80
90
Observed Value
Figura 20. Detrended Normal Plot de uma distribuio normal Embora os grficos anteriores mostrem visualmente o comportamento da varivel em relao a curva normal recomendvel fazer testes de normalidade. Os testes mais utilizado so o Lilliefors test, baseado no teste de Kolmogorov-Smirnov e o teste ShapiroWilks test, ambos testes sero apresentados no captulo de teste de hipteses. Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados: Hiptese nula Statistic K-S (Lilliefors) 0,0320 Ho: X~Normal Aceita-se Ho Significance (p-value ou p-valor) > ,2000
80
Enquanto no apresentamos a lgica do teste de hiptese, a leitura do resultado de qualquer teste de hiptese, pode ser feita comparando o p-valor com o nvel de significncia (alfa), escolhido por voc (pesquisador), via de regra, trabalha-se com =5%, 10% ou 1%. Para aceitar a hiptese nula, o p-valor tem que ser maior que o nvel de significncia, caso contrrio rejeita-se Ho. Regra de deciso: maior p-valor menor 4.3.2.2 Distribuio Uniforme Uma varivel aleatria segue uma distribuio uniforme, de parmetros a e b, se sua funo de densidade de probabilidades esta dada por: X~U[a;b] se 1 ba Para a x b e 0 para qualquer outro valor alfa Rejeita-se Ho alfa Aceita-se Ho
f ( x) =
1 dx ba
Podemos supor que o valor das atitudes das crianas frente a Matemtica seguem uma distribuio uniforme de parmetros 20 e 80, o que significaria que a mdia seria 50 e o desvio padro 17,321. Essa suposio significaria que haveria alunos com atitudes tendendo ao positivo, ao negativo e neutros, quase que com a mesma proporo. Este modelo no parece ser apropriado para os nossos dados. Mas, com fins ilustrativos, apliquemos o teste de normalidade, a 300 dados gerados por uma distribuio uniforme entre 20 e 80.
81
30
20
10
0 20,0 25,0 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 75,0 80,0
UNI2080
Figura 21. Histograma de 300 nmeros aleatrios gerados de uma distribuio uniforme de parmetros 20 e 80
-1
-2
Quando a amostra vem de uma populao uniforme, suas caudas so muito pesadas, logo, -3 dificilmente, passar pelo teste de normalidade. Observe como os valores, principalmente -20 0 20 40 60 80 100 das caudas se afastam da reta.
Observed Value
82
,5
0,0
-,5
-1,0 -1,5 10
20
30
40
50
60
70
80
90
Observed Value
Figura 23. Detrended Normal Plot de uma distribuio uniforme Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados: Hiptese nula Ho: X~Normal Rejeita-se Ho Statistic graus de liberdade K-S (Lilliefors) 0,0896 300 Significance 0,0000
Ou seja, conclumos que dificilmente uma amostra aleatria proveniente de uma distribuio uniforme se ajustar a uma distribuio normal. Testando a normalidade de dados gerados aleatoriamente a partir de outras distribuies de probabilidades. Resultado do teste de K-S (Lilliefors) para avaliar a normalidade dos dados das outras variveis do banco de dados RANDOM1.SAV: Hiptese nula Variveis
Binomial (100;0,5) Binomial (100;0,3) Binomial (100;0,7) Binomial (100;0,05)
Statistic
0,0682 0.0714 0,0595 0,1689
Normal?
No No No No
83
Testando a normalidade das notas dos alunos de 5 srie das trs escolas, tanto de forma isolada, quanto de forma conjunta (pgina 27, EXPLORA2. SAV) Para anlise geral Statistics Explore Selecionar a varivel Plots Normality plots with test Spread vs level with Levene Test Para analisar o desempenho por escola Data Split file Repeat analysis for each group Selecionar a varivel desejada e colocar em: Group based on Repita o procedimento anterior Resultado para as notas das trs escolas: Hiptese nula Teste K-S Lilliefors Variveis
Geral Escola 1 Escola 2 Escola 3
Ho: X~Normal
Statistic
0,1220 0,0976 0,1338 0,0960
Significance
0,0018 > 0,2000 > 0,2000 > 0,2000
Deciso
Rejeita-se Aceita-se Aceita-se Aceita-se
Normal?
No Sim Sim Sim
Observe como a deciso no unnime, depende do teste. Na realidade, observamos que dificilmente as notas das trs escolas juntas passariam pelo teste de normalidade e isso porque existe uma diferena ntida da escola 2 para as outras duas escolas, o que faz com que as notas das trs tenha uma distribuio bimodal, e, no caso da normal, alm de ser unimodal ela deve ser simtrica. Vejamos como se comportam os dados das trs escolas de forma isolada. Faa o teste e os grficos para cada escola, anote o resultado, depois tire os valores extremos e/ou outliers, veja o que acontece.
84
N o 0 r m a l -1
-2
-3 0 2 4 6 8 10 12
Observed Value
10
12
Observed Value
Figura 24. Anlise visual sobre a normalidade das notas das trs escolas Aguando a nossa percepo analisemos os dados dos valores da escala de atitudes dos 1530 alunos da escola de Paulnia (use o banco de dados FINAL.SAV e varivel soma)
85
300
200
100
0 20,0 25,0 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 75,0 80,0
SOMA
Figura 25. Histograma das atitudes em relao a Matemtica de todos os alunos da escola de Paulinia Observe como a distribuio no simtrica, h uma maior concentrao na faixa dos 60s. O Normal Probability Plot infelizmente no muito ilustrativo, mas o grfico dos desvios mostra a influncia desta assimetria.
0,0
-,1
-,2
-,3
-,4 20
30
40
50
60
70
80
90
Observed Value
Observe como os desvios se concentram nos valores negativos e o impacto dos valores extremos.
86
Contudo, esses resultados chamam ateno uma vez que o senso comum nos diria que a varivel atitude segue uma distribuio normal. Logo, a questo : o que pode estar explicando essa assimetria? Na realidade, o que esta acontecendo a interferncia da varivel srie, uma vez que analisando os dados observamos que existe diferena significativa por srie, sendo que umas tendem a atitudes mais positivas do que outras. Por esta razo teramos que analisar o comportamento dentro de cada srie e se verificarmos que isto est acontecendo, ento devemos retirar a influncia desta varivel. Bem, isto fica como exerccio para voc. Use o Banco de dados FINAL.SAV. Figura 26. Box-Plot das atitudes frente a Matemtica por srie e gnero
S 90 O M A 80
70
596
810
60
50
40
30
120 416 441
Sexo
Masculino
20
10
N= 49 47 91 77 97 94 84 94 103 126 157 199 82 111
87
4.4 Distribuies amostrais Como vimos na aula anterior, a maioria das variveis estudadas de uma populao se constituem em variveis aleatrias, ou seja, no conseguimos determinar apriori a ocorrncia de um resultado determinado, apenas podemos calcular a probabilidade de que ele ocorra. Alm disso, via de regra, estudamos uma populao atravs de uma amostra, cujos resultados sero utilizados para estimar valores populacionais, num processo chamado de inferncia estatstica.
As estatsticas geram
Estatsticas ou estimadores: X, s, p
Figura 27. Esquema do processo de inferncia estatstica6 Ilustremos este processo tomando como exemplo a varivel nota dos alunos na prova de Matemtica. Podemos supor que a nota dos alunos segue uma distribuio normal com mdia e desvio padro , ou, simplesmente, que ela possui uma distribuio desconhecida.
Adaptado da Figura 6.1 do livro Statistical Methods in the Biological and Health Sciences de J. S. Milton, pag. 173
6
88
Tanto a mdia populacional () como o desvio padro populacional () denominados de parmetros populacionais so desconhecidos, cujos valores desejamos estimar atravs dos dados da amostra: Parmetro uma medida usada para descrever uma caracterstica da populao Estatstica ou estimador uma caracterstica da amostra, ou seja, uma funo dos valores da amostra, por exemplo, a mdia amostral, a proporo amostral, a varincia amostral, etc. Estimativa o valor que toma a estatstica em uma amostra determinada 4.4.1 Distribuio da mdia amostral Para simplificar o exemplo, suponha que os 40 alunos da escola 1 formam a populao a ser estudada (pgina 27, dados contidos no banco de dados EXPLORA1.SAV). Se isso fosse verdade a mdia populacional seria igual a 4,2 (=4,2) com um desvio padro de 1,45 (=1,45). Suponha, tambm, que voc vai escolher uma amostra de duas crianas (tamanho da amostra n=2). Se fosse amostragem sem reposio teramos 780 possveis amostras de tamanho dois, este nmero calculado com combinaes de 40 tomados de dois em dois. Calculemos as mdias de tamanho 2, supondo que uma das crianas escolhidas foi a primeira ( ver Tabela 7). Esse processo tem que ser repetido para cada criana. Observamos ento que a mdia amostral uma varivel aleatria.
d10 e4 d7 d6 e5
.
e e
. . .
X = 4 ,5
d d
X = 8,5
89
Aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
varivel X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29 X30 X31 X32 X33 X34 X35 X36 X37 X38 X39 X40
Valor 5,00 2,30 5,50 5,60 7,00 6,70 5,50 4,00 2,60 2,40 3,30 8,80 4,50 5,30 2,30 4,90 4,50 5,60 3,30 5,30 3,90 4,10 3,80 3,70 2,80 1,20 3,10 3,20 4,10 5,50 4,90 4,70 3,80 4,40 4,10 2,30 4,10 2,90 3,80 4,20
X1 5,00
Xi 2,30 5,50 5,60 7,00 6,70 5,50 4,00 2,60 2,40 3,30 8,80 4,50 5,30 2,30 4,90 4,50 5,60 3,30 5,30 3,90 4,10 3,80 3,70 2,80 1,20 3,10 3,20 4,10 5,50 4,90 4,70 3,80 4,40 4,10 2,30 4,10 2,90 3,80 4,20
Mdia
3,65 5,25 5,30 6,50 5,85 5,25 4,50 3,80 3,70 4,15 6,9 4,75 5,15 3,65 4,95 4,75 5,30 4,15 5,15 4,45 4,55 4,40 4,35 3,90 3,10 4,05 4,10 4,55 5,25 4,95 4,85 4,40 4,70 4,55 3,65 4,55 3,95 4,40 4,60
Observe que a maioria das notas se concentram em torno da mdia verdadeira. Os valores extremos ocorrem, mas com menor probabilidade.
90
Assim poderamos construir o histograma, tanto da varivel original, como para a mdia amostral:
14
12
10
ESCOLA1
14
12
10
MEDIA
Figura 29. Distribuio das notas da amostra de tamanho 2 (fixando o primeiro aluno)
Observe como enquanto a varivel original toma valores de 1 a 9, a mdia amostral toma valores de 3 a 7, que ambos tem a mdia muito prximas, mas que o desvio padro da mdia amostral cai de 1,45 para 0,7.
91
A diminuio da variabilidade da distribuio da mdia amostral no acontece por acaso, pois fcil mostrar que: X = Xi / n
i=1 n
E(X)=
2 V(X) = n
Isso implica que a medida que o tamanho da amostra tende ao tamanho da populao a varincia da mdia amostral tende para zero. No caso extremo quando amostramos a populao inteira, no existe variao. Logo, o desvio padro da mdia amostral igual ao desvio padro da populao dividido pela raiz quadrada do tamanho da populao, chamado de erro padro: n Para populaes finitas ou amostragem sem reposio N n n N 1
Erro _ padrao = x =
x =
Quando a populao segue uma distribuio normal, ento, a mdia amostral segue exatamente uma distribuio normal com a mesma mdia e com a varincia dividida pelo tamanho da amostra. Se X ~ N (, 2) X ~ N (, 2/n) X ~ N (0,1) n
Logo, podemos calcular probabilidades e valores muitos teis para construo dos intervalos de confiana e teste de hipteses.
Mas, o que acontece se a populao segue uma distribuio uniforme, exponencial, binomial, Poisson, ou simplesmente desconhecida? Se X ~ ? (, 2) 4.4.2 O Teorema Central do Limite Neste caso, apelamos para o Teorema Central do Limite, que garante que a distribuio da mdia amostral tende para uma distribuio normal, a medida que o tamanho da amostra tende para infinito, ou no jargo estatstico, quando o tamanho da amostra for suficientemente grande (n 30): Se X ~ ? (, 2) ento lim X ~ N (, 2/n) n X ~ N (0,1) n
Apostila de Estatstica Prof Irene Mauricio Cazorla
X ~ N (, 2/n) ?
92
A convergncia para normalidade ser mais rpida se a distribuio dos dados for simtrica, j quando a distribuio for muito assimtrica ou bimodal, a convergncia ser mais lenta. Figura 30. Histogramas correspondentes distribuio amostral de algumas populaes7
93
Use o banco de dados RANDOM3.SAV para verificar como a distribuio da mdia amostral converge para mdia populacional e como o desvio padro tende para zero. Nor71 Normal de mdia 7 e desvio padro 1 Nor712 Normal de mdia 7 e erro padro 0,5 n=4 Nor7110 Normal de mdia 7 e erro padro 0,1 n = 100 Nor7130 Normal de mdia 7 e erro padro 0,0333 n = 900 4.4.3 Distribuio da frequncia e da proporo amostral Se a varivel aleatria tem apenas duas respostas: sucesso com probabilidade e fracasso com probabilidade (1-), como, por exemplo, se o eleitor votaria ou no no candidato XYZ, voc pode trabalhar com a frequncia de eleitores que votaro no candidato XYZ, que seguir uma distribuio binomial: X: nmero de eleitores que votaro no candidato XYZ E(X)=n V(X)=n (1-) Ou, p = X/n proporo amostral, que a mdia amostral de uma varivel que toma valores 0 e 1: E(p)= V( p)= (1-)/n X ~B (n, ), ento:
Obviamente, quando tende para , ou quando a amostra grande, a convergncia para a distribuio normal ser mais rpida. Observe que a convergncia para a normal frgil para amostras pequenas, por esta razo quando se trabalha com propores as amostras devem ser pelo menos de tamanho 30.
n2
Assim como a mdia amostral uma varivel aleatria, a varincia amostral tambm uma varivel aleatria:
s 2 ( x) =
( xi ) 2
i =1
(x
i =1
) 2
2
~ n2
Observe como o nmero de graus de liberdade coincide com o tamanho da amostra. Quando estimamos a mdia populacional pela mdia amostral perdemos um (1) grau de liberdade:
Apostila de Estatstica Prof Irene Mauricio Cazorla
94
(x
i =1
x) 2
2
ou
~ n21
(n 1) * s 2 ~ n21 2
Onde s2 a varincia amostral corrigida, ou seja, dividida por n-1. Esta distribuio muito til para construir intervalos de confiana para estimar a varincia populacional, bem como para testar hipteses. Como a distribuio qui-quadrado nasce do quadrado de uma distribuio normal, ela toma somente valores positivos, onde: Se X ~ Ento: E(X) = n V(X) = 2n (igual ao nmero de graus de liberdade)
n2
O grau de assimetria desta distribuio est atrelado a nmero de graus de liberdade quanto menor, mais assimtrica, a medida que os graus de liberdade aumenta, ela vai se tornando simtrica. Como a distribuio assimtrica, deve-se ter cuidado na leitura da tabela (Quadro 2, pgina 74). Construa o histograma para as variveis Chi1, Chi10, Chi30 do banco de dados RANDOM1.SAV 4.4.5 Distribuio t-student J vimos que quando retiramos uma amostra de tamanho n de uma populao normal ento: X ~ N (0,1) n Mas o que acontece se a varincia populacional for desconhecida? Neste caso, estimamos a varincia populacional com a varincia amostral e assim chegamos a uma distribuio tstudent, como o cociente entre uma distribuio normal e a raiz de uma distribuio quiquadrado. Observe que estamos partindo do pressuposto de que a distribuio de origem normal. Logo:
X ~ t n1 s n
Ou seja, segue uma distribuio t-student com n-1 graus de liberdade, onde n o tamanho da amostra, e se perde um grau ao estimar a mdia populacional pela amostral.
95
A distribuio t-tudent simtrica cuja mdia zero. Ela parecida com a distribuio normal, com a diferena que as caudas so mais pesadas, o que a torna mais rigorosa nos testes de hipteses, quando a varincia deve ser estimada a partir de dados amostrais. Por fim, observa-se que quando o tamanho da amostra cresce a t-student tende a uma normal. Para n maior ou igual a 30 podemos usar a distribuio normal. Por essas razes a t-student conhecida como a distribuio das pequenas amostras. Use o banco de dados RANDOM1.SAV para checar o desempenho desta varivel. A leitura da tabela simples, deve-se lembrar que ela simtrica e que depende do nmero de graus de liberdade. A tabela se encontra no Quadro 3, da pgina 74. 4.4.6 Distribuio F de Fisher-Snedecor Fn.m Suponhamos que duas amostras independentes sejam retiradas de populaes normais e forneam varincias amostrais s21 e s22 e que desejamos conhecer a distribuio amostral do quociente. Isto possvel atravs da distribuio F. Fn , m
2 n /n = 2 m / m
Ou seja, a distribuio F nasce do quociente de duas distribuies qui-quadrado, cada uma dividida pelo seu grau de liberdade. Esta distribuio muito importante para testar hipteses sobre a igualdade de varincias e posteriormente para a anlise de varincia ANOVA. Como a distribuio F resultante do quociente de duas variveis que somente tomam valores positivos, ela, tambm, toma valores positivos. O grau de assimetria diminui a medida que o nmero de graus de liberdade aumenta, o que est atrelado ao tamanho da amostra. Como a distribuio F depende de dois parmetros, via de regra, as tabelas so limitadas para =5%, s vezes encontramos tabelas para =10% e para =1%. No nosso caso trabalharemos apenas com a tabela para 5%, que se encontra no Quadro 4, pgina 75. Use o banco de dados RANDOM1.SAV e cheque o comportamento desta varivel. Observa-se que a maioria dos softwares estatsticos calculam o p-valor, ou seja, a probabilidade de que a distribuio exceda o valor calculado pela estatstica, restando apenas comparar esse valor com o nvel de significncia desejado, ou seja, no precisamos ler tabelas. Finalmente, frisamos o pressuposto de normalidade subjacente nas distribuies chiquadrado, t-student e F de Snedecor. Por esta razo, quando trabalhamos com estas distribuies, antes devemos checar a normalidade dos dados ou ter amostras suficientemente grandes que no comprometam a estatstica.
96
V. INFERNCIA ESTATSTICA
5.1 Introduo At agora preparamos o caminho para poder entrar nos problemas da inferncia estatstica. Vimos as diversas tcnicas da anlise exploratria de dados, as tcnicas de amostragem e a teoria de probabilidades, cada uma dessas reas constituem o trip da inferncia estatstica.
Amostragem
Estatstica Descritiva
Clculo de Probabilidades
Inferncia Estatstica
Figura 31. Esquema geral de um curso de estatstica8 Vimos, tambm, esse processo na Figura 27 da pgina 87. Agora, estamos prontos para entrar na parte fundamental da estatstica, que a tomada de decises em condies de incerteza. A inferncia estatstica se divide em duas grandes reas: Pontual Estimao Inferncia Estatstica Teste de Hipteses Por intervalo
97
5.2 Estimao de parmetros Voltemos ao exemplo da 5 srie da escola 1, pgina 88. Ali vimos como a mdia amostral uma varivel aleatria: X: nota dos alunos da 5 srie da escola 1, tomando uma amostra de tamanho 2 Se X ~ N (4,2; 1,452) X ~N (4,2; 1,452/2) n=2
Ou pelo Teorema Central do Limite (embora o tamanho seja pequeno) X ~? (4,2; 1,452) X ~N (4,2; 1,452/2)
Acontece que quando vamos ao campo escolhemos apenas uma nica amostra das 780 possveis deste caso. No caso extremo, podemos escolher uma amostra composta pelos alunos nmero 5 e nmero 12 (pgina 89), que possuem as maiores notas, neste caso a mdia amostral tomar o maior valor 7,9, este valor chamado de estimativa: X5=7,0 e X12=8,8 X = 7,9 consequentemente, super - estimaramos a mdia, s que a probabilidade de isto acontecer extremamente pequena 2/780
O mesmo acontecer se na amostra forem selecionados o aluno 26, cuja nota 1,2 , a mais baixa de todos os alunos, e como parceiros os alunos 2 ou 15 ou 36 cujas notas so 2,3 X26=1,2 e X2=2,3 X = 1,75 consequentemente, sub - estimaramos a mdia S que a probabilidade de isto acontecer pequena, no to pequena quanto o caso anterior, pois temos trs alunos com notas 2,3 6/780
O mais provvel de acontecer, dado que a maioria dos alunos est perto da mdia, que a mdia amostral, tambm, fique prxima da verdadeira mdia. Podemos calcular todas essas probabilidades, uma vez que podemos aproximar a distribuio da mdia amostral para a distribuio normal. 5.2.1 Estimao pontual Quando utilizamos um nico dado da amostra para estimar um parmetro populacional se diz que a estimao por ponto ou pontual. As estatsticas utilizadas para estimar os parmetros populacionais so chamados de estimadores:
98
Parmetro populacional Mdia populacional: Proporo populacional: Varincia populacional: 2 Desvio padro populacional:
Estimador Mdia amostral: Proporo amostral: Varincia amostral: s2 Desvio padro amostral: s Coef. correlao amostral: r
X P
E, os valores que os estimadores tomam em uma amostra determinada so chamados de estimativas. Propriedades dos estimadores: Seja T um estimador de um parmetro populacional : Propriedade 1: Justeza ou no-tendenciosidade Um estimador T dito no viciado ou no-viesado de se : E(T)= Propriedade 2: Eficincia Dois estimadores no viciados T e T de um mesmo parmetro , e V(T) < V(T) Ento, T dito ser mais eficiente que T Propriedade 3: Consistncia Um estimador T consistente se: Lim n P(|T -| ) = 0, para todo > 0
Isto significa que com amostras suficientemente grandes pode-se tornar o erro de estimao to pequeno quanto se queira. Por outro lado, se o estimador for justo, a condio de consistncia equivale a dizer que sua varincia tende a zero, quando n tende a infinito: Lim n 2(T ) = 0 Propriedade 4: Suficincia Um estimador chamado de suficiente se contm o mximo possvel de informao com referncia ao parmetro por ele estimado.
Apostila de Estatstica Prof Irene Mauricio Cazorla
99
Para estimar a mdia populacional, temos vrios estimadores. Comparemos apenas dois, a mdia amostral e a mediana (supondo o nmero de dados mpar, no muda se o nmero de dados for par):
Parmetro a ser estimado: Mdia populacional: Propriedades Mdia amostral: X Mediana(*)
Sim No
5.2.2 Estimao por intervalo ou intervalar O problema da estimao pontual, ou por ponto, que este procedimento no permite julgar qual a possvel magnitude do erro que estamos cometendo. Da surge a idia de construir intervalos de confiana que esto baseados na distribuio amostral do estimador pontual. 5.2.2.1 Intervalo de confiana para a mdia populacional Pelo Teorema Central do limite sabemos que : Z= X n
Ou seja, dado podemos encontrar valores Z/2 tal que a: P( - /2 < Z < /2) = 1-
100
/2
1
0 /2
/2
- /2
Podemos mostrar que: X - /2 */Vn < < X + /2 */Vn a probabilidade de pertencer ao intervalo [X - /2*/Vn; X + /2*/Vn] 1-, chamado de nvel de confiana 1- nvel de confiana (expresso em tanto por um) nvel de significncia ou margem de erro
Suponhamos que =5% 1- =95% isso significa que se construssemos 100 intervalos de confiana, esperaramos que 95 deles contenham o verdadeiro valor da mdia, ou seja, haveria uma margem de erro de 5%, o que significaria que devemos esperar que 5 dos 100 intervalos no contenham o verdadeiro valor. Voltemos ao exemplo dos alunos da escola 1, pgina 88. Contruamos alguns intervalos de confiana, para =5%, o que implica que /2 = 1,96, logo a formula geral ser: Supondo conhecido e igual a 1,45 e o tamanho da n=2 Limite inferior: X 1,96 *1,45/V2 Limite superior X + 1,96 *1,45/V2 X-2 X+2
Acontece que voc pega apenas uma nica amostra! Algum poderia perguntar como possvel estimar a mdia populacional supondo a varincia populacional conhecida? Em alguns casos possvel fazer esta suposio, principalmente, em casos onde se conhece a
101
distribuio da varivel em condies ambientais. Por exemplo, a distribuio da presso sangnea de pessoas normais (no doentes) conhecida, porm voc deseja conhecer o efeito de um medicamento sobre ela. Voc pode partir do pressuposto de que a nica mudana que este medicamento vai trazer o deslocamento da mdia, mas que o a ingesto do medicamento no vai alterar substancialmente a estrutura de variabilidade9. Neste caso, voc pode assumir que a varincia da presso depois de tomar o medicamento igual a varincia antes de tomar o medicamento. Esta suposio pode ser falsa, por essa razo quando testamos hipteses sobre igualdades de mdia, a primeira pergunta que devemos responder se a suposio de igualdade de varincias se sustenta, para o qual o SPSS usa o LEVENE TEST. Se a varincia for desconhecida, esta pode ser estimada pela varincia amostral. Se a amostra for grande (n>30) podemos utilizar a frmula anterior, apenas substituindo a varincia populacional pela varincia amostral. Limite inferior: X - /2 * s / Vn Limite superior: X + /2 * s / Vn onde s o desvio padro amostral, que pode ou no estar corrigido, j que se trata de grandes amostras
Porm se a amostra for pequena, ao invs de usar a distribuio normal devemos utilizar a distribuio t-student com n-1 graus de liberdade. Limite inferior: X - /2 * s / Vn Limite superior: X + /2 * s / Vn onde s o desvio padro amostral corrigido j que se trata de pequenas amostras Z= sim 2 conhecida no sim X~Normal
(*) dependendo da natureza da varivel pode ser que n precise ser
X n X s n X s n X n
t=
no n > 30 sim Z=
no sim
muito maior do que 30
Z=
102
5.2.2.2 Intervalo de confiana para a proporo Limite inferior: p - /2 * p(1-p) /n Limite superior p + /2 * p(1-p) /n s para n > 30
5.2.2.3 Intervalo de confiana para a varincia: 2 Limite inferior: (n-1)*S2//2 Limite superior: (n-1)*S2/1/2
120
Observamos que para pequenas amostras a varincia deve ser corrigida e que o numerador: (n-1)*S2 igual a soma dos quadrados dos desvios
100
80
60
/2
40
/2
20 0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0 22,0 24,0 26,0 28,0 30,0 Std. Dev = 4,64 Mean = 10,1 N = 1000,00
CHI10
1/2
/2
Vejamos alguns exemplos: Voltemos ao exemplo da nota e atitudes frente a Matemtica das crianas das trs escolas, pgina 27. Suponhamos que essas crianas correspondem a uma amostra de cada escola e que no conhecemos nenhum parmetro. A primeira questo a ser respondida ser se as variveis nota e atitude se distribuem segundo uma Normal. Podemos verificar que pelo teste de Lilliefors (pgina 83) que as notas das trs escolas seguem uma distribuio normal:
103
Ramo (unidade)
1 2 3 4 5 6 7 8 9 10
Escola 1
2 3334689 123378889 011112455799 03355566 7 0 8
Escola 2
Escola 3
Geral
2 3333334689 012333378889 011112344555555678999 03333455555556667 12223557 00377888 356778899 2449 00
Limite superior 4,68 8,90 5,37 Obs: O SPSS sempre fornece a varincia e o desvio padro j corrigidos
O SPSS calcula o intervalo de confiana, quando solicitamos comparao de mais de duas mdia, use o banco de dados EXPLORE2.SAV: Statistics Compare means One way ANOVA Dependent list nota e atitude Factor escola Define Range 1 a 3 ( nmero de escolas) Post Hoc Selecionar Tukeys honestly ... (para achar as diferenas entre os grupos)
SADA DO SPSS - - - - - - - - - -
- - -- - O N E W A Y - - - - - - - - - - - - - -
ANLISE DE VARINCIA - ANOVA: um critrio de classificao O que est sendo testado? Se a nota das trs escolas podem ser consideradas iguais: Hiptese nula: Ho: 1 = 2 = 3
Contra a possibilidade da existncia de pelo menos uma diferena Hiptese alternativa: H1: i j para algum i j
104
Variable NOTA By Variable ESCOLA Analysis of Variance Source Between Groups Within Groups Total D.F. 2 89 91 Sum of Squares 242,8353 180,0790 422,9143 Mean Squares 121,4176 2,0234 F Ratio 60,0079 F Prob. ,0000
p-valor
Standard Mean Deviation mdia desvio 4,2250 8,2043 4,9138 5,4370 1,4565 1,6199 1,1895 2,1558
Standard Error Minimum erro-pad mnimo ,2303 ,3378 ,2209 ,2248 1,2000 2,3000 2,3000 1,2000
95 Pct Conf Int for Mean lim.inferior lim.superior 3,7592 7,5039 4,4613 4,9905 TO TO TO TO 4,6908 8,9048 5,3662 5,8834
Levene Test for Homogeneity of Variances Statistic ,2565 df1 2 df2 89 2-tail Sig. ,774
Teste de homogeneidade de varincias Hiptese nula: Ho: 12 = 22 = 32 H alternativa: H1: i2 = j2 para algum i j
p-valor
The difference between two means is significant if MEAN(J)-MEAN(I) >= 1,0058 * RANGE * SQRT(1/N(I) + 1/N(J)) with the following value(s) for RANGE: 3,37 (*) Indicates significant differences which are shown in the lower triangle G G G r r r p p p 1 3 2 Mean 4,2250 4,9138 8,2043 ESCOLA Grp 1 Grp 3 Grp 2
* *
Estas sadas sero exploradas de forma detalhada na anlise de varincia, aqui apenas estamos mostrando o comando que calcula o intervalo de confiana para as mdias populacionais. Observe que os limites dos intervalos calculados por ns diferem ligeiramente daqueles que o SPSS calculou, isto se deve a dois fatores: o primeiro, que o SPSS usa sempre a distribuio t-student, independente do tamanho da amostra e, segundo, a preciso do clculo do SPSS maior uma vez que ele s arredonda no final das contas e no nos passos intermedirios.
105
Intervalos de Confiana para estimar a nota em Matemtica Escola 1 Escola 2 Escola 3 Geral X: nota na prova
10
Z / 2 * n
X+
Z / 2 * n
Z / 2 * n
erroabsoluto = =
A amplitude do intervalo depende de: Nvel de confiana: se aumentamos (ou diminumos) o nvel de confiana, o comprimento do intervalo tambm aumenta (ou diminui) Nvel de disperso: se a varivel for muito dispersa, o comprimento aumenta, se a varivel for homognea o comprimento diminui. Tamanho da amostra: se aumentamos o tamanho da amostra o comprimento diminui, mas se amostra for pequena o comprimento aumenta.
O ideal seria termos intervalos estreitos - precisos - com o maior nvel de confiana possvel, intervalos amplos no so de muita utilidade. Aqui entra um outro conceito que a preciso da estimativa. Uma estimativa mais precisa quanto menor comprimento do intervalo de confiana, ou dito de outra forma, quanto menor for o erro absoluto. Suponha que desejamos estimar a proporo de eleitores que votaro no candidato XYZ. De nada adiantar dizer que essa estimativa est entre 0% e 100%, o nosso objetivo ser dar intervalos de confiana, com alta preciso e com um bom nvel de confiana. Alis, o que estamos acostumados a ouvir na mdia , por exemplo, que o candidato XYZ tem 28% com uma margem de erro de mais ou menos 2%. O que significa isto? Que o intervalo de confiana de 26% a 30%, com um nvel de confiana de 95% (de praxe). Aproveitemos que estamos em pleno processo eleitoral para ler de forma mais crtica as reportagens sobre a corrida eleitoral, uma vez que a divulgao de um certo tipo de informao pode ter influncias decisivas no processo, principalmente quando est em jogo a deciso no primeiro turno e quem passa para o segundo.
106
Trabalho individual: recorte ou tire fotocpia de uma reportagem sobre a corrida eleitoral, onde haja uma nota tcnica sobre o planejamento e procedimento estatstico da pesquisa. Geralmente, a Folha de So Paulo tem essas informaes tcnicas (que devem estar anexas a reportagem, por lei), tea comentrios a luz das ferramentas que estamos trabalhando. Voltando a questo da preciso, ento a pergunta a ser feita , dado um nvel de confiana e um grau de preciso desejado, qual deve ser o tamanho da amostra? 5.3 Tamanho da amostra 5.3.1 Tamanho da amostra para estimar a mdia populacional: = Z / 2 * n Z / 2 * n=
2
Vejamos um exemplo. Qual deve ser o tamanho da amostra de crianas de cada escola, para estimar a nota, supondo que a estrutura de varincia a mesma para todas as escolas e igual a (1,2)2 e a margem de erro no supere ponto, com um nvel de confiana de 95%. = 5% = 0,5 = 1,2 Z/2 = 1, 96 a maioria arredonda para 2
Z / 2 * n=
Logo o tamanho da amostra deve ser de pelo menos 24 alunos por escola. 5.3.2 Tamanho da amostra para estimar a proporo populacional: Suponha, que voc deseja saber quantos eleitores devem ser entrevistados para estimar a proporo que votaro no candidato XYZ, com nvel de confiana de 95% e a margem de erro igual a 2%, sabendo que aproximadamente ele tem 20% do eleitorado.
2
Z / 2 n= * * (1 )
No pior dos casos, quando voc no sabe nada sobre , voc pode usar =0,5. Neste caso, o tamanho da amostra ser 2.500. Comente esses resultados. Agora voc entende porque a maioria dos institutos coletam amostras to pequenas, com relao ao universo de eleitores que beira 90 milhes de pessoas, ou seja, a frao de amostragem (f=n/N) irrisria.
107
6.1 A estatstica como ferramenta auxiliar na tomada de decises A maioria das situaes de tomada de decises ocorrem em situao de incerteza, porque baseada nos dados de uma amostra proveniente de uma populao. Nesses casos, a estatstica fornece um poderoso instrumento para a tomada de decises. Tentaremos, atravs de um exemplo, explorar a lgica desse tipo de tomada de deciso estatstica. Suponha que voc tem R$20.000,00 (vinte mil reais) na poupana e est pensando investir esse capital na construo e funcionamento de um posto de gasolina, em um ponto movimentado de So Paulo. Suponha, tambm, que para o posto ser rentvel (pagar o investimento inicial e dar um lucro maior do que a poupana), o nmero mdio () de veculos que passam por aquele ponto por dia (parmetro) deve ser maior a 2000 (hiptese estatstica, chamada de hiptese nula Ho). Este um problema clssico de teste de hipteses, pois voc decidir aceitar ou rejeitar a hiptese nula, em funo dos resultados de uma amostra. Isto porque seria impossvel examinar o nmero de veculos que passam todos os dias por aquele ponto (populao), alm da disponibilidade de recursos financeiros, entre outros. Ao pegarmos uma amostra de uma populao estamos lidando com leis de probabilidades, logo voc no tem condio de saber se sua hiptese nula verdadeira ou falsa, voc apenas pode medir as probabilidades envolvidas na sua tomada de deciso. No nosso exemplo, aceitar a hiptese nula, de que o nmero de veculos que passam pelo ponto maior de 2000, implicar em voc tirar o dinheiro da poupana e investir no posto de gasolina; mas, a hiptese nula pode ser falsa, e a, todo o empreendimento estar fadado ao fracasso, voc perder seu capital. O custo de uma deciso errada pode ser muito grande, em termos financeiros, de vidas humanas, etc. Vejamos como o quadro decisrio: Aceitar a hiptese nula (Ho) quando ela verdadeira uma deciso correta. No nosso exemplo significa construir o posto e realmente passam 2000 ou mais veculos por dia, logo o investimento ser rentvel, voc recuperar seu capital e ter um retorno financeiro acima do rendimento da caderneta de poupana. Rejeitar uma hiptese falsa, tambm, uma deciso correta, no caso, significa no construir o posto, deixar o dinheiro na poupana, uma vez que o posto no tinha chances de ser rentvel. Entretanto, existem dois tipos de erro ao tomarmos esse tipo de deciso. O primeiro erro rejeitar a hiptese nula (Ho) quando ela verdadeira, chamado de erro de tipo I; no nosso exemplo, significa deixar de construir o posto quando ele seria rentvel, neste caso, a perda no inclui valores fsicos financeiros, apenas o valor fictcio que se deixou de ganhar. O segundo erro aceitar a hiptese nula (Ho) quando ela falsa, chamado de erro de tipo II, no exemplo significa construir o posto, quando por aquele ponto passam menos do que 2000 veculos, o que implicaria a perda do capital.
108
Tabela 8. Quadro de deciso em condio de incerteza (Postura inovadora) Hiptese nula Ho passam mais de 2000 veculos por dia: Ho: > 2000 Hiptese (Ho) ser falsa Deciso Hiptese (Ho) ser verdadeira: Ho: > 2000 Ho: < 2000 (o posto ser rentvel) (o posto est fadado ao fracasso) Aceitar a hiptese Constri o posto e rentvel Constri o posto e ele no (construir o posto) rentvel. Perde o capital Erro de tipo II Deciso correta Beta () (1-) Rejeitar a hiptese (deixar o dinheiro na poupana) No constri o posto, porm seria No constri o posto e no era rentvel (deixa de lucrar) rentvel Erro de tipo I Deciso correta Alfa () (1-)
A teoria estatstica nos possibilita medir todas as probabilidades envolvidas na questo, logo podemos nos prevenir, controlando a probabilidade de cometer o erro mais grave. A probabilidade de cometer o erro de tipo I (rejeitar a hiptese nula Ho quando ela verdadeira) simbolizada por alfa (), tambm, conhecida como nvel de significncia. = nvel de significncia erro de tipo I
= P (Rejeitar Ho / Ho verdadeira) J a probabilidade de cometer o erro de tipo II (aceitar a hiptese nula Ho quando ela falsa) simbolizada por beta (), que est relacionado com o poder do teste. = P (Aceitar Ho / Ho falsa) erro de tipo II
Essas probabilidades, alfa e beta, se relacionam inversamente, quando diminumos alfa, beta cresce e vice-versa, e no d para controlar as duas simultaneamente, a menos que se aumente o tamanho da amostra, o que implica no aumento de custos operacionais e de tempo, o que pode inviabilizar a pesquisa (ver Figura 32). Todos os testes estatsticos foram delineados para controlar alfa () o nvel de significncia, sendo que beta () deixado livre. Por essa razo, a formulao da hiptese nula deve ser feita de tal forma que o erro mais grave recaia em alfa. No nosso exemplo analisando os dois tipos de erros, verificamos que o erro mais grave recai em beta. A pergunta : como devemos formular a hiptese nula Ho, de tal forma que o pior erro caia em alfa? Neste caso, s trocar a hiptese, negando a afirmao inicial. Vejamos o que acontece no quadro decisrio:
109
Tabela 9. Mudana no quadro decissrio ao mudar a hiptese (Postura conservadora) Hiptese nula Ho passam 2000 ou menos veculos por dia: Ho: < 2000 Hiptese (Ho) ser falsa Deciso Hiptese (Ho) ser verdadeira: Ho: < 2000 Ho: > 2000 (o posto est fadado ao fracasso) (o posto ser rentvel) Aceitar a hiptese No constri o posto e no era Deixa de construir o posto quando (deixar o dinheiro rentvel seria rentvel (deixa de lucrar) na poupana) Erro de tipo II Deciso correta Beta () (1-) Rejeitar a hiptese (construir o posto) Constri o posto e ele no rentvel (perde o capital) Erro de tipo I Alfa () Constri o posto e rentvel Deciso correta ( 1- )
Verificamos que ao negarmos a hiptese que desejamos testar asseguramos que o pior erro recaia em alfa, que controlado pelo pesquisador. Este tipo de formulao conhecida como postura conservadora. Ou seja, estamos mais propensos a deixar o dinheiro na poupana (ou deixar do jeito que est) do que investir no risco (mudar para o novo) e, arriscaremos, somente, quando houver evidncias da amostra muito fortes a favor do novo. Portanto, devemos ser cuidadosos na formulao de hipteses para saber qual o tipo de erro que estamos controlando. O nvel de significncia fixada pelo pesquisador. convencional trabalhar com alfa igual a 1%, 5% ou 10%, sendo que em alguns casos podemos usar nveis maiores. A escolha do nvel de significncia () estar de acordo com a margem de segurana e da gravidade das conseqncias de vir a ocorrer o erro de tipo I. A formulao de hipteses: Em todo processo de deciso estatstica, alm da hiptese nula Ho existe a hiptese alternativa H1. Todo o processo decisrio ser feito em funo de Ho, ou seja, aceitar ou rejeitar Ho. Logo, aceitaremos H1 s se a hiptese nula for rejeitada. conveno se colocar na Hiptese nula Ho o sinal de igualdade, embora, via de regra, a negao da hiptese alternativa. Observamos que a maioria dos testes j tem as hipteses formuladas. A hiptese nula Ho coloca-se com o expresso propsito de ser rejeitada, se for rejeitada, pode-se aceitar a hiptese alternativa (na postura conservadora a negao do que se quer provar). A hiptese alternativa H1 a definio operacional da hiptese de pesquisa, que a predio deduzida da teoria que est sendo testada (na postura conservadora a afirmao do novo, do que se quer mostrar).
110
Tabela 10. Os erros em funo da formulao das hipteses Postura conservadora Postura inovadora Hiptese nula Ho: = 2000 Ho: = 2000 Hiptese alternativa H1: > 2000 H1: < 2000 Erro de tipo I Construir o posto e o nmero No construir o posto e o nmero mdio inferior a 2000, logo mdio maior do que 2000, Alfa () perderemos o capital deixamos de lucrar Erro de tipo II No construir o posto e o nmero Construir o posto o nmero mdio maior do que 2000, mdio inferior a 2000, logo Beta () deixamos de lucrar perderemos o capital
A construo da regio crtica ou de rejeio: Uma vez decidida as hipteses nula e alternativa e o nvel de significncia, decide-se a estatstica a ser utilizada para operacionalizar a hiptese. Essa estatstica depende do parmetro que est sendo testado. No caso da mdia populacional a estatstica ser a mdia amostral, que segue uma distribuio normal, pelo Teorema Central do Limite. Com essas informaes se constri a regio crtica. A regio crtica ou de rejeio depende da hiptese alternativa e seu tamanho o mesmo do nvel de significncia, o complemento chamado de regio de aceitao. A localizao da regio crtica depende da hiptese alternativa (ver Figura 32). O processo decisrio A deciso de rejeitar ou aceitar a hiptese nula depende dos resultados da amostra. Calculada a estatstica apropriada s verificar em qual das duas regies ela cai. Se cair na regio de aceitao, aceitaremos a hiptese nula, caso contrrio, a rejeitaremos. Se a hiptese nula for rejeitada ento aceitaremos a hiptese alternativa. Observamos que todo processo decisrio feito com a hiptese nula, a deciso em relao hiptese alternativa mera conseqncia: maior p-valor10 menor Rejeita Ho Aceita H1 Aceita Ho
10
111
Figura 32. Regio de rejeio e de aceitao da hiptese nula e relao entre alfa e beta, no caso da postura conservadora RA: Regio de Aceitao RR: Regio Crtica ou de Rejeio Distribuio da mdia amostral, sob Ho verdadeira X ~ N (2.000, 2 n) RA=(1-) RR=
= 2000
RA
1-
RR X
X ~ N (2.500, 2 n)
= 2500
Regio de rejeio e de aceitao da hiptese nula Unilateral Cauda inferior H1: < 2000 RA RR RR /2 1 1 Bilateral Bicaudal H1: 2000 Unilateral Cauda superior H1: > 2000 RA RR /2 1 RR
RA
Operacionalizando a tomada de deciso A construo da estatstica da amostra depende do parmetro que est sendo testado, se for a mdia populacional, a estatstica estar baseada na distribuio da mdia amostral, se for a proporo populacional, a estatstica usar a proporo amostral e assim por diante.
112
6.2 Teste de hiptese para a mdia populacional Suponhamos que voc selecionou uma amostra de 30 dias, em meses diferentes (tendo cuidado de representar os dias da semana, bem como os finais de semana) e, que a mdia amostral seja 2050 veculos, com um desvio padro de 200. Como n=30 podemos fazer uso do Teorema Central do Limite (ver quadro, pgina 101), estimando o desvio padro populacional com o desvio padro da amostra, sob a hiptese nula: Em geral: No nosso exemplo: X ~ N ( o , S 2 n ) X ~ N (2.000; 200 30)
2
ou
Z=
X o s n
ou
Zamostra =
2050 2000 = 1,3693 200 30 Unilateral Cauda superior Ho: = 2000 H1: > 2000
Como Zamostra menor que Z, ento aceita-se Ho, ou seja, devemos deixar o dinheiro na poupana.
Em geral, a regra de deciso ser: Rejeita-se a hiptese nula Ho se: Cauda inferior H1: < o Bicaudal H1: o Cauda superior H1: > o
RR VC
RA
RR VC1
RA
RR VC2
RA
RR VC
VA < VC
11
VA > VC11
113
Este procedimento trabalhoso, pois voc tem que ter a tabela da distribuio da estatstica (normal, t-student, etc.), o que s se justifica se voc no tiver a mo um pacote estatstico. Para evitar o fato de ter que procurar os valores em tabelas, a maioria dos pacotes estatsticos fornece, alm do valor da estatstica da amostra, o p-valor (p-value ou significance), conhecido, tambm, como nvel de significncia observado ou da amostra. Este valor deve ser comparado com o nvel de significncia () escolhido pelo pesquisador, neste caso s comparar os dois valores. Se o p-valor for menor que alfa, rejeita-se a hiptese nula; caso contrrio, aceita-se ( ver pgina 110). Como calcular o p-valor: O p-valor a probabilidade que a estatstica supere o valor observado na amostra, maior se for da cauda superior, menor se for da cauda inferior, ou a probabilidade de rejeitar a hiptese nula quando ela verdadeira, com os valores daquela amostra. Se for cauda superior Ho: = 2000 H1: > 2000 Se for cauda inferior Ho: = 2000 H1: < 2000 Se for bicaudal Ho: = 2000 H1: 2000 p-valor = P( Z > Zamostra)
p-valor = P( Z > Zamostra) se Zamostra for + ou p-valor = P( Z < Zamostra) se Zamostra for
Este valor deve ser multiplicado por 2
ou 8,5%
Como essa probabilidade maior que =0,05 cai na regio de aceitao. Logo aceita-se Ho. Resumindo: passos para construo de um teste de hiptese: Passo No 1: Formular as hipteses nula e alternativa Passo No 2: Usando a teoria estatstica e as informaes disponveis decida qual estatstica (estimador) ser usada para julgar a hiptese Ho. No esquea dos pressupostos implcitos na construo desta estatstica Passo No 3: Fixar o nvel de significncia e construir a Regio Crtica Passo N 4: Calcular a estatstica da amostra Passo No 5: Tomar a deciso
114
6.2.1 Teste de hipteses para a mdia populacional: pequenas amostras O exemplo dos tomates Suponha que voc fiscal sanitarista da CEASA e que est inspecionando um carregamento de tomates. Segundo as normas, a quantidade tolerada pelo corpo humano de uma substncia txica e de at no mximo 10 unidades. Para decidir se voc deve liberar ou no o carregamento, seleciona uma amostra de tomates e com base nos dados, tomar a deciso. Analisemos o processo de formulao das hipteses, o nvel de significncia e a tomada deciso.
Conceitos Populao Amostra Varivel Parmetro Estimador Estimativa Notao Definio Est formado por todos os tomates do carregamento Os tomates que carem na amostra X Quantidade de txico por tomate mdia Quantidade mdia da substncia txica por tomate naquele carregamento populacional mdia amostral Quantidade mdia da substncia txica por tomate da amostra X barra Valor da mdia daquela amostra
No caso da postura tica, o nvel de significncia alfa () significa o risco de liberar o carregamento quando ele est contaminado e, consequentemente, colocar em risco vida humanas, porm, voc controla esse tipo de erro. Certamente, o produtor no vai aceitar este tipo de formulao da hiptese, pois para ele o carregamento de tomates no est contaminado. Vejamos com seria a formulao das hipteses neste caso.
115
Tabela 12. Quadro comparativo da formulao de hipteses do ponto de vista do consumidor e do produtor Postura tica Postura produtor (Postura do consumidor) Ho: = 10 (*) Ho: = 10 H1: < 10 H1: > 10 Liberar o carregamento de Incinerar o carregamento de tomates tomates quando eles estavam quando eles estavam aptos para o contaminados consumo humano Incinerar o carregamento de Liberar o carregamento de tomates tomates quando eles estavam quando eles estavam contaminados aptos para o consumo humano
Hiptese nula Hiptese alternativa Erro de tipo I Alfa () Erro de tipo II Beta ()
A final, voc deve estar se perguntando, como isso influncia na tomada de decises, se a estatstica calculada da amostra sempre nica. Vejamos atravs do exemplo, calculando as regies crticas para as duas formulaes. Suponha que esta varivel siga uma distribuio normal e que voc seleciona uma amostra de 16 tomates, cuja mdia 9 unidades, com um desvio padro de 2. Operacionalizando a postura tica: Passo 1: Formular as hipteses: Ho: = 10 H1: < 10 Passo 2: A estatstica a ser utilizada ser a mdia amostral, estimando a varincia populacional pela amostral, ou seja, devemos utilizar a distribuio t-student, com 15 graus de liberdade, lembre-se que esta distribuio pressupe normalidade para a distribuio da varivel. Passo 3: Para =5%, determinar a regio de rejeio e aceitao. O valor t = 1,753 A regio crtica estar formada por todos os valores menores ou iguais a 1,753 Passo 4: Calcular a estatstica (observe que isto independe das hipteses) n=16, mdia amostral = 9, desvio padro da amostra =2 t amostra = X o s n t amostra = 9 10 = 2 2 16
Passo 5: Tomar a deciso Como o valor da amostra foi 2 (tamostra = 2,0) menor que o valor crtico (t = 1,753), rejeita-se Ho Ou seja, liberamos o carregamento de tomates.
Apostila de Estatstica Prof Irene Mauricio Cazorla
116
Contudo, voc est com muito receio de liberar o carregamento e este estar contaminado. Voc pode diminuir de 5% para 1%. Vejamos o que acontece:
t15
RA: Incinerar o carregamento
- t1%=2,602
0 t5%=1,753
tamostra=2,0
A nica mudana ser no Valor Crtico, que de t = 1,753 cara para t = 2,602. Neste caso, aceitaremos Ho, ou seja, mandaremos incinerar o carregamento de tomates. Operacionalizando a postura do produtor: Passo 1: Formular as hipteses: Ho: = 10 H1: > 10 Passo 2: a mesma da postura tica, pois independe da formulao das hipteses: Passo 3: Para =5%, determinar a regio de rejeio e aceitao. O valor t = + 1,753 A regio crtica estar formada por todos os valores maiores ou iguais a +1,753 (o nico que muda a cauda, que passa de ser inferior, para superior) Passo 4: Calcular a estatstica (idem postura tica, observe que isto independe das hipteses) tamostra = 2,0 Passo 5: Tomar a deciso Como o valor da amostra foi 2 (tamostra = 2) menor que o valor crtico (t = + 1,753), aceita-se Ho logo libera o carregamento para o consumo humano, deciso que coincide com a deciso da postura tica. Porm, vejamos o que acontece se diminuirmos de 5% para 1%. Neste caso, t1%=+2,602, e, consequentemente, a deciso no muda, ou seja, continuamos liberando o carregamento, ao contrrio da postura tica, e isso porque neste caso, est protegendo o produtor, ou seja, do risco de incinerar o carregamento, quando os tomates esto sadios.
Apostila de Estatstica Prof Irene Mauricio Cazorla
117
t15
- tamostra=2,0
0 t5%=+1,753
+ t1%=+2,602
Mas voc deve estar intrigado como essas duas posturas agem na regra deciso. Tentaremos apresentar aqui a lgica das duas posturas. Sabemos que sob a hiptese nula, a mdia amostral se distribui segundo uma t-student com n-1 graus de liberdade (no esquea que est implcito que X: quantidade de txico por tomate segue uma distribuio normal, alm das amostras independentes) X ~ t n 1 s n Logo podemos perguntar a partir de que valores da mdia amostral rejeitaremos Ho, fixado o nvel de significncia. Na postura tica: P( X < X c ) = X c < o t s n
Logo no nosso exemplo, substituindo os valores: o=10, =2 e n=16 Xc < 10 1,753*2/4 Xc < 10-0,8765 Xc < 9,1235
Logo todas as amostras cujas mdias forem menores ou iguais a 9,1235 tero suas cargas liberadas. Na postura do produtor: Logo, substituindo os valores: Xc > 10 +1,753*2/4 Xc > 10+0,8765 Xc > 10,8765 P( X > X c ) = X c > o + t s n
Logo todas as amostras cujas mdias forem maiores ou iguais a 10,8765 tero suas cargas incineradas.
118
Comparemos graficamente as regras de deciso em cada caso. Para simplificar a comparao suponhamos que a varincia conhecida igual a 4: X: quantidade de txico por tomate X ~N(10,22) (supondo =2, conhecido)
4 3 X~ N(10, )
6 2
10
12 +
14 +2
16 +3 erro padro=0,71
uma vez que a varincia amostral 2/n =22/16 =1/2 7,9 8,6 9,3 10 10,7 11,4 12,1
Na postura tica Ho: = 10 H1: <10 Rejeita-se Ho Libera o carregamento 7,9 8,6
Liberar para o consumo se: Rejeita-se Ho se a mdia amostral for menor que /Vn = 10 1,645*0,71 = 10 1,16795 8,83205 Aceita-se Ho Incinera o carregamento 9,3 10 10,7 11,4 12,1
Rejeita-se Ho Incinerar o carregamento se: se a mdia amostral for maior que +/Vn = 10 + 1,645*0,71 = 10 + 1,16795 11,16795 Aceita-se Ho Libera o carregamento Rejeita-se Ho Incinera o carregamento 11,4 12,1
7,9
8,6
9,3
10
10,7
Veja que na postura tica mandaremos incinerar o carregamento se a mdia da amostra for maior ou igual a 8,83205, enquanto que na postura do produtor, s faremos isso quando a mdia da amostra for maior ou igual a 11,16795. Neste exemplo supomos conhecer a varincia s com fins didticos. A lgica a mesma, quando tivermos que estimar a varincia, apenas mudaremos de distribuio. 6.3 Teste de hipteses para a proporo populacional:
Apostila de Estatstica Prof Irene Mauricio Cazorla
119
O exemplo da eleio de um candidato Suponha que voc assessor de um grupo financeiro forte, que est interessado em saber se o candidato XYZ, ao governo do estado de So Paulo, tem chances de ser eleito, ainda no primeiro turno, uma vez que o grupo est estudando a possibilidade de financiar sua campanha. Neste caso, novamente, voc selecionar uma amostra e decidir com base nos dados dessa amostra. Vejamos o quadro decisrio neste caso: Conceitos
Populao Amostra Parmetro Estimador Estimativa
Notao
Definio
Os eleitores do estado de So Paulo Os eleitores que forem sorteados para compor a amostra
Proporo populacional Porcentagem ou proporo de eleitores do estado que votaro no candidato XYZ Proporo amostral P barra Porcentagem ou proporo de eleitores da amostra que votaro no candidato XYZ Valor da proporo daquela amostra
Tabela 13. Quadro de deciso em condio de incerteza (Postura otimista) Hiptese nula Ho : > 0,50 O candidato XYZ se elege no primeiro turno
Ho : > 0,50 ser verdadeira (o candidato se elege) Aceitar a hiptese Investe na campanha do candidato (investir na campanha XYZ e este se elege do candidato) Deciso correta (1-) Rejeitar a hiptese No investe na campanha do (no investir na candidato XYZ e este se elege campanha do Erro de tipo I candidato) () Deciso Ho : > 0,50 ser falsa (o candidato no se elege) Investe na campanha do candidato XYZ e este no se elege Erro de Tipo II () No investe na campanha do candidato XYZ e este no se elege Deciso correta (1-)
120
Da forma como foram formuladas as hipteses, o pior erro seria investir na campanha e o candidato no se eleger e, neste caso, a postura pessimista mais adequada, posto que o controla. Operacionalizando a postura pessimista: Passo 1: Formular as hipteses: Ho: = 0,5 H1: > 0,5 Cuidado: para evitar confuso trabalhe tudo em tanto por um ou tudo em tanto por cento, nunca misture essas duas formas.
Passo 2: A estatstica a ser utilizada ser a proporo amostral, onde o cuidado deve ser trabalhar com grandes amostras. Sob a hiptese de nulidade o * (1 o ) ) n Z= p o o (1 o ) n
p ~ N ( o ,
Passo 3: Para =5%, determinar a regio de rejeio e aceitao. O valor Z = + 1,645 A regio crtica estar formada por todos os valores maiores ou iguais a +1,645 Passo 4: Calcular a estatstica da amostra. Suponha que voc tenha entrevistado 900 pessoas, das quais 459 eleitores afirmaram que votariam no candidato XYZ. Logo, p barra igual a 0,51, substituindo na frmula: Zamostra = 0,51 0,50 0,01 = = 0,6 0,50 * 0,50 0,016667 900
Passo 5: Tomar a deciso. Como o valor da amostra foi 0,60 (Zamostra = 0,60) menor que o valor crtico (Z = + 1,645), aceita-se Ho. Ou seja, voc como assessor do grupo financeiro, recomendar no investir no candidato XYZ No investir no candidato XYZ RA 1=95% RR: investir no candidato XYZ =5%
0
Zamostra=0,60 Z = + 1,645
121
Ou seja, apesar do candidato ter 51% dos votos, essa margem no suficiente para decidir apoi-lo. Agora, raciocinemos ao contrrio: qual teria que ser o valor da proporo amostral tal que rejeitemos Ho , ou seja, decidir apoiar o candidato, com um nvel de 5%. pc=? tal que P( p > pc ) = Podemos mostrar que No nosso exemplo pc > + Z* pc > 0,5 + 1,645* pc > 0,5 + 0,0274 pc > 0,5274 (1)/n 0,5*0,5/900
Ou seja, em uma amostra de 900 eleitores, o candidato XYZ teria que ter pelo menos 52,74% das intenes de votos, o que equivale a 475 eleitores. A relao entre teste de hipteses e intervalos de confiana Voc j deve ter reparado que sempre estamos usando a mesma formula, tanto para testar uma hiptese, quanto para construir intervalos de confiana, para um parmetro determinado. IC em funo de mdia amostral IC sob a hiptese de nulidade
X-Z/2/Vn
X-Z/2/Vn o-Z/2/Vn
o -Z/2/Vn
Construamos um intervalo de confiana, de 95% para o caso da lanchonete (pgina 115): Ho : = 2000 H1 : > 2000 No construir o posto Construir o posto o = 2000
Neste caso, como a hiptese alternativa maior, o intervalo de confiana unicaudal, logo: Li = - Ls = o + Z* s / n Ls = 2000 + 1.645*200 / 5,47723 Ls = 2060
122
Como o intervalo de confiana [- ; 2060] inclui o valor da mdia da amostra que 2050, logo aceitamos Ho, ou seja, deixamos o dinheiro na poupana. 6.4 Teste de hiptese para a diferena de duas mdias Muitas vezes desejamos saber se um novo mtodo de ensino mais eficaz que o mtodo tradicional, ou se os homens tem desempenho e atitudes mais favorveis frente a Matemtica do que as mulheres, entre outros. Neste caso, estamos interessados em comparar se a diferena entre duas mdias estatisticamente significativa ou se essa diferena se deve apenas ao acaso. Por exemplo, suponha que desejamos testar se o desempenho dos alunos da escola 1 e 3 podem ser considerados iguais ou no (exemplo da pg. 27, retomado nas pginas 88 e 89).
A varivel em estudo Hiptese nula Hiptese alternativa Erro de tipo I Alfa () Erro de tipo II Beta () X: notas dos alunos da 5 srie na prova de Matemtica Ho: 1 = 3 H1: 1 3 Dizer que existe diferena no desempenho por escola, quando na realidade no existe diferena Dizer que no existe diferena de desempenho, quando na realidade existe diferena
Poderamos, tambm, querer saber se o desempenho superior mostrado na escola 2 em relao ao desempenho da escola 1 estatisticamente significativa ou no, neste caso, as hipteses sero: Ho: 1 = 2 H1: 1 < 2 Suponha, ainda, que o baixo desempenho dos alunos da escola 1 se deva a influncia de suas atitudes frente a Matemtica, que tendem ao negativo e que uma alternativa para desbloquear essa influncia seria o uso de jogos matemticos no ensino. Como voc poderia propor um estudo da eficcia da proposta? Analisemos: No caso das escolas, cada uma se constitui em uma populao e de cada uma delas foi escolhida uma amostra, logo podemos afirmar que as amostras so independentes, pois vem de populaes independentes. A seleo da amostra na escola 1 no interfere na seleo das outras escolas e assim por diante. No caso da proposta, o ensino da Matemtica, via jogos, voc tem dois tratamentos, um o mtodo tradicional - controle-, e o outro a proposta de introduzir os jogos durante as aulas experimental ou tratamento - . Observe que voc tem uma nica populao. Voc pode delinear o experimento de duas formas: Amostras independentes: alocar aleatoriamente os alunos ao grupo controle e ao grupo experimental. Amostras emparelhadas: selecionar uma nica amostra, fazer um pr-teste para saber o nvel de partida, aplica o novo mtodo e ao final da experincia aplicar um ps-teste para
Apostila de Estatstica Prof Irene Mauricio Cazorla
123
analisar se houve um ganho significativo. Neste caso, cada aluno atua como seu prprio controle. Caso 1: amostras independentes porque vem de populaes independentes Populao 1 ... Amostra 1 ...
Populao 2
Amostra 2
...
...
Caso 2: amostras independentes de uma mesma populao porque voc aloca aleatoriamente os elementos ao tratamento ou ao grupo controle Amostra 1 Populao 1 ... Amostra 2 controle ... tratamento
...
Caso 3: amostras emparelhadas, uma nica amostra de uma populao, os sujeitos so submetidos aos dois tratamentos, via de regra, cada sujeito seu prprio controle: Populao 1 Amostra 1
...
antes
...
depois
124
tratamento Qual o melhor delineamento, depende do que voc est trabalhando e das condies de experimentao. O problema de trabalhar com amostras independentes que corremos o risco de que no grupo experimental seja composto por alunos brilhantes e o grupo controle por alunos normais, ou vice-versa. Neste caso, voc no saber se o melhor desempenho do grupo experimental se deve ao mtodo ou a amostra. A aleatorizao minimiza este risco, porm, nem sempre voc tem condies ideais de experimentao, uma vez que existem fatores alheios ao seu controle, como, por exemplo, as turmas j esto formadas desde o incio do ano, a influncia do professor da turma, turmas com melhor desempenho que outras, enfim, inmeros fatores que podem contaminar ou confundir o experimento. O problema de trabalhar com amostras emparelhadas que voc nunca saber se o melhor desempenho se deve ao novo mtodo ou se apenas efeito do prprio desenvolvimento cognitivo do aluno. Por essas razes existem vrias modelos para o delineamento experimental (ver Tabela 15). Segundo Costa Neto (1977) uma amostra emparelhada quando os resultados esto relacionados dois a dois segundo algum critrio que introduz uma influncia marcante entre os diversos pares, que supomos, porm, influir igualmente sobre os valores de cada par. O exemplo dado pelo autor muito ilustrativo: 20 cobaias foram submetidas durante uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so medidos no incio e no fim do tratamento, e desejamos tirar concluses sobre o aumento mdio de peso verificado. Se os animais forem perfeitamente idnticos, teremos duas amostras do tipo antes e depois, e os dados sero emparelhados, pois cada valor da primeira amostra estar perfeitamente associado ao respectivo valor da segunda amostra. O critrio que garante o emparelhamento a identidade de cada cobaia. Note-se que razovel esperar que a identidade de cada animal tenha influncia nos valores observados de seu peso, porm essa influncia deve exercer-se de forma aproximadamente igual dentro de cada par de valores antes e depois; logo, ao se tomarem as diferenas entre os vrios pares de valores, a influncia individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela rao. Neste exemplo, se os animais no fossem identificados, no haveria como associar os valores de duas amostras Este exemplo clssico dos delineamentos experimentais, onde o pesquisador pode controlar fatores externos ao experimento, de tal forma a garantir que o ganho de peso seja apenas fruto da rao. Observe que em teoria, as cobaias no devem alterar seu comportamento para agradar o experimentador, nem o experimentador pode influenciar nas respostas das cobaias. O experimentador pode escolher cobaias com peso inicial similar, esta varivel fcil de ser medida e de ser isolada de outros fatores, etc. Isto no acontece na pesquisa com alunos, onde esses podem tentar agradar ou prejudicar o professor, o experimentador pode influenciar nas respostas dos alunos, o instrumento de medida pode no estar medindo o que se deseja, os alunos de um grupo podem interagir,
125
ou seja, uma srie de elementos podem influenciar a validade interna do delineamento (ver Tabelas 15 e 16). Tabela 15. Os modelos da Pesquisa Experimental: experimentao provocada12 (quando o pesquisador tem um controle muito grande sobre a varivel independente)
Modelos experimentais Pr-teste, ps-teste com grupo controle aleatrio Viesses podendo afetar a validade interna 4. Mortalidade experimental Viesses podendo afetar a validade externa
9. Contaminao 10. Reaes compensatrias 11. Desejo de agradar o examinador Teste t - amostras emparelhadas 13. Intervenes compensatrias 14. Expectativa do experimentador R:O1 X O2 (Exp) (dentro do grupo) 15. Interao entre a interveno e a situao R:O1 O2 (Cont) Teste t - amostras independentes experimental (entre grupos) 16. Interao entre os diferentes componentes de uma interveno 17. Interao entre as observaes e a interveno 18. Interao entre a seleo dos indivduos e a interveno Idem ao primeiro modelo, menos 17 Modelo de Solomon 4. Mortalidade experimental com quatro grupos R: O1 X O2 (Exp) Teste t - amostras emparelhadas R: O1 O2 (Cont) (dentro do grupo) R: X O2 (Exp) Teste F ANOVA R: O2 (Cont) (entre grupos) Idem ao primeiro modelo, menos 17 Ps-teste somente com 4. Mortalidade experimental grupo-controle Teste t - amostras aleatrio R: X O2 (Exp) independentes R: O2 (Cont) (entre grupos) R: aleatrio, X: interveno, Oi: Observao da ou das variveis dependentes do perodo Viesses podendo afetar a validade interna Pr-teste, ps-teste com grupo 6. Seleo controle no equivalente 7. Interao O1 X O2 Experimentao contrabalanceada ou quadrado latino Modelos quase-experimentais Viesses podendo afetar a validade externa Idem ao primeiro modelo
G1: Xa O1 Xb O2 Xc O3 Xd O4 Teste F ANOVA G2: Xb O1 Xd O2 Xa O3 Xc O4 (entre grupos) G3: Xc O1 Xa O2 Xd O3 Xb O4 G4: Xd O1 Xc O2 Xb O3 Xa O4 (medidas repetidas -MANOVA)
12
126
Ciclo institucional com anlise A validade do modelo para cada 11. Desejo de agradar o examinador grupo fraca. A validade do 14. Expectativa do experimentador transversal/longitudinal modelo resulta da coerncia dos 15. Interao entre a interveno e a situao experimental G1: X O2 O3 O4 (Exp1) resultados obtidos para 16. Interao entre os diferentes G2: O2 X O3 O4 (Exp2) diferentes grupos. componentes de uma interveno G3: O3 O4 (Cont) Teste F ANOVA (entre grupos, medidas 18. Interao entre a seleo dos repetidas-MANOVA) indivduos e a interveno Gi: Grupos no aleatrios, Xi: interveno, Oi: Observao da(s) variveis dependentes do perodo
Viesses podendo afetar a validade externa 12. Relao casual ambgua 14. Expectativa do experimentador 15. Interao entre a interveno e a situao experimental 16. Interao entre os diferentes componentes de uma interveno 18. Interao entre a seleo dos indivduos e a interveno Idem ao modelo anterior
Somente ps-teste com 2. Maturao 4. Mortalidade experimental grupo controle no 6. Seleo Equivalente 7. Interaes X O2 (Exp) Teste t - amostras independentes O2 (Controle) (entre grupos) Estudo pr/ps O1 X O2 (Exp) 1. Histria 2. Maturao 3. Familiarizao com o teste 7. Interaes 8. Medio dos efeitos Teste t amostra emparelhada (dentro do grupo) Pr-teste, ps-teste com 4. Mortalidade experimental 5. Regresso at a mdia grupo controle no 7. Interaes equivalente O1 X O2 O1 O2 Teste t - amostras emparelhadas (Exp) (Controle) (dentro dos grupos) Teste t - amostras independentes (entre grupos)
Idem ao modelo anterior + 17. Interao entre a seleo dos indivduos e a interveno
11. Desejo de agradar o examinador 14. Expectativa do experimentador 15. Interao entre a interveno e a situao experimental 16. Interao entre os diferentes componentes de uma interveno 18. Interao entre a seleo dos indivduos e a interveno
Grupos no aleatrios, X: interveno, Oi: Observao da(s) variveis dependentes do perodo, ___ o grupo controle no criado por distribuio aleatria.
13
Extrado do Quadro 4.4 do Livro de Contandriopoulus e outros, pgina 54. Pesquisa invocada, segundo esses autores, ocorre quando o pesquisador no pode manipular a varivel independente e utiliza variaes naturais ou acidentais (no organizadas por ele mesmo) desta varivel, numa lgica anloga aquela do mtodo experimental, para medir os efeitos sobre uma ou mais variveis dependentes.
127
Portanto, antes de levantar os dados examinar qual o modelo mais conveniente para sua pesquisa. O Teste F ANOVA (Anlise de varincia) utilizado quando vamos comparar trs ou mais mdias. Fatores a serem levados em considerao para a escolha do teste adequado para o teste de diferena de duas mdias: Emparelhadas (Paired-samples) Amostras Independentes (Independent-samples) Desvio padro desconhecidos 1=? e 2=? Desvios padres Conhecidos: 1, 2 Podem ser considerados iguais 1= 2
6.4.1 Amostras emparelhadas. Dez cobaias adultas foram submetidas ao tratamento com uma nova rao durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais, obtendo-se os pesos, em gramas, no princpio (X) e no fim (Y) de semana. O que desejamos saber se a nova rao aumenta significativamente o peso das cobaias, logo podemos formular as hipteses da seguinte forma: Conceitos Populao Amostra Varivel Parmetros Estimador Estimativa X, Y d=X-Y
Mdia Populacional
Notao
Definio Cobaias As cobaias selecionadas X: Peso inicial das cobaias, Y: peso final das cobaias d = diferena do peso final e peso inicial d: mdia da diferena entre o peso final e inicial d barra, mdia da diferena do peso final e inicial da amostra valor da mdia das diferenas daquela amostra
128
Formulando as hipteses: Ho: x = y H1: x < y Ho: x - y = 0 H1: x - y < 0 Ho: d = 0 H1: d < 0 onde d=X-Y
Para evitar ter que trabalhar com a cauda inferior e com muitas diferenas negativas, aconselhvel fazer a diferena do peso final e o peso inicial, assim voc trabalhar sempre com a cauda superior e ter menos diferenas negativas. Cuidado ao calcular a mdia e os desvios, o sinal no pode ser esquecido. Neste caso as hipteses sero: onde Ho: d = 0 H1: d > 0 A estatstica a ser utilizada ser: d=Y-X
t a m o s tr a =
d sd n
Onde: tamostra tem uma distribuio t-student com n-1 graus de liberdade, n o nmero de sujeitos (pares) d barra a mdia da diferena sd o desvio padro da diferena em geral igual a zero, mas pode tomar qualquer valor A regio de rejeio ser determinada por uma t-student com 9 graus de liberdade, para =5%, t=1,833
t9
=5% RA: a rao no aumenta
o peso das cobaias
=1%
t5%=+1,833
t1%=+2,821 tamostra=2,96
129
t amostra =
Como tamostra cai na regio de rejeio, conclumos que a rao aumenta o peso das cobaias. Tabela de dados:
Cobaia I 1 2 3 4 5 6 7 8 9 10 Soma Peso antes Xi 635 704 662 560 603 745 698 575 633 669 Peso depois Yi 640 712 681 558 610 740 707 585 635 682 Diferena di=Yi-Xi 5 8 19 -2 7 -5 9 10 2 13 66
No SPSS criar um banco de dados contendo apenas o nmero da cobaia, o peso antes e o peso depois, logo executar os seguintes comandos: Statistics Compare means Paired samples T- test
Sada do SPSS: - - - t-tests for paired samples - - Number of 2-tail Variable pairs Corr Sig Mean SD SE of Mean -------------------------------------------------------------------------X 655,0000 59,200 18,721 10 ,993 ,000 Y 648,4000 58,852 18,611 -------------------------------------------------------------------------Paired Differences | Mean SD SE of Mean | t-value df 2-tail Sig ----------------------------------|------------------------------------2*p-valor 6,6000 7,043 2,227 | 2,96 9 ,016 95% CI (1,561; 11,639) |
130
Calculando o p-valor ou o nvel de significncia observado na amostra: p-valor = P(t9 > 2,96) = 0,007983 (Calculado com o MINITAB, infelizmente o SPSS no disponibiliza para o usurio estas funes)
Vejamos como o SPSS calcula o 2-tail Sig: 2-tail Sig = 2*p-valor = 2*0,007983 = 0,015966 = 0,016 Logo o SPSS j fornece o valor para testar igualdade versus diferena, isso significa que se desejarmos testar hipteses unilaterais, devemos dividir o 2-tail Sig por dois Observe que o SPSS nos fornece uma anlise completa da relao entre as duas variveis. Ele calcula o coeficiente de correlao corr, que mede o grau de associao entre duas variveis. recomendvel fazer o grfico, pois o ganho de peso pode ser diferenciado e isso pode ser melhor apreciado pelo grfico. Figura 34. Relao entre o peso inicial e final das cobaias Peso depois
800
600
Peso antes
131
O exemplo das cobaias enfrenta um grave problema, que a passagem do tempo. Se as cobaias estiverem em pleno processo de crescimento, o efeito crescimento natural estar confundindo o efeito da rao no crescimento. Nesse caso, o experimentador teria que ter cuidado de trabalhar com cobaias adultas, onde esse fator mnimo, ou usar um grupo controle. 6.4.2 Amostras independentes Um exemplo, muito ilustrativo, a luta dos cientistas contra a AIDS. At hoje no foi descoberta uma vacina capaz de prevenir a doena. A luta dos pesquisadores se centra em prolongar o tempo de vida dos pacientes (X) e, nesse sentido, o AZT um medicamento conhecido, suficientemente testado cuja eficcia est comprovada, porm um medicamento limitado. Suponha que os cientistas que descobriram o coquetel chegam at voc, que o diretor do centro de pesquisas, e afirmam que baseado nos resultados dos experimentos de laboratrio e em alguns pacientes voluntrios, o coquetel mais eficaz do que o AZT. Voc dever tomar a deciso de liberar ou no o coquetel para o consumo pelos pacientes portadores da doena. Este um exemplo de amostras independentes, pois um grupo receber o coquetel (grupo experimental) e o outro grupo continuar tomando AZT (grupo controle), os sujeitos devero ser alocados a cada grupo aleatoriamente e cada sujeito no deve saber o medicamento que est tomando, bem como os examinadores tambm no devem saber qual tratamento o sujeito est recebendo. Este procedimento chamado de duplo cego e recomendado para evitar a interferncia de fatores esprios na experimentao. Conceitos
Populao Amostra Varivel Parmetros Estimadores Estimativa
Notao Definio
Pessoas contaminadas pelo vrus HIV As pessoas voluntrias que se dispem a participar do experimento X Tempo de sobrevivncia aps a contaminao Mdia C: tempo mdio de sobrevivncia com o coquetel (experimental) populacional AZT: tempo mdio de sobrevivncia com o AZT (controle) Mdias amostrais e varincias amostrais (corrigidas) valor dos estimadores naquela amostra
Erro de tipo II
132
coquetel ainda no foi suficientemente testado, no se sabe que problemas colaterais podem ser causados (*) Devemos lembrar o caso da Talidomida que foi liberado para o uso de enxaqueca em mulheres grvidas, cujos fetos sofreram graves deformaes fsicas. Portanto, a liberao de remdios deve ter necessariamente o maior tempo de maturao possvel, pois muitos efeitos colaterais s podem ser percebidos no longo prazo. Beta ()
Este um caso muito srio na tomada de decises, uma vez que, de um lado, a tomada de decises pode implicar na morte de pessoas, na qualidade de vidas delas e, de outro lado, a dificuldade de ampliao dos testes experimentais. Formulando as hipteses: Ho: 1 = 2 H1: 1 2 Ho: 1 - 2 = 0 H1: 1 - 2 0 em geral : Ho: 1 - 2 = H1: 1 - 2
varincias iguais
2 2
n1 +
n2
Z a m o s tr a =
(X1 X
1 n1 + 1 n 2
gl = n1 + n2 - 2
Caso 3: Populao normal e com varincias desconhecidas: Varincias diferentes Estimativa dos graus de liberdade
2
t a m o s tr a =
(X1 X
2 ( s 12 n 1 + s 2 n2 )
gl =
( w1 + w2 ) 2
2 w12 / (n1 + 1) + w2 / (n2 1)
Onde w1=s12/n1
e w1=s22/n2
133
Como a estatstica depende da natureza das varincias envolvidas devemos testar se as varincias so iguais ou no: Formulando as hipteses: Teste de homogeneidade de varincias Ho: 12 = 22 H1: 12 22 A estatstica F = max (s12, s22) min (s12, s22) rejeitando Ho se F > Fv1,v2, /2 onde v1 o gl do numerador e v2 o gl do denominador
Este teste baseado no pressuposto de normalidade da varivel, o que nem sempre pode ser sustentado. O SPSS calcula o Levene Test que no depende da suposio de normalidade. Este teste ser apresentado junto com ANOVA Anlise de varincia, no prximo item. Observa-se que quando suposio de normalidade no vlida, o tamanho das amostras deve ser suficientemente grandes, a fim de garantir a convergncia para a normalidade. Exemplo 1: A quantidade de um certo elemento no sangue varia segundo o sexo. Para os homens o desvio padro de 14,1 ppm e para as mulheres 9,5 ppm. Amostras aleatrias de 75 homens e 50 mulheres forneceram mdia de 28 e 33 ppm respectivamente. Pode-se afirmar que a mdias de concentrao do elemento no sangue o mesma para ambos sexos? Estatsticas n Mdia varincia Ho: H = M H1: H M Homens 75 28 1=14,1 Mulheres 50 33 2=9,5 =0
Z amostra =
( X1 X 2 ) 12 n1 + 22 n2
Ho: H - M = 0 H1: H - M 0
134
Zamostra=2,37
0
Z/2=-1,96 Z/2=-1,96
Como Zamostra < -Z /2, rejeita-se Ho, ou seja as mdias no podem ser consideradas iguais. Calculando o nvel de significncia da amostra: 2-tail sig = 2*p-valor = 2*P(Z < - Z /2)= 2* P(Z < - 2,37)=2*0,0089=0,0178 Logo ser rejeitado ao nvel de 5%, mas no ao nvel de 1% Exemplo 2: Suponha que voc est estudando a influncia dos jogos matemticos na aprendizagem da matemtica na 5 srie, para isto voc escolhe duas escolas, com as mesmas caractersticas scio-econmicas. Em cada escola voc escolhe a melhor turma em matemtica. Em uma das escolas, sorteada aleatoriamente, voc trabalha com jogos grupo experimental (certamente voc dever se cercar de todos os cuidados para que as crianas no vejam voc como um agente estranho) e na outra no grupo controle. No incio do perodo letivo voc passa um teste - pr-teste - nos dois grupos e ao longo do primeiro semestre voc trabalha junto com a professora na escola experimental. Encerrado o semestre letivo voc passa o mesmo teste do incio do ano - ps-teste -. Estrutura do delineamento: G.Experimental pr-teste G.Controle pr-teste Corte Transversal interveno ps-teste ps-teste dif dif corte longitudinal amostra emparelhada amostra emparelhada 1,8%
Amostras independentes
amostras independentes
135
Grupo: 1=Experimental, 2=Controle Aluno: cdigo de identificao do aluno Pos: Nota no ps-teste Pre: nota no pr-teste Dif: a diferena das notas no ps-teste e pre-teste, calculado com o comando compute Variacao: a taxa de variao definido como a diferena dividido pela nota inicial e multiplicado por 100, para expressar em porcentagem, tambm criado pelo comando compute Pre_1: o valor predito para a reta de regresso linear, calculado pelo prprio SPSS Deve-se ter cuidado ao criar o Banco de da Dados, uma vez que o SPSS precisa da varivel a ser testada em uma colunas e os grupos em linhas. J o MINITAB (outro software estatstico) da opes para trabalhar com grupos em colunas. Estrutura do Banco de Dados MEDIAS.SAV
GRUPO ALUNO 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 POS 8,50 8,00 9,00 8,50 8,00 9,00 7,50 8,50 7,50 7,00 7,00 6,50 7,50 7,00 8,00 6,50 7,50 7,00 8,00 7,50 8,00 7,00 6,50 6,00 4,00 5,00 6,00 4,00 PRE 6,00 5,00 7,00 5,00 6,00 7,50 4,50 7,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 2,00 6,00 5,00 7,00 5,00 7,50 4,50 5,00 6,00 3,00 4,00 5,00 2,00 DIF VARIACAO 2,50 3,00 2,00 3,50 2,00 1,50 3,00 1,50 2,50 1,00 ,00 4,50 4,50 3,00 3,00 4,50 1,50 2,00 1,00 2,50 ,50 2,50 1,50 ,00 1,00 1,00 1,00 2,00 41,67 60,00 28,57 70,00 33,33 20,00 66,67 21,43 50,00 16,67 ,00 225,00 150,00 75,00 60,00 225,00 25,00 40,00 14,29 50,00 6,67 55,56 30,00 ,00 33,33 25,00 20,00 100,00 PRE_1 8,04167 7,70833 8,37500 7,70833 8,04167 8,54167 7,54167 8,37500 7,70833 8,04167 8,37500 6,70833 7,04167 7,37500 7,70833 6,70833 7,16745 6,37500 7,95991 6,37500 8,35613 5,97877 6,37500 7,16745 4,79009 5,58255 6,37500 3,99764
136
Geral
28
5,07 1,62
7,16 1,29
2,09 1,25
Como o tamanho da amostra relativamente pequeno, devemos checar a suposio de normalidade da nota dos alunos no pr-teste, que devem ter um desempenho similar, como ponto de partida. Assim devemos fazer uma anlise exploratria dos dados (EXPLORE), incluindo o teste de normalidade e o grfico de box-plot para ajudar nosso trabalho exploratrio.
Sada do comando Statistics PRE Valid cases: Mean 5,0714 Median 5,0000 5% Trim 5,1071 Frequency 3,00 2,00 4,00 8,00 5,00 6,00 Stem width: Each leaf:
Summarize
Explore
28,0 Missing cases: Std Err ,3061 Min Variance 2,6243 Max Std Dev 1,6200 Range IQR Stem & Leaf 2 3 4 5 6 7 . . . . . . 000 00 0055 00000000 00000 000055
,0
Percent missing: 2,0000 Skewness 7,5000 S E Skew 5,5000 Kurtosis 1,8750 S E Kurt
Ho: X tem uma distribuio Normal H1: X no tem uma distribuio normal
,9249 ,1247
Uma vez que a suposio de normalidade foi aceita, agora devemos testar a igualdade no ponto de partida. Neste caso estamos frente a comparao de duas mdias de amostras independentes, fazendo isto com o SPSS: Figura 36. Distribuio das notas no pr-teste
P 8 R E
7
1
N=
Experimental
Controle
GRUPO
137
Statistics Compare means Independent-Samples T-test Test variable selecionar as variveis a serem testadas (pr) Grouping variable selecionar grupo Group 1: 1 Group 2: 2 Sada do SPSS
t-tests for independent samples of Number of Cases 16 12 GRUPO
SD 1,718 1,552
Mean Difference = ,1250 Levene's Test for Equality of Variances: F= ,376 t-test for Equality of Means Variances t-value df 2-Tail Sig Equal Unequal ,20 ,20 26 25,01 ,844 ,842 P= ,545
Logo podemos considerar as mdias das notas no pr-teste iguais. Agora estamos prontos para analisar como evoluram os dois grupos. Se quisermos testar simultaneamente as mdias emparelhadas para os dois grupos, dividir o arquivo com o comando SPLIT: Data Split file Repeat analysis for each group Group based on Selecionar a varivel grupo Statistics Compare means Paired-Samples T Test Paired variables selecionar as variveis pos e pre
Sada do SPSS:
GRUPO: 1 Experimental - - - t-tests for paired samples - - -
138
Variable POS1
Number of pairs 16
Corr ,701
SD ,816 1,718
Mean
t-value 8,17
df 15
Ho: pos = pre Ho: pos- pre = 0 Logo rejeitamos Ho logo so diferentes H1: pos pre H1: pos-pre 0 O SPSS sempre fornece o teste bilateral, que no o nosso caso, tendo em vista que estamos pressupondo que o trabalho com jogos aumenta o desempenho dos alunos e mesmo que isso no se confirme existe o efeito do desenvolvimento cognitivo da criana. Logo, as nossas hipteses sero: Ho: pos = pre H1: pos > pre Ho: pos- pre = 0 H1: pos-pre >0
Logo devemos dividir por dois o valor 2-tail significance, que dar um valor prximo de zero, o que nos leva a concluso de que o desempenho no ps-teste superior ao desempenho no pr-teste.
GRUPO: 2 Controle - - - t-tests for paired samples - - Number of pairs 12 PRE Paired Differences SD SE of Mean ,223 2-tail Sig ,000 5,0000 1,552 ,448
Variable POS1
Corr ,868
Mean 6,3750
SD 1,416
SE of Mean ,409
Mean
t-value 6,17
df 11
Chegamos a mesma concluso que no grupo experimental, ou seja, tambm houve um crescimento no grupo controle. Agora, a pergunta em qual dos dois grupos o desempenho foi melhor, ou o ganho foi superior? Figura 37. Distribuio da diferena das notas (ps-pr)
D 5 I F
4
139
Aqui devemos fazer o teste para amostras independentes trabalhando com a diferena entre o ps-teste e pr-teste.
Variable DIF Experimental Controle of Cases 16 12 Mean 2,6250 1,3750 SD 1,285 ,772 SE of Mean ,321 ,223
Mean Difference = 1,2500 Levene's Test for Equality of Variances: F= 2,360 t-test for Equality of Means Variances t-value df 2-Tail Sig Equal Unequal 2,98 3,20 26 25,02 ,006 ,004 P= ,137 95% CI for Diff (,388; 2,112) (,445; 2,055)
Igualdade de Varincias
Ho: dife = difc H1: dife > difc Onde: dife = mdia das diferenas entre o ps e pre do grupo experimental difc = mdia das diferenas entre o ps e pre do grupo controle Como as varincias podem ser consideradas iguais, o valor a ser lido 2-tail sig=0,006, o que significa que o p-valor igual a 0,003, ou seja rejeitamos a hiptese nula, permitindo concluir que o desempenho no grupo experimental foi superior ao do grupo controle. Analisando com mais detalhe essa relao, vejamos como se relacionam as duas variveis por grupo, utilizando a anlise de correlao e regresso, que sero estudados com maior detalhe proximamente. Aqui faremos apenas uma apresentao intuitiva dessa tcnica. Grupo Coeficiente de correlao Experimental 0,701 Controle 0,868
140
R Square R2 Adjusted R Square R2a Signif F (p-valor) Intercepto (contant) / Sig (p-valor) Slope (Pr) / Sig (p-valor)
A Figura 38 mostra como se relaciona o desempenho no pr-teste e no ps-teste, por grupo, tendo j ajustado uma funo linear, com os seguintes resultados: Grupo Experimental: Ps = 6,04 + 0,33*Pr Grupo Controle: Ps = 2,41 + 0,79*Pr Geral Ps = 4,52 + 0,52*Pr R2 = 49,2% R2 = 75,4% R2 = 42,7% (p-valor=0,0002)
Observe que as duas linhas so diferentes, enquanto que a linha do grupo experimental tem uma inclinao menor e um intercepto maior, a linha do grupo controle tem uma inclinao maior e um intercepto menor. Essas linhas mostram a superioridade do desempenho do grupo experimental. A menor inclinao da linha do grupo experimental mostra que os grandes beneficiados da introduo dos jogos no ensino de matemtica foram as crianas que apresentavam maior dificuldade, no incio do semestre. Figura 38. Relao entre o desempenho nos testes, por grupo Nota no ps-teste
10
Grupo experimental
Grupo controle
3 1 2 3 4 5 6 7 8
Nota no pr-teste
141
Muitas vezes nos deparamos com a anlise de desempenho de mais de dois grupos, como, por exemplo, no caso da pesquisa de Paulnia, temos as atitudes de Matemtica por gnero, srie, perodo, turma, entre outras variveis relevantes para entender o relacionamento dos alunos em relao a Matemtica. Suponhamos que gostaramos de saber se as atitudes em relao Matemtica varia em relao a srie, neste caso as hipteses sero: Varivel dependente Varivel independente X: Atitude em relao Matemtica (quantitativa, contnua) que toma valores entre 20 e 80 Y: srie (qualitativa, ordinal) Que toma valores de 3 a 9, onde 3=5, 4=6,... igualdade de mdias a atitude no varia por srie existe pelo menos duas sries diferentes
Com fins didticos apresentaremos um exemplo pequeno e simples (JOGOS.SAV). Suponha que desejamos testar a validade da introduo dos jogos matemticos e do uso do computador com softwares matemticos no ensino de matemtica. Para isto delineamos o seguinte experimento: escolhemos aleatoriamente alunos de uma turma e os alocamos nos trs grupos: Grupo controle: Somente as aulas tradicionais controle=1 Grupo experimental 1: As aulas tradicionais, mais jogos matemticos jogos =2 Grupo experimental 2: As aulas tradicionais, mais o uso do computador computador=3 A varivel dependente ser X, nota no teste de avaliao (valores de 0 a 10), no final da interveno. As hipteses: Ho: 1 = 2 = 3 H1: 1 2 ou 1 3 ou 2 3 Suponha que os resultados foram:
Alunos (repeties) 1 2 3 4 5 Mdia Soma de quadrados dos desvios Varincia sem corrigir Mdia geral Soma de quadrados dos desvios total Varincia geral sem corrigir Grupos Controle 8 7 6 7 7 7 2 2/5 8 16 16/15 Jogos 7 8 8 9 8 8 2 2/5 computador 10 9 9 8 9 9 2 2/5
142
1 3 1 8 2 0 0
-1 0 +1
1 3 1 9 2 1 5
-1 0 +1
SQTotal =16
7 2 -1 5
8 SQDentro=6
SQEntre=10
fcil mostrar que a varincia total pode ser escrita como sendo a soma da varincia dentro dos grupos e a varincia entre os grupos: Varincia geral = varincia entre os grupos + varincia dentro dos grupos
(mdia das varincias dos grupos)
16/15 = 2/3 + 2/5 = 10/15 + 6/15 ou ainda: Soma dos Quadrados Total SQTotal = = Soma de Quadrados Entre Grupos SQGrupos + + Soma de Quadrados Dentro dos Grupos SQErro
Em geral, sob os seguintes pressupostos: 1. As k amostras representam amostras independentes provenientes de k populaes com mdias 1, 2 ... k 2. Cada uma das k populaes normal 3. Cada uma das k populaes tem a mesma varincia (homocedasticidade) Pode-se mostrar que as somas de quadrados seguem uma distribuio chi-quadrado com os seguintes graus de liberdade: SQTotal ~2n-1 = SQGrupo ~2k-1 + SQErro ~2n-k
De outro lado sabemos que uma distribuio F o quociente de duas distribuies quiquadrados divididos pelos seus graus de liberdade respectivamente, logo:
143
Q M G rupo ~ Fk 1 , n k Q M E rro
A pergunta como a estatstica F pode ser usada para testar a hiptese nula de igualdade de mdias? Pode-se mostrar que a esperana matemtica dos quadrados mdios devidos ao Grupo e ao Erro tem o seguinte forma:
ni ( i ) 2 E (QMGrupo) = + k 1 1
k 2
E ( Q M E rro ) =
n
1
2 i
(i ) k 1 =0
Se a hiptese nula for falsa ento este valor deve ser positivo (soma de quadrados). Ou seja, sob a hiptese nula de igualdade de varincias devemos esperar que os quadrados mdios entre grupos e devido ao erro estejam prximos , assim a estatstica F deve ser prxima de 1, se a hiptese for falsa esperamos que o QMGrupos seja maior que o QMErro: Se Ho: 1 = 2 = 3 (no existe diferena entre grupos) for verdadeira QMGrupos > QMErro F>1 Se Ho: for falsa F entre 0 e 1
A estatstica F ter apenas uma regio de rejeio, a cauda superior. Assim podemos construir a Tabela de Anlise de Varincia Tabela de Anlise de Varincia ANOVA (um critrio de classificao ONE WAY) Fonte de variao Entre grupos Dentro dos grupos Total Graus de liberdade k-1 n-k n-1 Soma de quadrados SQGrupo SQErro SQTotal Quadrados mdios QMGrupo Fa QMErro F F prob p-valor P(F > Fa)
Fa o valor encontrado na amostra, a estatstica F ter uma distribuio F de Snedecor com k-1 graus de liberdade (nmero de grupos menos um) no numerador e n-k graus de liberdade no denominador (nmero de sujeitos menos o nmero de grupos).
144
Analisando a estatstica F: Se tivssemos k grupos diferentes, porm perfeitamente homogneos dentro de si, a varincia dentro dos grupos ser igual a zero e a varincia total estaria explicada apenas pela diferena entre os grupos - varincia entre grupos -, logo a estatstica F tenderia para infinito, concluindo que a varincia se devia a diferena entre grupos. E, se ao contrrio, todos os grupos tivessem exatamente a mesma mdia, ento a varincia entre grupos seria igual a zero, logo a estatstica F tomaria o valor zero, concluindo que a varincia total se devia a variao interna dos grupos e no a diferena entre grupos. Assim a estatstica F varia de zero at infinito e quanto mais prximo de zero e de um, menor a evidncia de diferenas entre os grupos e quanto maior que 1, maior a evidncia da diferena entre grupos. Calculemos a ANOVA no nosso exemplo dos trs grupos: Tabela de Anlise de Varincia ANOVA (um critrio de classificao ONE WAY) Fonte de variao Entre grupos Dentro dos grupos Total Graus de liberdade 2 12 14 Soma de quadrados 10 6 16 Quadrados mdios 5,0 10 0,5 F F prob p-valor 0,0028
Logo rejeitamos Ho, concluindo que existe diferena entre os grupos. Agora s falta saber entre quais grupos existe diferena, para isso temos que fazer as comparaes mltiplas.
Use o Banco de Dados JOGOS.SAV Statisticis Compare means One-Way ANOVA Dependent list selecionar a varivel dependente nota Factor selecionar a varivel indpendente grupo(*) Define range: Minimum: 1 Maximum: 3 Post Hoc Comparaes multiplas Tuckey... Options Descritive Homogeneity of variances Levene test Sada do SPSS - - - - - - - - - Variable By Variable NOTA GRUPO Analysis of Variance Source Between Groups Within Groups Total D.F. 2 12 14 Sum of Squares 10,0000 6,0000 16,0000 Mean Squares 5,0000 ,5000 F Ratio 10,0000 F Prob. ,0028 - - - - - - - - - - O N E W A Y - - - - - - - - - - - - - - - - -
145
Minimum Maximum 6,0 7,0 8,0 6,0 8,0 9,0 10,0 10,0
95 Pct Conf Int for Mean 6,1220 7,1220 8,1220 7,4080 TO TO TO TO 7,8780 8,8780 9,8780 8,5920
Levene Test for Homogeneity of Variances Statistic ,0000 df1 2 df2 12 2-tail Sig. 1,000
_____________ (*) Por esta razo, que a varivel dependente deve ser colocada no SPSS de forma numrica, de preferncia utilizando nmeros consecutivos.
The difference between two means is significant if MEAN(J)-MEAN(I) >= ,5000 * RANGE * SQRT(1/N(I) + 1/N(J)) with the following value(s) for RANGE: 3,77 (*) Indicates significant differences which are shown in the lower triangle G r p 1 Mean 7,0000 8,0000 9,0000 GRUPO Grp 1 Grp 2 Grp 3 G r p 2 G r p 3
Homogeneous Subsets (highest and lowest means are not significantly different) Subset 1 Group Grp 1 Grp 2 Mean 7,0000 8,0000 - - - - - - - - - - - - - - - - Subset 2 Group Grp 2 Grp 3 Mean 8,0000 9,0000 - - - - - - - - - - - - - - - - -
A sada das comparaes mltiplas est dada em forma de uma matriz simtrica, cuja diagonal corresponderia a comparar o grupo com ele mesmo, por tanto devemos ler apenas a diagonal inferior. Na clula onde existe um asterisco significa que existe diferena entre esses grupos, caso contrrio, os grupos podem ser considerados iguais.
Mdia 7 Grupo 1=Controle Grupo1 Controle Grupo2 Jogos Grupo3 computador
146
8 9
2=Jogos 3=Computador *
Neste caso, podemos afirmar que o grupo do computador teve um desempenho superior ao controle, mas no diferente ao grupo dos jogos, o mesmo acontece com o grupo dos jogos que no se diferencia do grupo controle. 6.5.1 Comparaes Mltiplas Existe um problema srio para detectar os grupos diferentes, uma vez que existem k*(k-1)/2 possveis comparaes, e o nvel de significncia aumenta a medida que aumenta k o nmero dos tratamentos, por esta razo tomar cuidado ao se realizar estes testes. Levene Test. Para testar homogeneidade de varincias, o Levene Test calcula o valor absoluto dos desvios dos valores da varivel em relao a mdia do grupo e realiza o ANOVA-One Way.
147
Neste tpico estudaremos a relao entre duas variveis categricas (ou qualitativas), onde as observaes podem ser classificadas em uma das vrias categorias (nveis ou clulas) mutuamente exclusivas. O problema de mensurao do grau de associao entre dois conjuntos de escores de carter bem diferente do teste da simples existncia de uma associao em determinada populao. Naturalmente, h interesse em avaliar o grau de associao entre dois conjuntos de escores referentes a um grupo de indivduos. Mas talvez de muito maior interesse podermos afirmar que determinada associao observada em uma amostra de escores indica, ou no, probabilidade de associao entre as variveis na populao da qual se extraiu a amostra (Siegel, 1956).
148
Neste caso a educadora pode delinear sua pesquisa de duas formas: Caso 1. Selecionar uma amostra de crianas aleatoriamente e examinar em que clula cada uma est alocada, logo o nico valor fixo ser o total geral que ser de 300. Mas os totais de colunas e de linhas sero frutos da pesquisa, portanto, aleatrios, neste caso estamos frente a um teste de independncia de variveis. Logo a tabela de contingncia ser:
Participao dos pais Ativa Fraca Total Desempenho do aluno em Matemtica Baixo Mdio Alto Total Aleatrio aleatrio Aleatrio Aleatrio Aleatrio 300
Teste de independncia
Porm ela pode fixar o nmero de alunos de acordo com seu desempenho. Caso 2. Pegar uma amostra aleatria de tamanho 100 de cada grupo de alunos, logo os totais das colunas sero fixos, mas os totais das linhas sero aleatrios e assim estaremos frente a um teste de homogeneidade: Logo a tabela de contingncia ser:
Participao dos pais Ativa Fraca Total Desempenho do aluno em Matemtica Baixo Mdio Alto Total Aleatrio aleatrio 100 100 100 300 fixo fixo fixo
Teste de homogeneidade
Os valores totais, das colunas e das linhas, so chamados de totais marginais. Quando os totais marginais variam livremente, o teste de associao chamado de independncia, e quando um dos conjuntos, linha ou coluna fixado pelo pesquisador ento chamado de teste de homogeneidade. Isso vai depender do pesquisador. No exemplo da educadora, observemos que para ela muito mais fcil fixar o nmero de alunos segundo seu desempenho, do que fixar pela participao dos pais, que, apriori ser quase impossvel. 7.2 Teste de Independncia: Apresentaremos a lgica do teste com um exemplo bastante simples. Suponha que 125 crianas foram expostas a trs tipos de comerciais de TV, sobre cereais para caf da manh. Aps a exposio foi solicitado a cada criana para indicar qual dos comerciais ela gostou mais. O que se deseja saber se a escolha do comercial est relacionado ao gnero da criana: pois suspeita-se de que o gnero pode estar influenciando na escolha do comercial. Os dados podem ser apreciados na Tabela 17.
149
Tabela 17. Nmero de crianas segundo tipo de comercial escolhido e gnero Gnero A Meninos Meninas Total 30 12 42 Tipo de comercial B 29 33 62 C 16 5 21 Total 75 50 125
a amostra est composta por mais meninos do que meninas, nos comerciais A e C o nmero de meninos maior do que meninas, e no comercial B essa relao se inverte.
Contudo, essa anlise fica prejudicada pela composio da amostra, que tem mais meninos do que meninas. Portanto, a primeira coisa a fazer analisar as estruturas percentuais, mostradas na Tabela 18, ou seja retirar a influncia da amostragem. Figura 39. Porcentagem de crianas por tipo de comercial escolhido e gnero
100 80 60 40 20 0 Menino Menina
Tabela 18. Porcentagem de crianas por tipo de comercial escolhido e gnero Tipo de comercial Gnero A B 47% 53% C 76% 24% Total 60% 40% 100% Meninos 71%
71 47 29 53
76
24
Tipo de comercial
Observe cuidadosamente a Tabela 18, onde 60% da amostra composta por meninos. Se a preferencia das crianas pelos comerciais independe do gnero, esperaramos que a estrutura percentual para cada comercial ficasse em torno de 60% para os meninos e 40% para as meninas, desvios grandes destes percentuais estariam mostrando evidncias de que existe alguma relao entre essas variveis. Essa inspeo intuitiva, tambm, pode ser feita analisando a estrutura dentro de cada gnero como mostra a Tabela 19.
150
Tipo de comercial
80 60 40 20 0 A B C
66
Tipo de comercial Gnero A B 39% 66% 50% C 21% 10% 17% Total 100% 100% 100% Meninos 40%
40 39 21 24 10
Meninos Meninas
Analisando a Tabela 19 observamos que as meninas tem uma forte preferncia pelo comercial B, enquanto que os meninos se dividem entre o comercial A e B. Assim, intuitivamente percebemos que existe interferncia do gnero na preferncia, agora precisamos saber at que ponto essas diferenas se devem ao acaso, ou a existncia de associao entre as duas variveis: X: preferencia pelo comercial ( A, B e C) qualitativa Y: gnero (meninos, meninas) qualitativa Hiptese nula: A preferncia pelo comercial independe do gnero da criana Hiptese alternativa: A preferncia pelo comercial depende do gnero da criana (ou, o gnero interfere na preferencia pelo comercial) Ho: independncia de variveis H1: dependncia de variveis Como deveriam ser os valores a serem observados se as variveis fossem independentes?, ou dito de outra forma, sob a hiptese de nulidade, de independncia de variveis, como deveriam ser os valores a serem observados? A lgica nos diz que esses valores devem estar muito prximos da estrutura percentual global. Esses valores so chamados de valores esperados.
Tipo de comercial Gnero Meninos Meninas Total A 60% 40% 42 B 60% 40% 62 C 60% 40% 21 Total 60% 40% 150 Gnero Meninos Meninas Total Valores esperados A 25 17 42 B 37 25 62 C 13 8 21 Total 75 50 150
151
Observe que cada valor esperado foi calculado supondo que a estrutura percentual global se mantm em cada coluna: Calculando os valores esperados, sobre a suposio de independncia: Valor esperado menino, comercial A: 60% de 42 = 25,2 Valor esperado menino, comercial B: 60% de 62 = 37,2 Valor esperado menino, comercial C: 60% de 21 = 12,6 Valor esperado menina, comercial A: 40% de 42 = 16,8 Valor esperado menina, comercial B: 40% de 62 = 24,8 Valor esperado menina, comercial C: 40% de 21 = 8,4 O mesmo teria acontecido se fixarmos primeiro o comercial: Valor esperado comercial A, menino: 33,7% de 75= 25,2 Valor esperado comercial A, menina: 33,7% de 50= 16,8 Valor esperado comercial B, menino: 49,6% de 75= 37,2 Valor esperado comercial B, menina: 49,6% de 50= 24,8 Valor esperado comercial C, menino: 16,8% de 75= 12,6 Valor esperado comercial C, menina: 16,8% de 50= 8,4 Tanto faz fixar a linha ou a coluna pois: total _ linha * total _ coluna total _ coluna total _ linha = total _ linha * = total _ coluna * total _ geral total _ geral total _ geral
esperado =
Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna: 75 * 42 42 75 = 75 * = 42 * = 25,2 125 125 125
esperado =
152
Dentro de cada clula, no canto superior esquerdo colocamos o valor observado, no canto superior direito o valor esperado (sob a hiptese de independncia) e, na parte inferior, a distncia entre o observado e o esperado. Logo, se as variveis fossem independentes, as distncias entre os valores observados e esperados deveriam ser muito pequenas, caso contrrio haver indcios de dependncia. A pergunta agora : quando a distncia pequena ou grande? Para isto devemos calcular o valor chi-quadrado da amostra:
2
amostra
que ter uma distribuio chi-quadrado com graus de liberdade igual ao produto do nmero de linhas menos um vezes o nmero de colunas menos um.
2 ~ v2 amostra
No nosso exemplo:
2 = amostra
( +4,8) 2 ( 8,2) 2 ( +3,4) 2 ( 4,8) 2 ( +8,2) 2 ( 3,4) 2 + + + + + 25,2 37,2 12,6 16,8 24,8 8,4
2amostra= 0,914 + 1,808 + 0,917 + 1,371 + 2,711 + 1,376 2amostra= 9,09818 onde v = (2-1)*(3-1)=1*2=2
Para aceitar ou rejeitar a hiptese devemos procurar na tabela chi-quadrado, com dois graus de liberdade. Para =5%, o valor crtico 5,991, como o valor da amostra maior que o valor crtico, logo rejeitamos a hiptese nula, concluindo que o gnero interfere na preferncia pelos comerciais.
No caso de dispormos de um pacote estatstico, este, via de regra, calcula o p-valor, nesse caso s comparar esse valor com o nvel de significncia desejado. No nosso caso o pvalor = 0,01058, ou seja, rejeitamos ao nvel de 5% mas no ao nvel de 1%.
153
Para trabalhar esses dados com o SPSS, devemos entrar os dados como mostrado a seguir, s que antes de pedir a tabela cruzada devemos usar o comando WEIGHT para ponderar as clulas.
Passos para trabalhar tabelas de contingncia no SPSS, quando j se tem os valores observados: 1- Criar um banco de dados, com a seguinte estrutura: GENERO 1 1 1 2 2 2 TIPO CRIANCAS A 30 B 29 C 16 A 12 B 33 C 5
3- Solicitar a tabela cruzada: Statistics Summarize Cross Tab Selecionar gnero (ou tipo) na linha Selecionar tipo (ou gnero) na coluna Statistics Chi-square Contingency coeficient Cell expected Row percent ( %linha) Column percent ( %coluna) Sada do SPSS GENERO by TIPO Count | Exp Val | TIPO Row Pct | Row Col Pct | A | B | C | Total GENERO --------+------+------+------+ 1 | 30| 29| 16| 75 | 25,2| 37,2| 12,6| 60,0% | 40,0%| 38,7%| 21,3%| | 71,4%| 46,8%| 76,2%| +------+------+------+ 2 | 12| 33| 5| 50 | 16,8| 24,8| 8,4| 40,0% | 24,0%| 66,0%| 10,0%| | 28,6%| 53,2%| 23,8%| +------+------+------+ Column 42 62 21 125 Total 33,6% 49,6% 16,8% 100,0% Chi-Square Value ----------------------Pearson 9,09818 Likelihood Ratio 9,25354 Minimum Expected Frequency 8,400 Approximate Statistic Value Contingency Coefficient ,26047 *1 Pearson chi-square probability DF ---2 2 ASE1 Val/ASE0
p-valor
Significance -----------,01058 ,00979 Significance ,01058 *1
154
Limitaes do teste 2: Infelizmente, o teste chi-quadrado no permite concluir como se d a relao, uma vez que ele testa apenas a hiptese geral de que as duas variveis so independentes. Examinando a distncia entre valor observado e esperado, por exemplo, observamos que as meninas tem uma maior preferncia pelo comercial B, porm no podemos concluir nada. Uma outra limitao do teste chi-quadrado que o valor esperado das clulas no deve ser menor ou igual a 5, pois isso torna vulnervel a estatstica. Nesse caso, tem que se usar outra estratgia.
A hiptese nula esta testando que a proporo de alunos com baixo desempenho igual a proporo de alunos mdio e igual a proporo de alunos com desempenho alto quando seus pais participam ativamente das atividades extra-escolares, contra a hiptese alternativa que indica que existe pelo menos uma proporo diferente. O teste idntico ao teste de independncia. Faa o teste e confira seus resultados com o SPSS. Construa um grfico apropriado.
155
7.4 O Coeficiente de Contingncia. O coeficiente de contingncia uma medida do alcance da associao ou relao entre dois conjuntos de atributos. Ele calculado em funo do valor calculado na tabela de contingncia e independe de ordenao das categorias das variveis: C= 2 2 + N Onde N o tamanho da amostra geral
C=
Para testar a significncia deste coeficiente teramos que recorrer a tabela prpria. Felizmente, o SPSS calcula o valor p, que nos permite testar : Ho: C=0 H1: C0 Se o p-valor associado for menor que alfa rejeitamos Ho e conclumos de que existe associao entre as variveis, caso contrrio no.
O mtodo est baseado na distribuio hipergeomtrica, calculando a probabilidade de observar um determinado conjunto de frequncias em uma tabela 2x2, quando se consideram fixos os totais marginais, sob a hiptese de nulidade, ou seja independncia de variveis.
156
A + C B + D A B ( A + B )!* (C + D)!* ( A + C )!* ( B + D)! = p= N !* A!* B !* C !* D! N A + B Essa probabilidade, na realidade o p-valor, ou seja a probabilidade de rejeitar o hiptese nula sob a suposio de independncia, em outras palavras, a probabilidade de afirmar que so dependentes quando na realidade as variveis so independentes. Esse valor deve ser comparado com o nvel de significncia estipulado pelo pesquisador. Vejamos um exemplo: Suponha que voc tem dois grupos: experimental (Grupo I) e controle (grupo II) e que esteja testando influncia de jogos matemticos na aprendizagem da multiplicao.
GRUPO by VARIAVEL Count
| Aprendizagem | Row |No |Sim | Total GRUPO --------+--------+--------+ Experimental I | | 10 | 10 | | | 52,6 +--------+--------+ Controle II | 5 | 4 | 9 | | | 47,4 +--------+--------+ Column 5 14 19 Total 26,3 73,7 100,0 Chi-Square -------------Pearson Continuity Correction Likelihood Ratio Fisher's Exact Test: One-Tail Two-Tail Value ----------7,53968 4,94679 9,53539 DF ---1 1 1
p-valor
Minimum Expected Frequency 2,368 Cells with Expected Frequency < 5 Approximate Satistic Value ----------------------Contingency Coefficient ,53300
2 OF
ASE1 --------
*1 Pearson chi-square probability >Warning # 3211 >On at least one case, the value of the weight variable was zero, negative, >or missing. Such cases are invisible to statistical procedures and graphs >which need positively weighted cases, but remain on the file and are
157
VIII. ANLISE DE CORRELAO E REGRESSO Contedo a serem trabalhados: Anlise de associao linear entre variveis. O coeficiente de correlao de Pearson e de Spearman. A matriz de correlao. Teste de hipteses. Anlise de correlao parcial. O uso do SPSS, o comando Correlate e as opes bivariate, partial. Anlise de regresso linear simples e mltipla. Pressupostos implcitos e sua validade. Teste de hiptese e intervalo de confiana. Anlise de varincia. Qualidade do ajuste, o coeficiente de determinao. Anlise da validade das suposies implcitas, a busca do melhor ajuste. Trabalhando com outliers e pontos influentes. Determinao da importncia das variveis. Construindo modelos, selecionando variveis. O problema de colinearidade. Como trabalhar com modelos no lineares. Transformaes lineares. Apresentao grfica. O comando Regression e suas opes. Neste tpico estudaremos a relao entre duas ou mais variveis quantitativas. Segundo ou dicionrio Aurlio, correlao significa relao mtua entre dois termos, qualidade de correlativo, correspondncia. Correlacionar, significa estabelecer relao ou correlao entre; ter correlao. Enquanto que a palavra regresso significa: ato ou efeito de regressar, de voltar, retorno, regresso; dependncia funcional entre duas ou mais variveis aleatrias. A palavra regredir significa ir em marcha regressiva, retroceder. Mas, onde e como surgiram os termos correlao e regresso? Foi Francis Galton (18221911), primo de Charles Darwin, quem usou pela primeira vez esses termos, cujo trabalho influenciou a Estatstica e a Psicologia. Galton publicou o livro Gnio Hereditrio, em 1869, onde aplicou conceitos estatsticos a problemas da hereditariedade. Galton ficou impressionado com a distribuio normal aplicada a rea de biologia por Quetelet, que mostrar no livro O homem Mdio, que a estatura de dez mil sujeitos seguiam uma distribuio normal, ou seja a maioria dos sujeitos tinham suas estaturas em torno da mdia e que um nmero, cada vez menor, vai sendo encontrado medida que se afasta da mdia. O primeiro relato onde Galton usou o termo co-relaes foi em 1888. As tcnicas modernas de determinao da validade e da confiabilidade de testes, bem como os mtodos da anlise fatorial so resultados diretos da descoberta, por Galton, da correlao, produzida quando ele observou que as caractersticas tendem a regredir na direo da mdia (Scultz e Sschultz, 1981). Galton cunhou o termo regresso quando observou que filhos de homens altos, no so, em mdia, to altos quanto os pais, enquanto que os filhos de homens muito baixos so, em mdia, mais altos do que os pais. Ele concebeu uma forma grfica de representar as propriedades bsicas do coeficiente de correlao. Ele aplicou o seu mtodo de correlao a variaes de medidas fsicas, por exemplo, mostrou a correlao entre a altura do corpo e o comprimento da cabea. Seu aluno Karl Pearson desenvolveu a formula matemtica, que usamos hoje e que tem o seu nome em homenagem. O smbolo do coeficiente de correlao r, vem da primeira letra de regresso, em reconhecimentos a Galton.
158
Quando estudamos a relao entre duas variveis X e Y devemos apreender um novo conceito que a covarincia. Se a varincia uma estatstica atravs da qual chegamos ao desvio padro que uma medida de disperso, da mesma maneira a covarincia uma estatstica atravs da qual chegamos ao coeficiente de correlao que mede o grau de associao linear entre duas variveis aleatrias X e Y. Apresentaremos esses conceitos atravs de um exemplo, simples e ilustrativo. Sejam X e Y duas variveis aleatrias quaisquer, que tomam os seguintes valores: Tabela 21. Clculo do coeficiente de correlao de Pearson
X Y DESVIOX (Xi-X) 1 2 3 4 5 6 7 8 9 10 55 0 2 4 5 5 8 7 7 11 11 60 -4,50 -3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50 4,50 0 DESVIOY (Yi-Y) -6,00 -4,00 -2,00 -1,00 -1,00 2,00 1,00 1,00 5,00 5,00 0 DXDY (Xi-X)*(Yi-Y) 27,00 14,00 5,00 1,50 ,50 1,00 1,50 2,50 17,50 22,50 93,00 DESVIOX2 DESVIOY2 (Xi-X) 20,25 12,25 6,25 2,25 ,25 ,25 2,25 6,25 12,25 20,25 82,50
2
PRE_1 Y=a+bX ,92727 2,05455 3,18182 4,30909 5,43636 6,56364 7,69091 8,81818 9,94545 11,07273 60,0000
(Yi-Y) 36,00 16,00 4,00 1,00 1,00 4,00 1,00 1,00 25,00 25,00 114,00
A rigor voc no precisa de calcular os desvios, uma vez que o SPSS calcula todos esses valores internamente. Aqui calculamos todos os componentes da covarincia e correlao apenas como forma de ilustrar. Utilizamos o comando compute para isso. A varivel Pre_1 calculada pelo prprio SPSS e que devemos salvar para poder colocar a linha ajustada, no grfico da regresso. A Figura 41 mostra a relao entre as duas variveis X e Y, bem como a linha ajustada a esses valores pelo mtodo de mnimos quadrados. Observe que a mdia de X 5,5 e a mdia de Y 6,0, e que elas esto formadas pelas linhas paralelas ao eixo Y e ao eixo X respectivamente. Vejamos agora o que significa os desvios de cada ponto em relao a mdia. Observe que cada ponto est formado pelo par ordenado (Xi,Yi), onde Xi indica o valor da varivel X e Yi o valor da varivel Y naquele ponto. Observe que os desvio dos pontos que caem no II quadrante (supondo X e Y os eixos centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, tambm, tomaro valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois desvios tomaro valores negativos, por tanto seus produtos tomaro valores positivos. Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos desvios sempre ser positivo, logo afirmaremos que a covarincia destas duas variveis positiva, ou em outras palavras, a relao entre elas direta, ou seja, a medida que uma cresce, a outra, tambm cresce e vice-versa.
159
Y
12 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2
(X9,Y9)
III
II
Y=6,0
IV
I X
10
11
X=5,5
e DesvioY=(Y9-Y)=(11-6,0) = + 5,0
DesvioX*DesvioY = (X9-X)*(Y9-Y) = (9 -5,5)*(11-6,0) = (+ 3,5)*(+5,0)=17,5 Se calcularmos esses produtos para todos os valores de X e Y e somarmos temos o numerador da covarincia de X e Y:
C( X ,Y ) =
C(X,Y)=93/10=9,3
(X
X ) * (Yi Y ) n
Logo, covarincia significa co-variao, como as duas variveis variam de forma conjunta. Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os produtos tomaro valores negativos. O mesmo vai acontecer com os pontos do quadrante III, nele, os desvios de X tomaro valores negativos e os desvios de Y, valores positivos, logo os produtos tomaro valores negativos. Assim, se a maioria dos pontos
Apostila de Estatstica Prof Irene Mauricio Cazorla
160
caem nos quadrantes I e III a covarincia tomar valores negativos, indicando que essas duas variveis se relacionam de forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa. Quando os pontos se distribuem nos quatro quadrantes, haver valores positivos e negativos, logo a soma tender para zero, e neste caso, afirmaremos que no existe relao linear entre essas variveis. Observamos que esta estatstica tender para zero, mesmo havendo uma relao que no for linear, por exemplo se os dados tivessem o formato de uma parbola, ou relao quadrtica. Estudaremos relaes no lineares mais adiante. A pesar da covarincia ser uma estatstica adequada para medir relao linear entre duas variveis ela complicada para comparar graus de relao entre variveis, e isto devido que est influenciada pelas unidades de medida de cada varivel, que pode ser metros, quilometro, quilogramas, centmetros, em fim. Para evitar a influncia da ordem de grandeza e unidades de cada varivel, dividimos a covarincia pelo desvio padro de X e de Y, dando origem ao coeficiente de correlao de Pearson: Notao: Coeficiente de correlao amostral: r Coeficiente de correlao populacional:
r=
C( X , Y ) S Y *S X
Sx=2,8723 Sy=3,3764
r=
Como o coeficiente de correlao est isento de unidades e da ordem de grandeza das variveis, esta toma valores entre 1 e 1. Quando a relao positiva r +1, tomar o valor 1 quando a relao perfeita Quando a relao negativa r -1, tomar o valor -1 quando a relao perfeita Quando a relao difusa ou no linear r 0 Vejamos como solicitar esta estatstica no SPSS Statistics Correlate Bivariate Selecionar as variveis desejadas, no caso X e Y, mas podem ser mais do que duas. O SPSS calcula a matriz de correlao, ou seja cruza todas as variveis, com todas: Sada do comando correlate: A matriz de correlao calcula a correlao entre todas as variveis, logo - - - - Correlation Coefficients uma matriz simtrica e na diagonal sempre ter o valor 1, uma vez que se X Y trata da correlao da varivel com ela mesma. O valor entre parntesis indica o nmero de observaes includas no Apostila de Estatstica clculo. E o p-valor, que testa as Prof Irene Mauricio Cazorla seguintes hipteses: Ho: = 0
161
(Coefficient / (Cases) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed Se voc desejar, pode solicitar o coeficiente de Spearman e de Kendalls tau-b. s clicar nas opes: --- SPEARMAN CORRELATION COEFFICIENTS --Y ,9542 N( 10) Sig ,000 X
(Coefficient / (Cases) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed Vejamos um exemplo fictcio para analisar correlao entre variveis:
X 1 2 3 4 5 6 7 8 9 10 Y 1 2 3 4 5 6 7 8 9 10 Z 0 2 4 5 5 8 7 7 11 11 W 10 9 8 7 6 5 4 3 2 1 V 11 11 7 7 8 5 5 4 2 0 U 100 81 64 49 36 36 49 64 81 100 T 6 5 3 7 2 9 3 5 7 2
162
( 10) P= , Y 1,0000 ( 10) P= ,000 ,9590 ( 10) P= ,000 -1,0000 ( 10) P= ,000 -,9590 ( 10) P= ,000 ,0000 ( 10) P=1,000 -,1312 ( 10) P= ,718
( 10) P= ,000 1,0000 ( 10) P= , ,9590 ( 10) P= ,000 -1,0000 ( 10) P= ,000 -,9590 ( 10) P= ,000 ,0000 ( 10) P=1,000 -,1312 ( 10) P= ,718
( 10) P= ,000 ,9590 ( 10) P= ,000 1,0000 ( 10) P= , -,9590 ( 10) P= ,000 -,9649 ( 10) P= ,000 -,0614 ( 10) P= ,866 ,0000 ( 10) P=1,000
( 10) P= ,000 -1,0000 ( 10) P= ,000 -,9590 ( 10) P= ,000 1,0000 ( 10) P= , ,9590 ( 10) P= ,000 ,0000 ( 10) P=1,000 ,1312 ( 10) P= ,718
( 10) P= ,000 -,9590 ( 10) P= ,000 -,9649 ( 10) P= ,000 ,9590 ( 10) P= ,000 1,0000 ( 10) P= , -,0614 ( 10) P= ,866 ,0919 ( 10) P= ,801
( 10) P=1,000 ,0000 ( 10) P=1,000 -,0614 ( 10) P= ,866 ,0000 ( 10) P=1,000 -,0614 ( 10) P= ,866 1,0000 ( 10) P= , -,1250 ( 10) P= ,731
( 10) P= ,718 -,1312 ( 10) P= ,718 ,0000 ( 10) P=1,000 ,1312 ( 10) P= ,718 ,0919 ( 10) P= ,801 -,1250 ( 10) P= ,731 1,0000 ( 10) P= ,
(Coefficient / (Cases) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed - - - - Y S P E A R M A N 1,0000 N( 10) Sig ,000 ,9542 N( 10) Sig ,000 -1,0000 N( 10) Sig ,000 -,9542 N( 10) Sig ,000 ,0000 N( 10) Sig1,000 -,1534 N( 10) Sig ,672 ,9542 N( 10) Sig ,000 -1,0000 N( 10) Sig ,000 -,9542 N( 10) Sig ,000 ,0000 N( 10) Sig1,000 -,9542 N( 10) Sig ,000 -,9383 N( 10) Sig ,000 -,0870 N( 10) Sig ,811 ,0557 N( 10) Sig ,878 Z ,9542 N( 10) Sig ,000 ,0000 N( 10) Sig1,000 ,1534 N( 10) Sig ,672 W -,0870 N( 10) Sig ,811 ,0248 N( 10) Sig ,946 V -,0997 N( 10) Sig ,784 U C O R R E L A T I O N C O E F F I C I E N T S - - - - - -
(Coefficient / (Cases) / 2-tailed Significance) Y Y cannot be computed " . " is printed if a coefficient
V V
U U
163
Para solicitar este grfico, utilizar os seguintes comandos: Graphs Scatter plot Matrix selecionar as variveis desejadas.
Observe que a matriz no simtrica, porque acima da diagonal est graficado X na ordenada e Y na abscissa, enquanto que, na diagonal inferior, Y est na ordenada e X na abscissa. A anlise de correlao sempre deve ser feito utilizando o coeficiente de correlao e do grfico, uma vez que o coeficiente de correlao de Pearson apenas detecta relaes lineares. Quando a relao no linear podemos fazer uso de transformaes que linearizam a relao ou mtodos de regresso no linear.
R = 0,959
Multiple R R Square Adjusted R Square Standard Error ,95897 ,91962 ,90957 1,07026
R2 = 92%
Sum of Squares Mean Square 1 104,83636 104,83636 9,16364 1,14545 Signif F = ,0000
164
------------------ Variables in the Equation -----------------Variable X (Constant) B 1,127273 -0,200000 SE B ,117832 ,731126 Beta ,9589 T 9,567 -,274 Sig T ,0000 ,7914
Y=
End Block Number 1 All requested variables entered. * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Residuals Statistics: Min Max Mean Std Dev N *PRED *RESID *ZPRED *ZRESID ,9273 -1,8182 -1,4863 -1,6988 11,0727 1,4364 1,4863 1,3421 10 6,0000 ,0000 ,0000 ,0000 3,4130 1,0090 1,0000 ,9428 10 10 10 10
Total Cases =
From Equation 1: 1 new variables have been created. Name Contents ----------PRE_1 Predicted Value Hi-Res Chart # 3:Scatter of y pre_1 x x
165
Referncias Bibliogrficas 1. Referncias utilizadas na Apostila e em DICAS A seguir colocamos algumas indicaes de bibliografia, utilizadas na Apostila e em DICAS, por assunto e nvel de dificuldade. Esperamos que possam auxiliar na escolha da tcnica a ser aplicada em seus dados. CONE, J. D. e FOSTER, S. L. Dissertations and Theses, from start to finish. American Psychological Association-APA, 1993. Livros bsicos, indicados para uma primeira leitura de estatstica descritiva e alguns contedos de estatstica inferencial: BARBETTA, P. A. Estatstica aplicada s Cincias Sociais. Florianpolis: Ed. da UFSC, 1998. LEVIN, J. Estatstica Aplicada a Cincias Humanas. 2 ed. So Paulo: Harbra, 1987. VIEIRA, S. Introduo Bioestatstica. Rio de Janeiro: Campus, 1998. VIEIRA, S. e HOFFMANN, R. Estatstica Experimental. So Paulo: Atlas, 1989. Livros indicados para uma segunda leitura dos assuntos bsicos de estatstica descritiva e inferencial: BUSSAB, W. O. E MORETTIN, P.A Estatstica Bsica. So Paulo: Atual, 1986. COSTA NETO P. L. de O. Estatstica. So Paulo: Edgard Blcher Ltda, 1977. DOWNING, D. e CLARK, J. Estatstica Aplicada. Traduo de Alfredo Alves Farias. So Paulo: Saraiva, 1999. FONSECA, J. S. da e MARTINS, G. A. Curso de Estatstica. 5 ed. So Paulo: Atlas, 1995. HOEL, P. G. Estatstica Elementar. 4 ed. So Paulo: Atlas, 1981. PIMENTEL GOMES, F. (2000). Estatstica Experimental. So Paulo: Livraria Nobel. SOARES, J. F. e SIQUEIRA, A. L. Introduo Estatstica Mdica. Belo Horizonte: UFMG, 1999.0 Livro indicado para estatstica no paramtrica: SIEGEL, S. Estatstica No-Paramtrica. Mc Graw-Hill, 1975. (Existe uma verso em ingls, mais atual).
166
Livros de metodologia cientfica, em portugus, que podem auxiliar o entendimento de alguns conceitos estatsticos. CONTANDRIOPOULOS, A-P; CHAMPAGNE, F; DENS, J-L E BOYLE, P. Saber preparar uma pesquisa: definio, estrutura e financiamento. Rio de Janeiro: Hucitec. 1994. MATTAR, Fauze Najib. Pesquisa de Marketing. So Paulo: Atlas, 1996, vols. 1 e 2. Livros para uma primeira leitura sobre Estatstica multivariada HAIR, J. F., ANDERSON, R.E., TATHAM, R. L. e BLACK, W. C. Multivariate Data Analysis with readings. Englewood Cliffs, NJ: Prentice Hall. PEREIRA, J.C.R. Anlise de Dados Qualitativos: Estratgias Metodolgicas para as Cincias da Sade, Humanas e Sociais. So Paulo: EDUSP. 1999. Manual do SPSS (apresenta uma descrio das tcnicas estatsticas disponveis, incluindo definies, pressupostos, exemplos e de como voc deve proceder para utiliz-las na anlise do seus dados) Norusis, M. J. SPSS for Windows. Base System Users Guide. Release 6.0. Chicago. SPSS Inc. 1993
167
168
Cone, J. D. e Foster, S. L. (1993). Dissertation and theses from start to finish. Washington: APA. Crossen, C. (1994). O fundo falso das pesquisas: a cincia das verdades torcidas. Rio de Janeiro, RJ: Revan. David, F. N. (1998). Games, Gods and Gambling: A History of Probability and Statistical Ideas. Mineola, NY: Dover Publications, Inc. Dewdney, A. K. (1999). 20.000 lguas matemticas: um passeio pelo misterioso mundo dos nmeros. Rio de Janeiro, RJ: Jorge Zahar Editor. Eysenck, M. W. e Keane, M. T. (1994). Psicologia Cognitiva: um manual introdutrio. Porto Alegre: Artes Mdicas Fainguelernt, E. K. (1999). Educao Matemtica: representao e construo em geometria. Porto Alegre: Artes Mdicas Gal, I. e Garfield, J. B. (1997). The assessment challenge in Statistics Education. Amsterdan: ISI Goldstein, W. M. e Hogarth, R. M. (Eds.) (1997). Research on Judgment and Decision Making: Currents, Connections, and Controversies. New York, NY: Cambridge University Press. Goldstone, R. L.; Schyns, P. G. e Medin, D. L. (Eds.) (1997). Perceptual learning. San Diego: Academic Press. Greenfield, P. M. e Retschitzki, J. (1998). Lenfant et les mdias. Suisse: Editions Universitaires Fribourg Suisse. Grimm, L. G. e Yarnold, P. R. (1995). Reading and Understanding Multivariate Statistics. Washington, APA. Grouws, D. A. (Ed) (1992). Handbook of research on Mathematics teaching and learning. New York, Macmillan Hair, J. F.; Anderson, R. E.; Tatham, R. L. and Black, W. C. (1995). Multivariate Data Analysis with Readings. New Jersey, Prentice Hall. Herrnstein, R. J. e Murray, C. (1996). The Bell Curve: Intelligence and Class Structure in American Life. New York, NY: Free Press Paperbacks. Hiebert, J. (1986). Conceptual and procedural Knowledge: the case of mathematics. Hillsdale-NJ, Lawrence Erlbaum Associates, Inc. Hoaglin, D. C. e Moore, D. S. (Eds.) (1992). Perspectives on Contemporary Statistics (MAA Notes, No 21). Holland, J. H., Holyoak, K. J., Nisbett, R. E. e Thagard, P. R. (1989). Induction: Processes of Inference, Learning and Discovery. Cambridge, MA: The MIT Press. Hoffman, R. R. e Palermo, D. S. (1991). Cognition and the symbolic processes: applied and ecological perspectives. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc. Johnson-Laird, P. N. (1983). Mental models. Cambridge, MA: Harvard University Press. Kahneman, D., Slovic, P. e Tversky, A. (Eds.) (1982). Judgment Under Uncertainty: heuristics and biases. New York, NY: Cambridge University Press.
169
Kincheloe, J. L., Steinberg, S. R e Gresson, A. D. (Eds.) (1997). Measured Lies: The Bell Curve Examined. New York, NY: St. Martins Press. Klausmeier, H. J. e Goodwin, W. Manual de Psicologia Educacional: aprendizagem e capacidades humanas. So Paulo: Harper Klher, W. Gestalt Psychology. New York: Liveright publishing Corporation. Kosslyn, S. M. (1996). Image and Brain: The Resolution of the Imagery Debate. Cambridge, MA: MIT Press. Kun, T. (1970). A estrutura das revolues cientficas. So Paulo, SP: Ed. Perspectiva Lajoie, S. (Ed.) (1998). Reflections on Statistics : Learning, Teaching, and Assessment in Grades K-12. Mahwah, NJ: L. Erlbaum Associates, Inc. Lindsay, P. H. e Norman, D. A. (1977). Human Information Processing: an introduction to psychology. New York: Academic Press. Lindquist, M. M. e Shulte, A. P. (1996). Aprendendo e ensinando geometria. So Paulo: Atual. Lohse, J. (1991). A cognitive model for the perception and understanding of graphs. In S. P. Robertson, G. M. Olson e J. S. Olson, (Eds.). Reaching Through Technology: Chi91 Conference Proceedings. New Orleans, Louisiana. Lynch, M. e Woolgar, S. (1990). Representation in Scientific Practice. Cambridge, MA: MIT Press. Marr, D. (1982). Vision: a computational investigation into the human representation and processing of visual information. San Francisco: W. H. Freeman. Martin, J. R. e Veel R (Eds.). (1998). Reading Science: Critical and Functional Perspectives on Discourses of Science. New York, NY: Routledge. Mayer, R. E. (1992). Thinking, Problem Solving, Cognition. New York. W. H. Freeman and Company. Meshane, J. (1991). Cognitive Development: an implications, processing approach. Oxford. Basil Blacwill (ver referncia exata na ementa da disciplina da Mrcia) National Council of Teachers of Mathematics. (1995) Assessement Standars for School Mathematics. Nunnally, J. C. Jr. (1970) Introduction to Psychological Measurement. New York: Mcgraw-Hill book company. Pandey T. (1991) A Sampler of Mathematics Assessment. California. Parmetros Curriculares Nacionais - Matemtica (3 e 4 ciclos). Braslia: MEC Secretaria de Educao Fundamental. Verso Preliminar. Outubro/1997. Parmetros Curriculares Nacionais - Matemtica (Ensino Mdio). Braslia: MEC Secretaria de Educao Mdio? Verso Preliminar. Outubro/1997. Pereira, J. C. R. (1999). Anlise de dados qualitativos. So Paulo: Edusp Piaget, J e Inhelder, B. (1993). A representao do espao na criana. Porto Alegre: Artes Mdicas
170
Pinker, S. (1990). A theory of graph comprehension (p. 73-126). In Freedle, R. O. (Ed.) Artificial intelligence and the future of testing. Hillsdale, NJ: L. Erlbaum Associates. Pinker, S. (1997). How the Mind Works. New York: NY: W.W. Norton e Cia, Inc. Pinker, S. e Mehler, J. (1988). Connections and symbols. Cambridge: MIT Press Planckett, R. L. (1970). The principle of the arithmetic mean, Studies in the history of statistics and probability (pp, 121-126). London: Griffin. Poincar, H. (1995). O valor da cincia. Rio de Janeiro, RJ: Contraponto. Pozo, J. I. (1998). Teorias cognitivas da aprendizagem. Porto Alegre: Artes Mdicas Porter, T. M. (1986). The rise of statistics thinking: 1820-1900. .Princeton: Princeton University Press. Romberg, T. A, Fennema, E. e Carpenter (Eds.). Integrating research on the graphical representation of functions. New York: Lawrence Erlbaum Association. Salvador, C. K. (1994). Aprendizagem escolar e construo do conhecimento. Porto Alegre: Artes Mdicas. Sharma, S. 1996. Applied Multivariate Techniques. New York, John Wiley & Sons, Inc. Shultz, D. P. e Schultz, S. E. (1992). Histria da Psicologia Moderna. So Paulo: Cultrix Skemp, R. 1980. Psicologia del aprendizaje de las matemticas. Madrid, Ed Morata. Solso, R. L. (1991). Cognitive Psychology. Boston: Allyn and Someron, M. W., Barnard, Y. F. e Sandberg, J. A. C. (1994). The think aloud method. New York: Academic Press Steen, L. A. (Ed.) (1997). Why Numbers Count: Quantitative Literacy for Tomorrow's America. New York, NY: The College Board Stenberg, R. (2000). Psicologia cognitiva. Porto Alegre. Artes Mdicas Sul Stenberg, R. (Ed) (1994). Thinking and Problem Solving. California: Academic Press Stenberg, R. (1992). As capacidades intelectuais humanas: uma abordagem em processamento de informaes. Porto Alegre. Artes Mdicas Stewart, I. (1991) Ser que deus joga dados? Rio de Janeiro, RJ: Jorge Zahar Ed. Stiff, L. e Curcio, F. R. (Eds.) (1999). Developing Mathematical Reasoning in Grades K-12 (Yearbook (National Council of Teachers of Mathematics) Stigler; S. M. (1999). Statistics on the Table: The History of Statistical Concepts and Methods. Cambridge, MA: Harvard University Press. Tankard, J. W. (1984). The Statistical Pioneers. Cambridge, MA: Schenkman Publishing Company, Inc. Tufte, E. R. (1998). Visual Explanations: Images and Quantities, Evidence and Narrative. Cheshire, CE. Graphics Press Tufte, E. R. (1993). The visual display of quantitative information. Cheshire, CE. Graphics Press
171
Vallecillos, A J. (1996). Inferencia estadstica y ensenanza: un anlisis didctico del contraste de hiptesis estadsticas. Granada - ES. Coleccin Mathema. ED. Comares. Virilio, P. (1988). La machine dela vision. Paris: Galile. 3. ABE: Associao Brasileira de Estatstica(IMECC-UNICAMP)
Ttulo Estatstica: A tecnologia da Cincia Estatstica em medicina: p-variao Entrevista com Silvio Popadiuk - Presidente do CONRE e funcionrio da Eletropaulo A Escola necessria Perfil da Estatstica no Brasil W. Borges E. Colosimo e C. Diniz Autor(es) Pereira, B. de B. Pereira, B. de B. Volume 37( ), 27-35 31(2), 30-38 29(3), 15-16 28(2), 19-21 27(1), 31-33 25(2), 27-33 24(1), 25-38 O Furo do furo das camisinhas Statistics and Statistical Sciences in The Americas A carreira do Estatstico Aspectos da Vida da Obra de Sir Ronald Fisher J. F. de Carvalho R. Klein H. S Migon E G. Stangenhaus J. M. P. Memria 25(2), 18-27 24(1), 22-25 20, 23-27 19, 21-25 18, 21-27 O futuro da estatstica no mbito Ibero Americano P. A . Morettin Ano 1997 1995 1994 1994 1994 1993 1993 1993 1993 1991 1991 1990
Rosnow, R. L. & Roshenthal, R. 44: 1276-1284 Shalvelson, R. J.; Webb, N. M 44: 922-932 & Rowley, G. L.
6. Arithmetic Teacher (IMECC: 1975-1988) O IME-USP tem uma coleo mais completa
Ttulo Data analysis Estimation is mathematical thinking Mean or meaningless Autor Hitch, C. e Armstrong, G. Harte, S. W. e Glover, M. J. Korithoski, T e Korithoski, P Volume 41, 242-245 40, 75-77 40, 194-197 Ano 1994 1993 1993
172
39(8) 48-52
Conquer mathematics concepts by developing visual Hershkowitz, R. e Markovits, 39(9), 38-41 thinking Z. Non just an average unit Teaching arithmetic averaging: an activity approach Teaching statistics: mean, median and mode Paull, S. Goldman, P. Lappan, G. e Zawojewsky, 38(4), 54-58 37(7), 38-43 35, 25-26
Graphics in psychology: pictures, data, and especially Butler, D. L. concepts Sound alternatives to visual graphics for exploratory Flowers, J. H. e Hauer, T. A. data analysis A picture is worth a thousand p values: On the Loftus, G. R. irrelevance of hypothesis testing in the microcomputer age
173
Mental rotation, mental representation, and flat slopes Cohen, D. e Kubovy Shape recognition inputs to figure ground organization in three dimensional display Common Region: a new principle of perceptual grouping The effects of statistical training on thinking about everyday Problems Pragmatic reasoning schemas Pragmatic versus syntactic approach to training deductive reasoning Subjective probability: a judgment of representativeness
25, 351-382
1993
Peterson, M. A . e Gibson, B. 25(3), 383-429 1993 S. Palmer, S. E. Fong, G. T., Krantz, D. H. e Nisbett, R. E. Cheng, P. W. Holyoak, K. J., Nisbett, R. E. e Oliver, L. M. 24: 436-447 18: 253-292 1992 1986 1986 1986 1972
Hubbard, C., Mengshoel, J. e 28(4), 237-350 Moon, C. Vastola, D. A . & Walker, E. L.25(4) 193-213 Hall, G. Preece, J. 25(1/2) 5-12 8(1), 159-163
Como alguns procedimentos de ensino esto David, M. M. e Machado, M contribuindo para o erro e o fracasso em Matemtica da P. Aprender a no pensar Pato, H.
Factor analytic Evidence for the construct validity of Thompson, B. e Daniel, L. G. 56(2), 197-208 1996 scores: a historical overview and some guidelines Stepwise regression and stepwise discriminant analysis need not apply here: a guidelines editorial Thompson, B. 55(4), 525-534 1995
174
The development and validation of the survey of attitudes toward statistics Guidelines for Autors Relations Amongs Dimensions of Statistical Knowledge
Schau, C., Stevens, J., 55(5), 868-875 1995 Dauphinee, T. L. e Vecchio, A Thompson, B. 54(4), 837-847 1994 1993 1992 1992 1988 1987 1986 C.J. Huberty, J. Dresden & B- 53. 523-532 G Bak
Psychometric data on the statistics anxiety scale for a Pretorius, T. B. e Norman, A. 52 933-937 sample of south african students M The development and factors of the structure of the educational beliefs questionnaire Attitudes toward statistics: na evaluation of multiple measures A comparison of Two Scales Measuring Attitudes Toward Statistics A model of statistics achievement using spatial ability, feminist attitudes and mathematics-related variables as predictors The Development and Validation of a Scale Measuring Attitudes Toward Statistics Silvernail, D.L. 52(3) 663-667
Waters, I. K., Martelli, T. A ., 48, 513-516 Zakrajset, T. e Popovic, P. M. D. M. Roberts & C. M. Reese 47, 759-764 Elmore, P. B. e Vasu, E. S. 46, 215-222
S. L. Wise
Validity of a Statistics Attitude Survey: A Follow-up D. M. Roberts and J. E. Saxe Study Reliability and Validity of a Statistics Attitude Survey D. M. Roberts & E. W. Bilderback
175
Understanding periodicity as a process with a Gestalt Schemata and intuitions in combinatorial reasoning solving abilities Relative and Absolute Thinking in Visual Estimation Process A Framework for Assessing and Nurturing Young Children s Thinking in Probability From Verbal Descriptions to Graphic Representations: Stability and Change in Students Alternatives Conceptions Uncontrolable mental imagery: graphical connections between ... Mathematical connecting the visual with the simbolic On mathematical visualization and the place where we live Student Teachers Subject Matter Knowledge Within the Domain of Area Measurement Students Ability to Visualize Set Expressions: An Initial Investigation Circumventing Visual Limitations in Teaching The Geometry of Shapes Visual Processing During Mathematical Problem Solving Mathematics Achievement and Gender: A Longitudinal Study of selected Cognitive and Affective variables (Grades 6-12)
The Development of fifth-grade childrens problem- English, L.D. Z. Markovits & R. Hershkowitz
G. A . Jones, C. W. Langrall, 32: 101-125 C. A Thornton & A T. Mogill Z. R. Mevarech & B. Kramarsky Aspinwall, L. Shaw, K. L. e Presmeg, N. C. Noss, R., Healy, L e Holyles, C. Nemirovsky, R e Noble, T. A Baturo & R. Nason T. Hodgson T. A Triadafillidis K. J. Campbell, K. F. Collis & J. M. Watson L. A Tartre & E. Fennema 32: 229-263
33, 301-317 33, 203-233 33, 99-131 31: 235-268 30: 159-178 29: 225-235 28: 177-194 28: 199-217
Conceptions DEleves Sur la Notion de Probabilit R. Gras & A. Totohasina Conditionelle Revles par une Mthode DAnalyse des Donnes: Implication-Similarit-Corrlation Facility with Plane Shapes: a Multifaceted Skill Circumventing visual limitations in teaching the geometry of shapes Visual, Algebraic and Mixed strategies in Visually Presented Linear Programming Problems Using Peer and Self-Assessment to develop Modeling Skills With Students Aged 11 to 16: A Socio constructive View E. Warren & L. English Triadafillidis, T. A. G. Shama & T. Dreyfus H. Tanner & S. Jones
28: 337-363
1995
Les representations graphiques dans le resolution de Callejo, M. L. problemes: une experience dentrainement detudiants dans un club mathematique The Theory of figural Concepts Angle e Rotation: Effects of Different Types of Feedback on the Quality of response Visual theorems E. Fischbein M. Simmons & P. Cope Philips, D
27, 1-33
1994
176
A comparative study of two natiowide examinations: maths with calculus and maths with statistics Development of the process conception of function Cognitive Models and problem Spaces in Purely Random Situations Prototypes, metaphors, metonymies and imaginative rationality in high school Book review The body in the mind: the bodily basis of meaning ... On the dual nature of mathematical conceptions: reflections on processes and objects as different sides of the same coin Factors Affecting Probabilistic Judgements in Children and Adolescents
Morton, M., Reilly, B. Robinson, E. e Forbes, S. Breinbach, D. Dubinsky, E. Hawks, J. e Nichols, D. M-P Lecoutre Presmeg, N. C. Presmeg, N. C. Sfard, A.
26, 367-387
1993
23: 247-285 23: 557-568 23, 505-610 23, 307-314 22: 1-36
1991 1991
Factors contributing to success in mathematical Gliner, G. S. estimation in preservice teachers: types of problems and previous mathematical experience The concept of chance in everyday teaching: Aspects of a social epistemology of mathematical knowledge Young children combinatory strategies The influence of graphic calculator use on translation from graphic to symbolic forms Visualization and mathematical giftedness Proportional reasoning: a review of the literature Visualizing rectangular solids made of small cubes: analyzing and effecting students performance Children conceptions of probability a psychological and pedagogical review A deep structure model of students statistical misconceptions. Concept image and concept definition in mathematics with particular reference to limits and continuity Steinbring, H.
22: 503-522
1991
22, 451-474 21: 431-450 17: 297-311 16, 181-204 16: 389-409
Hawkins, A. S. e Kapadia, R. 15:349-377 Mevarech, Z. R. Tall, D. e Vinner, S. 14: 415-429 12: 151-169
Concept or computation: students understanding of Pollatsek, A., Lima, S. e the mean Well, A. D. Spatial ability, visual imagery and mathematical performance Is it possible to measure the intuitive acceptance of a mathematical statement? Spatial abilities and mathematics education a review The development of proportional reasoning and the ratio concept. Part I: differentation of stages Lean, G. e Clements, M. A. Fischbein, E., Tirosh, D. e Melamed, U. Bishop, A. J. Noelting, G.
12: 191-204 12: 267-299 12: 491-512 11: 257-269 11, 217-253
177
Misconception of probability: an experiment with a small-group, activity-based, model building approach to introductory probability at the college level An epistemological view on fundamental ideas
Shaughnessy, J. M.
8, 295-316
1977
Hietele, D.
6, 187-205
1975
Sex differences in visual spatial ability in 9-Anos old Vederhus, L. e Krekling, S. children The General Factor in Short-Term Memory, Intelligence, and Reaction Time Numerical Cognition: on the convergence of Componential and Psychometric Models Ability Differences and Prose Learning Miller, L.T & Vernon, P.
S. Moriguti, P. J. Diggle, J. C. 60(3): 227-246 1992 Gower, K.K. Wallman & W S Ren
Vol 97, 1229-1234 94, 1-6 93. 1-8 88, 1242-1249 92, 1-6 91, 1-8
Enhancing Statistical Literacy: Enriching Our Society K. K. Wallman The Newman-Pearson theories of testing hypothesis: Lehman, E. L. one or two? Statistics, Science and Public Policy Through a Glass Less Darkly A. Zellner V. P. Barabba
178
Statistics and Public Policy: Reflections of a Changing World How to Hope With Statistics Discriminating Strata in Scatterplots Statistical Practice and Research: The Essential Interactions The Importance of Statisticians An information-processing analysis of graph perception Research in Statistical Graphics Boundaries of Statistics-Sharp or Fuzzy Statisticians, Econometricians, and Adversary Proceedings Graphing and Human Information processing Goals: Where Are We and Where Should We Be Going?
J. L. Norwood R. V. Hogg B. A. Bailar D. W. Marquardt Simkim, D. e Hastie, R. Cleveland, W. S. J. Neter F. M. Fisher Kosslyn, S. M. R. L. Anderson
90, 1-5 89, 1-5 88, 1-8 87, 1-7 82, 454-465 82, 419-423 86, 1-8 86,277-286 80, 499-512 84, 253-258
1990 1989 1989 1988 1987 1987 1987 1986 1986 1985 1984 1984 1984 1982 1982 1982 1980 1978 1976 1957 1953
Graphical perception: theory, experimentation, and Cleveland, W. S e McGill, R. 79, 531-554 application to the development of graphical methods The many faces of a scatterplot Preparation of manuscripts for ASA journals The future of statistics as a discipline Judgments of circle sizes on statistical maps Statistics as a science and as a profession Chance, statistics, and statisticians Science and Statistics Errors of the kind in statistical consulting Cleveland, W. S. e McGill, R. 79, 807-822 ASA Bradley, R. A 77, 226-229 77, 1-10
Cleveland, W. S. , Harris, C. S 77, 541-547 e McGill R. Hartley, H. O Kish, L. Box, G. E. P. Kimball, A W. 75, 1-7 73, 1-6 71, 791-799 52, 133-142 48, 244-255
The effects of a graphing-approach intermediate algebra curriculum on students understanding of function Students probabilistic thinking in instruction A Meta-Analysis of the Relationship Between Anxiety Toward Mathematics and Achievement in Mathematics: The meaning of randomness for secondary school students
1999
Jones, G. A.; Langrall, C. W.; 30(5), 487-519 Thorton, C. A. e Mogill, A. T. Ma, X. 30(5), 520-540
1999 1999
Batanero, C. e serrano, L.
30(5), 558-567
1999
179
Relationship between computational performance and num-ber sense among sixth and eighth-grade students in Taiwan
1998
Students spatial structuring of 2D arrays of squares Battista, M. T., Clements, D. H. Arnoff, J., Battista, K. e Borrow, C. V. A. Assessing the Relationship Between Attitude Toward X. Ma & N. Kishor Mathematics and Achievement in Mathematics: A Meta-Analysis Assessing the Relationship Between Attitude Toward X. Ma & N. Kishor Mathematics and Achievement in Mathematics: A Meta-Analysis The evolution whit age of probabilistics, intuitively based misconceptions Mathematical Task and student Cognition: Classroom-Based factors That Support and Inhibit High-Level Mathematical Thinking and Reasoning Intuitive Strategies and Preconceptions About Association in Contingency Tables Gender-related Differences in Self-Referenced Cognitions in Relation to Mathematics Students Understanding of Three - Dimensional Rectangular Array of Cubes Fischbein, E. e Schnarch, D.
1998
28(1): 26-47
1997
28(1): 26-47
1997
Checar
1997 1997
C. Batanero, A. Estepa, J. D. Godino & D. R. Green G. Seegers & M. Boekaerts M. T. Battista & D.H. Clements
27(2): 151-169 27(2): 215-240 27(3): 258-292 27(4): 435-457 26(1): 20-39 26(2): 163-181 26(4), 327-345 25(1): 4-29 25(1): 86-99 24(1): 41-61 24(3): 217-232 24(3): 255-273
1996 1996 1996 1996 1995 1995 1995 1994 1994 1993 1993 1993 1993 1992 1992 1992
Coordinating Visual and Analytic Strategies: A study R. Zazkis, E. Dubinsky & J. of Students Understanding of the Group D4 Dautermann Childrens concepts of average and representativeness Motivation and Ability as Factors in Mathematics Experience and Achievement Mokros, J. e Russell, S. J. U. Schiefele & M. Csikszentmihalyi
Factors associated with types of mathematics anxiety Bessant, K. C. in college students Developing number sense: an intervention study in grade Markovits, Z. e Sowder, J.
On Greeno s environmental /model view of Battista, M. T conceptual domains: a spatial/geometric perspective Ratio and proportion: connecting content and childrens thinking Lamon, S. J.
Cognitive Models Underlying Students Formulation M. MacGregor & K. Stacey of simple Linear Equations Children s Strategies for Solving Two- and Three L. D. English Dimensional Combinatorial problems Inconsistencies in Students Reasoning About Probability Gender Differences in a Psychological Model of Mathematics Achievement
C. Konold, A. Pollatsek, 24(5): 392-414 Well, J. Lohmeier & A Lipson C. A. Ethington 23(2): 166-181 23(4): 306-328
A Process Model of Mathematics Achievement and A. J. Reynolds & H. J. Attitude Walberg A construstivist alternative to the representational view of mind in mathematics education
180
Greeno, J. G.
22(3): 170-218
1991 1991 1990 1990 1989 1988 1988 1988 1987 1986 1985 1985 1982 1982 1982 1982
An Alternative Paradigm to Evaluate the Acquisition A . Gutierrez, A . Jaime & J. M 22(3): 237-251 of the Van Hiele levels Fortuny Spatial Visualization and Gender Differences in High M. T. Batista School Geometry Spatial Orientation Skill and Mathematical Problem L. A . Tartre Solving Images and definitions for the concept of function Vinner, S. e Dreyfus, T. 21(1): 47-60 21(3): 216-229 20(4), 356-366
Difficulties in learning basic concepts in probability Garfield, J e Alhgren, A (1988) 19(1): 44-63 and statistics: implications for research The development of childrens concepts of the arithmetic average Computer experiences in learning compositions of functions Comprehension of mathematical relationship expressed in graphs Characterizing the van Hiele levels of development in geometry Metacognition, cognitive monitoring, and mathematical performance The use of spatial visualization in mathematics by girls and boys Straus, S. e Bichler, E. 19(1): 64-80
Burger, W. F. e Shaughnessy, 17(1): 31-48 J. M. Garofalo, J. Lester, F. K. Jr. Fennema, E. e Tartre, L. A. 16(3): 163-176 16(3): 184-206 13, 83-98 13(3): 183-201 13(5): 360-380 13(5): 332-340
Cognitive development childrens solutions to verbal Hiebert, J. Carpenter, T. D. e arithmetic problems Mosr, J. M. Processes used by good computational estimators Intuitive functional concepts: a baseline study of intuitions Reys, R. E., Bestgen, B. J., Rybolt, J. F. e Wyatt, J. W. Dreyfus, T. e Einsberg, T.
The importance of spatial visualization and cognitive Battista, M. T.; Wheatley, G. development for geometry learning in pre-service H. e Talsma, G. elementary teacher Prediction of developmental stages in the representation of regular space figures A phase-ability model of mathematics problem solving Mitchelmore, M. C. Kulm, G e Bussmann, H.
Sex-related differences in mathematics achievement Fennema, E. H. e Sherman, J. 9 (x): 189-203 and related factors: a further study A.
1980 1980
181
Prevalence, distribution and correlates of math anxiety in college students Predicting math anxiety and course performance in college women and men
1978 1985
Greenwald, A. G & Gillmore 89(4): 743-751 M. Jones, J. & Day. J.D 89(3): 486-497
Halle, T.G; Kurtz-Costes, B. 89(3): 527-537 & Mahoney, J.L. 89(2): 329-341
Should I Ask for Help? The role of motivation and Ryan, A. M. and Pintrich, P. attitudes in Adolescents help seeking in Math Class R. The Shavelson Model Revisited: Testing for the Structure of academic Self-Concept Across Pre-, Early, and Late Adolescents The structure of abilities in Math-Precocious Young Children: Gender Similarities and Differences Role of Examples in How Students Learn to Categorize Statistics Word Problems Effects of drawing on directional representation of the process of vision
Byrne, B. M. & Gavin, D. A. 88(2):215-228 W. Robinson, N.M.; Abboutt, R.D 88(2): 341-352 Berninger, V.W. & Busse, J. Quilice, J. L. & Mayer, R.E. Winer, G. A. e Cotrell, J. E. 88(1):144-161 88(4), 704-714
182
Comprehension Calibration and Recall Prediction Accuracy of Texts: Reading Skill, Reading Strategies, and Effort
1995
Effects of Math Self-Concept, Perceived SelfBandalos, D.L; Yates, K & Efficacy, and Attributions for failure and Success on Thorndike-Christ, T Test Anxiety Visual Argument: Graphic Organizers Are Superior to Outlines in Improving Learning From Text Effects of Teaching Statistical Laws on Reasoning About Everyday Problems Effects of a Visible Autor in Statistical Texts A Multitrait-Multimethod Study of Academic and Social Intelligence in College Students Self-Concept in Artistic Domains: An Extension of the Shavelson, Hubner, and Stanton (1976) Model Determinants of learning and Performance in an Associative Memory/Substitution Task: Task Constraints, Individual Differences, Volition, and Motivation Using the National Longitudinal Study of !988 to Evaluate Theoretical Models of Self-Concept: The Self-description Questionnaire Role of Self-Efficacy and Self-Concept Belief in Mathematical Problem Solving: A Path Analysis Gender Differences in Scholastics Aptitude TestMathematics problem Solving Among High-Ability Students Structural knowledge Assessment: Comparison of referent structures Editorial Role of Mathematics Self-efficacy in the Structural Model of Mathematics Achievement Patterns of Student Growth in Reasoning About Correlational Problems Development of Young Readers Phonological Processing Abilities Training Strategies for Attaining Transfer of Problem-Solving Skill in Statistics: A CognitiveLoad Approach Abilities Test, Measurement, and Markets Instructional Strategies to Help Learners Build Relevant mental Models in Inferential Statistics Robinson, D.H e Kiewra, K. A. Kosonen, P & Winne, P. H. Nolen, S. B.
87(4): 611-623
1995
Wong, C-M. T, Day, J.D., 87(1), 117-133 Maxwell, S. E. e Meara, N. M. Vispoel, W. P. 87(1), 134-153
Marsh, H. W.
86(3), 439-456
1994
1994 1994
Acton, W. H. , Johnson, P.J. e 86, 303-311 Goldsmith, T.E. 85(1), 3-6 Randhawa, B. S., Beamer, J. E 85(1), 41-48 e Lundberg, I. Ross, J. A. e Cousins, J. B. 85(1), 49-65
Wagner, R. K., Torgesen, J. 85(1), 83-103 K., Laughon, P., Simmons K.e Rashotte, C. A. Paas, F. G. W. C. 84(4) 429-434
1992
Academic Achievement in Mathematics and Science Benbow, C. P. of Students between Ages 13 and 23: Are there Differences Among Students in the Top One Percent of Mathematical Ability Hierarchical Ordering of Schematic Knowledge Relating to Area-of Rectangle Problems Low, R e Over, R.
84(1), 62-69
1992
183
Predictors of math anxiety and its influence on young Meece, J. L., Wigfield, A ., e 82, 60-70 Eccles, J. S. adolescents course enrollments intentions and performance in mathematics Effects of attitudes, strategy training, and task facets Kyllonen, P. C., Lohman, D. 76(1): 130-145 on spatial task performance F. e Snow, R. E. Usefulness of a balance model in understanding the mean Hardiman, P. Well, A. e Pollatsek, A. 76, 793-801 72(4), 457-467
1990
Relationship between selected variables and statistics Elmore, P. B. & Vasu, E. S. achievement: building a theoretical model
Mathematics anxiety rating scale: Predicting anxiety Morris, I. W., Kellaway, D. S. 70(4), 589-594 experiences and academic performance in two groups & Smith, D. H. of students Construct validity of test items measuring acquisition Price, J. R., Martuza, V. R. e 66(1), 152-156 of information from line graphs Crouse, J. H.
1974
Visual structure and the integration of form and color Khurana, B. information
Recognizing Depth-rotated objects: evidence and Biederman, I. e Gerhardstein, 19(6), 1162conditions for three-dimensional viewpoint invariance P. C. 1182 Reversing visual search asymmetries with conjunctions of movement and orientation Driver J. e McLeod, P. 18(1), 22-33
Complex decision rules in categorization: contrasting Ashby, F. G. e Maddox, W. T. 18(1), 50-71 novice and experienced performance Size invariance in visual object priming Visual Psychophysics of simple graphical elements Principles of perceptual organization and spatial distortion: the Gestalt illusions Biederman, I. e Cooper, E. E. 18(1), 121-133 18(2), 371-384 16(4): 683-692 6(3), 404-412 Spence, I. Coren, S. e Girgus, J. S. Mental rotation, physical rotation, and surface media Jolicoeur, P e Cavanagh, P.
Mental representation of three-dimensional objects in Cooper, L. A. visual problem solving and recognition Spontaneous Imagery scanning in mental extrapolation Finke, R. A. e Pinker, S.
184
Distributional and singular approaches to probability Reeves, T e Lockhart, R. S. and errors in probabilistic reasoning Immediate and delayed transfer of training effects in Fong, G. T. e Nisbett, R. E. statistical reasoning Perceptual and conceptual factors in distortions in memory for graphs and maps Tversky, B. e Schiano, D. J.
31, 323-344
1994
27(8), 803-815 26, 373-379 24, 369-383 24(5), 491-506 24(4), 385-395
The effect of real time laboratory graphig on learning Brasell, H. representations of distance and velocity
The construction and validation of the test of graphing Mckenzie, D. L. e Padilla, M. 23, 571-579 in science (TOGS) J. Performance of students in grade six, nine e twelve on Wavering, M., Perry, B., five logical spatial and formal task Kelsey, L., e Birdd, D. 23, 321-333
Friedman, H. H., Halpern, N. e 92, 305-308 Salb, D. Quinn, R. J. e Tomlinson, S. Editorial Takis, S. L. Flores, A. Embse, C. V. Curcio, F. L. e Artzt, A. F. 92, 4-9 92, 658-659 92,660-664
91(3), 266-268 1998 90(5), 404-408 1997 ? 1996 89(8), 688-692 1996
185
Analyzing Data Relating to the Challenger Disaster Statistics in classroom: written projects portraying real world situations A Brief Look at the History of Probability and Statistics Wich mean do you mean? Popular measures of central tendency Students generated data in elemetary statistics Paradoxes in averages On the meaning of variable Realistics examples in elemtary statistics Make up a story to explain the graphs Understanding the central limit theorem Mean, standard deviation, and stopping the stars
L. Tappin Summers, J. J. E. Lightner Lubecke, A M. Mogull, R. G. Kundert, K. Mitchem, J. Shoenfeld, A. H e Arcavi, A. Barbella, P. Woodward, E. e Byrd, F. Thomas, D. A. Klinberling, C.
87(6): 423-426 1994 85(4), 310-313 1992 :623-630 84(1), 24-28 83, 744-745 332-325 81, 420-427 80, 740-743 77, 32-34 77, 542-543 77, 633-636 1991 1991 1990 1990 1988 1987 1984 1984 1984
Information selection and use in hypothesis testing: Slowiaczek, L. M., Klayman, 20(4), 392-405 1992 what is a good question, and what is a good answer? J. , Sherman, S. J. e Skov, R. B. Tracing the footsteps of Sherlock Holmes: cognitive representations of hypothesis testing Individual differences in television comprehension Beliefs underlying random sampling Wallendael, L. R. V. e Hastie, 18(3), 240-250 1990 R. Pezdek, K. Simon, S. Stoeckert, J. e Kiely, J. Pollatsek, A., Konold, C., Well, A. D. e Lima, S. D. 15(5), 428-435 1987 12(4), 395-401 1984
Male and female differences in anxiety about statistics Bradley, D. R. & Wygant, C. are not reflected in performance R.
186
Motivation source inventory: development and validation of new scales na integrative taxonomy of motivation Prediction of performance in na academic course by scores on measures of learning style and critical thinking. Definition and Measurement of Affective variables: Theoretical and Methodological Considerations Using the internet in instruction a home page for Statistics.
Barbuto, J. E s Scholl, R. W.
82: 1011-1022
1998
Gadzella, B. M. Ginther, D. W. 81: 595-602 & Bryant, G. W. Lamon, S. J. Couch, J. V. 81: 864-866 81: 999-1003 77: 315-322
1997
Attitudes Toward Applied Statistics of Postgraduate Glencross, M.J. and Cherian, Students in Education in the Lebowa Region of Shout V. I. Africa Metacognition and competence on statistical problems Claudette, M. e Christian, E. Attitudes Toward Applied Statistics of Postgraduate Students in Education in Transkei Measuring attitudes toward statistics in na introductory course on statistics Analysis of the relationship between anxiety about mathematics and performance Gender differences in performance on variables related to achievement in graduate-level educational statistics Glencross, M.J. and Cherian, V. I. Waters, L. K., Martelli, T., Zakrajsek, T. e Popovich, P. M.
1986 1980
A neural theory of attentive visual search: interactions Grossberg, S., Mingolla, E. e of boundary, surface, spatial, and object Ross, W. D. representations How visual imagery interferes with vision Recognition-by-components: a theory of human image Biederman, I. understanding Cognitive coordinate system: accounts of mental rotation and individual differences in spatial ability Just, M. e Carpenter, P.
The use of statistical heuristics in everyday inductive Nisbett, R. E. e Krantz, D. H. 90(4): 339-363 reasoning Extensional versus intuitive reasoning the conjunction Tversky, A . e Kahnemann, D. fallacy in problem judgment On the psychology of prediction Kahneman, D. e Tversky, A. 80(4): 237-251
1973
187
1997
Comprension de la logica del contraste de hipteses en Vallecillos, A estudiantes universitrios Les obstacles espistmologiques et les problmes en mathematics Fondements et methodes de la didactique des mathematiques Brousseau, G. Brousseau, G.
Friedman, L.
65(1): 22-50
Mathematics and gender gap: a meta-analysis of recent Friedman, L. studies on sex differences in mathematical task Implications of cognitive theory for instruction in problem solving Affect, ability, and science achievement: a quantitative synthesis of correlational research Update on attitudes and affective variables in learning mathematics Frederiksen, N.
Beliefs and Attitudes Toward Mathematics Among M. Vanayan, N. White, P. Third-and Fifth-Grade Students: A Descriptive Study Yuen & M. Teper Implicit Assumptions and Communication in Statistics Exploring Probability and Statistics whit preservice and inservice teachers Gender Differences in Mathematics Attitudes of Secondary Students Students Reactions to Learning About Probability and statistics: Evaluating the quantitative Literacy project Measuring Beliefs About Mathematical Problem Solving L. Pereira-Mendoza R. J. Quinn M. Steinback & J. Gwizdala J. Garfield
1992
188
Teaching Elementary Probability and Statistics: Some H. Sahai & M. R. Reesal Applications in Epidemiology A Longitudinal Study on Attitudes Toward Mathematics by Department and Sex at the University level An examination of the line graphing ability of students in grades seven through twelve Ssmiles: Fulcrum and mean: algebra concept of balance The average of 60 and 100 is not always 80: the harmonic mean in the firs Ano M. Aksu
1992 1991
Padilla, M. J. , McKenzie, D. 86. 20-26 L. e Shaw, E. L. White, A L. e Berlece, D. Silver, E. A. 91(6), 272-275 82(8), 682-686 89(3), 251-258 95(3), 114-117
Exploration of the mean as a balance point Grades 6- Flores, A 9 Expanding students conceptions of arithmetic mean Meyer, R. A. Its not all garbage Connections in proportional reasoning, levers, arithmetic means, mixtures batting averages, and speeds
Developing Selection Skills in Introductory Statistics Ware, M. E. & Chastain, J. D. 18(4): 219-222 Brooks, C. I. Buck. J. L 14: 45 14: 45-46 12, 100
Assessing the Introduction of a Computer Laboratory J. C. Raymondo & J. R. Garrett 26, 29-37 Experience into a behavioral Science Statistics Course Profits and Pitfalls: Thoughts on Using a Laptop Computer and Presentation Software to Teach Introductory Statistics J. Wilmoth & J. Wybraniec 26, 166-178
Using and Interpreting Logistic Regression: A Guide I. L. Lottes, M. A. Adler & A. 24, 284-298 For Teachers and Students DeMaris
1996
189
Using and Evaluating ISEE, a New Computer program for Teaching Sampling and Statistical Inference Computers, Statistics, and the Introductory Course Whats funny about statistics? A Technique for Reducing Student Anxiety Are They Getting What they Expect? Some general goals in teaching statistics
G. Dimitrova, C. H. Persell & 21, 341-351 R. Maisel R. H. Anderson S. Schacht & B. J. Stewart R. J. Gigliotti Blalock, H. M. 18, 185-192 18, 52-56 15, 365-375 15, 164-172
1993
Increasing Student Participation in Large Introductory R. C. Magel Statistics Classes Teaching Introductory Statistics Courses So That Nonstatistician Experience Statistical reasoning P-values: What They Are and What They Are Not Multimedia for Teaching Statistics: Promises and Pitfalls Displaying Factor Relationship in Experiments A problem-Solving Approach to teaching Business Statistics Scatterplots for Unordered Pairs Teaching Survey Sampling T. E. Bradstreet M. J. Schervish
P. F. Velleman & D. S Moore 50(3): 217-225 W. A Bergerud S. C. Hillmer M. D. Ernst, R. Guerra & W. R. Schucany 50(3): 228-233 50(3):249-256 50(3):260-265
R.S. Fecso, W. D. Kalsbeek, 50(4):328-340 S. L. Lohr, R. L. Scheaffer, F. J. Scheuren & E. A Stasny M.G. Marasinghe, W. Q. Meeker, D. Cook & T. Shin J. R. Kettenring P. J. Bickel N.P. Ross J. C. Bailar III 50(4):342-351 49(1): 2-4 49(1): 5-6 49(1): 7-9 49(1): 10-11
Using Graphics and simulation to teach Statistical Concepts What Industry Needs What Academia Needs What The Government Needs A large Perspective
190
Modernizing Statistics Ph. D. Programs First (?) Occurrence of Common Terms in Mathematical Statistics Tem Suggestions for Effectively Teaching Short Courses to Heterogeneous Groups
1995 1995 1995 1995 1995 1995 1995 1995 1994 1994
Challenges in Teaching Short Courses by na Academic J. A Cornell, R. H. Randles & 49(2): 195-200 Department: the University of Florida Experience G. G. Vining Teaching Short Courses in Biostatistics and Epidemiology Statistics Education Fin de Sicle Project in Introductory Statistics Courses D. G. Kleinbaum D. S. Moore, G. W. Cobb, J. Garfield & W. Q. Meeker J. Ledolter 49(2): 200-203 49(3): 250-260 49(4): 364-367 49(4): 372-375 48(1): 2-11 48(3): 191-196
The Journal of Statistics Education Information Service H. O Posten and Other Internet Resources for statistical Teachers Karl Pearson and R. A Fisher on Statistical Tests: A 1935 Exchange From Nature H. F. Inman
Electronic Publication in Statistics-Ready or not, Here D. L. Solomon, J. T. Arnold, They Come R. E. Trumbo & P. F. Velleman A Core in Statistics for Engineering Students Embracing the wider view of statistics Integrating scientific writing into a statistics curriculum: a course of statistics based scientific writing What s Missing in Statistical Education? The Place of Video in New Styles of Teaching and learning Statistics R. V. Hogg Wild, C. J. Samoa, G. e Oddone, E. Z. R. D. Snee D. S. Moore
48(4): 285-287 48(2), 163-171 48(2), 117-119 47(2): 149-154 47(3): 172-175 47(3): 182-191
1994 1994 1994 1993 1993 1993 1993 1993 1993 1993 1993 1993 1993 1993 1992 1992 1992 1992
Skills for Industrial Statistician to Survive and Prosper R. W. Hoerl, J. H. Hooper, P. 47(4): 280-292 in the Emerging Quality Environment J. Jacobs & J. M. Lucas Interrater Reliability With SPSS for Windows 5.0 Assumptions for Statistical Inference A remarkable scatterplot How to approximate a histogram by normal density Short courses as part of statistical consulting in a foreign setting A cooperative learning activity on Methods of selecting a sample Biostatistics cores: improving the chances for funding Teaching Survey Sampling Using Simulation R. N. Maclennan Hahn, G and Meekes, W Spence, I e Garrison, R. F. Brown, L. D. e Hwang, J. T. Engeman, R. M. Dietz, E. J. Derr, J. Chang , T, Lohr, S and Mclaren, G 47(4): 292-296 47(1), 1-11 47(1), 12-19 47(4), 251-255 47(2), 122-125 47(2), 104-108 47(2), 99-101 46(3), 232-237 46(3), 202-204 46(4), 254-260 46(4), 284-290
Using lottery games to illustrate statistical concepts and Paulson, R. A . abuses Some Statistical Modeling Problems in the adverting Industry: A look at media exposure distributions Graphical insight into multiple regression concepts Danaher, P. J. Franklin, L. A .
191
Preparing high school teachers to teach statistics Statistics consulting is scholarship, with coments Accent on teaching materials, ICOTS Integrating quality control concepts into introductory business statistics course Process Improvement Exercises for the Chemical Industry Statistical Reasoning in the legal setting Statistical Consulting in a University: Dealing With People and other Challenges Increasing Public Awareness of statistics as a Science and a profession-Reinforcing the Message in Universities Teaching Statistics to Engineers
Hayden, R. W. e Kianifard, F. 46(4), 290-295 Wilson, W. J. Posten, H. O . 46(4), 295-304 46(4), 304-306
Bowerman, B. L. e connell, R. 46(2), 124-128 T. Kopas, D. A., e McAllister, P. 46(1), 34-41 R. Gastwirth, J. L. R. E. Kirk R. Cockerrill & B. Fried 46(1), 55-69 45(1): 28-34 45(3): 174-178
Soren Bisgaard
45(4): 274-283 45(4): 290-291 45(4): 292-293 45(4): 342-343 45(1), 14-21
Why Is Introductory Statistics Difficult to Learn? And Donal G. Watts What Can We Do to Make It Easier? Writing As a Component of Statistics Education Probability plots and distribution curves for assessing the fit of probability models Manual Computation A Tool for Reinforcing Concepts and Techniques Norean Radke Sharpe Gan, F. F., Koehler, K. J. e Thompson, J. C. Khamis, H. J. Statistical Education: Improvements Are Badly Needed Robert V. Hogg
45(4 ), 294-299 1991 45(2), 115-120 1991 1990 1990 1990 1990 1990 1990 1990 1990 1990 1990 1989 1989 1989 1989
A Statistical Computing Curriculum To Meet Industrial W. M. Makuch, G. J. Hanh & 44(1):42-49 Needs W. T. Tucker What Does the Future Hold for Statisticians? V. P. Barabba 44(2): 125-137 44(3): 223-234 44(4): 265-266 44(1), 2-3 44(1), 9-13 44(2), 116-121 44(2),121-125 44(2), 154-162 44(3), 195-196 Improving The Teaching of Applied Statistics: Putting J. D. Singer & J. B. Willett the Data Back Into Data Analysis Statistical Computing Packages: Dare We Abandon Their Teaching to Others? Toward a more quantitative literate citizenry Work profiles of research statisticians G. E. Dallal Scheaffer, R. L. Lane, J., Ray, R. e Glennon, D. Gnanadesikan, R Eldridge, M. D. Ehrenberg, A S. C.
Statistical Thinking and its contribution to total quality Snee, R. D. looking ahead: cross-disciplinary opportunities for statistics The status of advisory committees to the federal statistical agencies A hope for the future of statistics: MSOD Visual Fits in the Teaching of Regression Concepts Concepts of relative importance in recent scientific literature Promoting statistics; on becoming valued and utilized Statistics at liberal arts colleges
S. M. Bajgier, M. Atkinson & 43(4): 229-234 V. R. Prybutok Kruskal, W. e Majors, R. Boroto, D. R. e Zahn, D. A. 43(1), 2-6 43(2), 71-72
192
Graduate statistics service courses in pat-time offcampus programs Broadening the Scope of Statistics and Statistical Education Increasing Public Awareness of statistics as a Science and a profession-Starting in the High Schools Establishing an office of scientific and public affairs Opening the box of a boxplot An example of the Use of Graphics in Regression Data Analysis for Managers A bibliography on the Teaching of Probability and Statistics
Belli, G. M. e Seaver, W. L.
1989 1989 1988 1988 1988 1988 1987 1987 1987 1986 1986 1986 1985 1985 1985 1985 1985
Statistical Computing Package: Some words of caution Searle, S. R. F. Mosteller S. J. Ruberg & R. L. Mason
Wallman, K. K., Boardman, T. 42(4), 245-248 Hill, W. Sacks, J. e Tortora, R Benjamini, Y L. Denby and D. Pregibon H. V. Roberts S. C. Misra, H. Sahai, A P. Gore & J. K. Garret 42(4), 257-262 41(1): 33-38 41(4): 270-278 41(4): 284-310 40(4): 260-264 43(2), 74-79 40, 310-315 39(3): 168-175 39(4): 274-278 39(1), 1-16 39(1), 17-19
The Role of Consulting Units in Statistics Departments R. L. Carter, R. L. Scheaffer and R. G. Marks Statistics-aided manufacturing: a look into the future Some Notes on refereeing Statistical Education for Engineers: An Initial Task Force Report Statistics in Latin America More intelligent statistical software and statistical expert systems: future directions Statistics in liberal Arts Education An expanded approach to Educating Statistical Consultants The key role of statistician in the transformation of North American Industry The use of investigation in the introductory course Geometry, Statistics, probability: Variations on a Common theme Graphics in Scientific Publications Cooperation Between University and Industry Statistician Hahn, G. J. Glesser, L. J. Robert V. Hogg et al P. A Morettin, C. A Perez, S. C. Narula & R. P. Mentz Hahn, G. J. Iveson, G. R.
McMulloch, C. E., Boroto, D. 39(3), 159-167 R., Meeter, D., Polland, R. e Zahn, D. A . Joiner, B. L. Tanner, M. A Peter Bryant W. S. Cleveland Snee, R. D. 39(3), 224-227 39(4), 306-310 38(1): 38-48 38(4): 261-280 38, 15-20 38(4), 235-243 38, 137-147 37(4), 297-302 37(3), 229-231 37(4), 261-280 37(4), 284-289
1985 1985 1984 1984 1984 1984 1984 1983 1983 1983 1983 1983
Statistics for quality and productivity: a new graduate- Vardeman, S. e David, H. T. level statistics course How to display data badly Nonstatistical aspects of statistical consulting Statistics problems with simple numbers The American Statistical association a study and recommendations The Visibility of Statistics as a discipline A color-caused optical illusion on a statistical graph Wainer, H. Zahn, D. A . e Isenberg, D. J. Read, K. L. Q. e Riley, I. S. Corson, J. J. Minton, P. D.
193
Presenting Statistical Papers What Industry can do for Statistics Writing Technical Papers or Reports Preparing statisticians for careers in the federal government: report of the ASA section on Statistical Education Committee on training of statisticians for government Quality of statistical education: Should ASA assist or assess? With comments A self-supporting university statistical consulting center
Freeman, D. H., Gonzles, M. 37(2),106-110 E., Hoaglin, D.C. e Kilss, B. A Bradley, R.A . Ehrenberg, A . S. C. Eldrigde, M. D et al 37(1), 21-35 36(4), 326-329 36(2), 69-89
Tanur, J. M. Boen, J. R.
A case for the better graphics: the un classed chonopeth Gale, N. e Halpering, W. C. map A systematic study of the consulting literature as an integral part of applied training in statistics Eye Fitting Straight lines The practice of statistics: the real world is an idea whose time has come The teaching of Statistics: Content versus form Preparing Statisticians for Careers in Industry The role of nonparametrics in introductory statistics courses We need both exploratory and confirmatory Na empirical inquiry concernin human understanding of two-variable color maps Statistical consulting in industry Graphical Methods in Statistics Some remarks on statistical education Some ideas about teaching design of experiment Baskerville, J. C. Mosteller, F., Siegel, A F., Trapido, E. e Youtz, C Hunter, W. G. Kenpthorne, O Snee, R. D. Noether, G. E. Tukey, J. W.
35(3), 150-152* 1981 35(2), 72-76 34( 1), 17-21 34( 2), 65-80 34(1), 22-23 34(1), 23-25 Falta a pag. 93 1981 1980 1980 1980 1980 1980 1979 1979 1978 1977 1977 1976 1975 1975 1974
Wainer, H. e Francolini, C. M. 34(1), 81-93 Marquardt, R. W. Fienberg, S. E. Federer, W. T. Hunter, W. G. 33(3), 102-107 3394),165-178 32(4), 117-121 31(1),12-17
A framework for the development of measurement for Chervany, N. L., Collier, R. 31(1), 17-23 evaluating the introductory statistics course D., Fienberg, S. e Johnson, P. A pedagogical example of heterosedasticity and autocorrelation On probability as a Basis for Action On problem solving, motivation and statistics The role of the statistician: scientist or shoe clerk Jensen, B. C. e McDonald, J. B Deming, W. E. Brightman, H e Broida, M. Bross, I. D. J. 30(4), 192-193 29(4), 146-152 29(4), 164-166 28(4). 126-127
194
A Brief History of Statistics in Three and One half Chapters: A Review Essay Cross-disciplinary research in the statistical sciences Data-based graphics: visual display in the decades to come Francis Galtons Account of the Invention of Correlation The Teaching of Statistics The Interface between Statistics and Philosophy of Science
7(2): 208-225 5(1), 121-146 5(3), 327-339 5(3), 340-346 4(2): 73-86 3(1): 63-108 3(4): 386-412
Graphical visions from William Playfair to John Tukey Wainer, H. S. M Stigler H. Hotelling I. J. Good
Breaking misconceptions- statistics and its relationship Hand, D. J. to mathematics Mathematics: governess or handmaiden? Statistics and mathematics: the appropriate use of mathematics within statistics Discussion on the papers on statistical and mathematics Sample size determination: a review Statistical education in medicine and dentistry Statistics in a new business environment: an example Senn, S. Bailey, R. A Nelder, J. A Adcock, C.J. Smeeton, N. Vandenbroeck, P e Vandevyvere, P.
The statistics and probability curriculum at the Boland, P. J. e Nicholson, J. secondary school level in the USA, Ireland and the UK Changing the teaching of statistics Discussion on the Symposium on the teaching of statistics in higher education in Ireland Stuart, M. Boland, P. J.
Some problems of teaching an introductory biostatistics Sahai, H. course to graduate students in health sciences: coping with the diversity of students aptitudes, interests and objectives Statistics in industry; a failure of communication Using a microcomputer as a visual aid teaching of statistics Symbols or concepts? Caulcutt, R. Bland, J. M. Ehrenberg, A. S. C.
195
41. Outras Revistas The Alberta Journal of Educational Research (FE: 78-99)
Title Selected attitudinal factors related to students success in high school Autor McLean, R. Volume (2/3), 165-168 Ano 1997
Sex related differences in Mathematics achievement, spatial Fenema, E & Sherman, J. visualization and affective factor
Evidence, Inference, and the Rejection of the Significance D. Grayon, P. P. Pattinson & G. Test Robins
196
Teaching Simple statistical Ideas Process or Product? Teaching Statistics with Minitab
Pupil performance in graphical task and its relationship to the Swatton, P. e Taylor, R. M. ability to handle variables
197
1997
No tinha na pratileira El anlises de datos como til y como objeto en didactica de Batanero, C; Godino, J y la Matemtica Vallecillos, A Un estudio componencial de heuristicas y sesgos en el razonamiento probabilistico de los alumnos de secundaria Serrano, L., Batanero, C., Ortiz, J.J. e Caizares, M. J. 4(1), 46-53 10(1), 7-25 1992 1998
198
Pesquisa cientfica e nvel de significncia Percepo de incomodo ao barulho ambiental: um modelo parcial e preliminar
Fatores socioculturais e leitura: estudo da produo arrolada Witter, G. P. no ASIRR (1989/1994) Produo e leitura de texto cientfico Witter, G. P.
The role of statistical literacy in decisions about risk: where Watson, J.M. to start A USP no tem esses nmeros Three hungry men and strategies for the problem solving Exploring mathematics trough the analysis of errors The interpretation of graphs representing situations Students errors in the mathematics learning: a survey Watson, J. M. Borassi, R. Bell, A. e Janvier, C. Radatz, H. C.
199
Identifying impediments to learning probability and statistics Cohen, S., Smith, G., Chechile, R. from as assessment of instructional software A., Burns, G e Tsai, F. A meta-analysis of gender differences in applied achievementSchram, C. M.
Structural components of statistical test anxiety in adults: an Benson, J. exploratory model Intuitions on functions Dreyfus, T. e Einsberg, T.
Mathematics in School
Inconsistencies in the presentation of statistics Inconsistencies in the presentation of statistics In mean mode Statistics and the media Quartiles of a discrete data set Graphs, gradients and intercepts Feu, C. de Taverner, S. Steward, D. Ernest, P. Evans, I. G. Barr, G. 20-21 8-9 34 e 39 14-15 16-17 9(1), 5-6 1996 1996 1994 1986 1986 1980
Mathematics Teaching
Success e failure in mathematics: the flexible meaning of symbols as process and concept Diagnostic teaching 4 graphical interpretation Gray, E. e Tall, D. Bell, A.; Brekke, G. e Swan, M. 142, 6-10 119, 56-60 1993 1987
200
Understanding the effects of sample size on the variability of the mean Comparing risky decision making under conditions of real and hypothetical consequences
1990 1996
The effectiveness of scholl-type classes compared to the Goldfinch, J. traditional lecture/tutorial methods for teaching quantitative methods to business students
201