Spss Manual de Utilizacao

ESCOLA SUPERIOR AGRÁRIA
INSTITUTO POLITÉCNICO DE CASTELO BRANCO

SPSS - MANUAL DE UTILIZAÇÃO
ARMANDO MATEUS FERREIRA
Escola Superior Agrária de Castelo Branco, 1999
SPSS
Índice
ÍNDICE
12-
INTRODUÇÃO .........................................................................
................. 1 EDITOR DE DADOS.............................................
................................. 3
CRIAR UM FICHEIRO DE DADOS .................................................. 5
DEFINIÇÃO DE VARIÁVEIS ...............................................................
..... 5 INTRODUÇÃO DOS VALORES .....................................................
........... 9 GRAVAR O FICHEIRO DE DADOS........................................
................ 11 ABRIR UM FICHEIRO DE DADOS EXISTENTE .......................
............. 12 ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS............... 13
ACRESCENTAR NOVAS VARIÁVEIS .....................................................
. 14 DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS ......................... 15 ELIMINAR LI
NHAS E VARIÁVEIS .......................................................... 16 IMP
ORTAÇÃO DE FICHEIROS EXTERNOS .............................. 17 IMPORTAÇÃO DE FICHEIROS
LOTUS E EXCEL 4.0 ........................... 17 IMPORTAÇÃO DE FICHEIROS DE DBASE...
........................................ 18 IMPORTAÇÃO DE FICHEIROS EXCEL...........
...................................... 19 IMPORTAÇÃO DE FICHEIROS ACCESS............
................................... 22 RECODIFICAÇÃO DE VALORES.....................
...................................... 22 SELECÇÃO DE CASOS.........................
.................................................. 25 2.1.1 2.1.2 2.1.3 2.1.4 2.
1.5 2.1.6 2.1.7 2.1.8 -
2.1 -
2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 -
3-
ANÁLISE DE DADOS .................................................................
........ 29
OBTER ESTATÍSTICAS DESCRITIVAS....................................... 29
PROCEDIMENTO DESCRIPTIVES ......................................................
.. 29 PROCEDIMENTO EXPLORE .....................................................
............ 32 PROCEDIMENTO EXPLORE COM FACTORES ..............................
...... 36 PROCEDIMENTO FREQUENCIES .............................................
........... 39 3.1.1 3.1.2 3.1.3 3.1.4 -
3.1 -
4-
GRÁFICOS..........................................................................
....................... 44
GRÁFICOS STANDARDIZADOS.................................................... 44
4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 -
4.1 -
GRÁFICO DE BARRAS ................................................................
........... 45 HISTOGRAMA ......................................................
.................................. 50 GRÁFICO DE EXTREMOS-E-QUARTIS ..............
................................... 52 GRÁFICO DE BARRA DE ERROS .................
......................................... 54 GRÁFICOS DE PROBABILIDADES...........
............................................. 56 GRÁFICO DE DISPERSÃO...............
...................................................... 59 4.2 EDIÇÃO DOS GRÁFICOS STAN
DARDIZADOS........................ 62 4.3 GRÁFICOS INTERACTIVOS ..................
.......................................... 65 4.3.1 GRÁFICO DE BARRAS ............
............................................................... 66 4.3.2 GRÁFICO D
E DISPERSÃO..................................................................... 7
0 4.4 EDIÇÃO DE GRÁFICOS INTERACTIVOS................................... 75
ESACB
i
SPSS
Índice
55.1 5.2 5.3 6-
TESTES T .......................................................................
.................................. 79 TESTE T PARA A MÉDIA DE UMA AMOSTRA.........
............................. 82 TESTE T PARA DUAS AMOSTRAS INDEPENDENTES ......
................... 83 TESTE T PARA DUAS AMOSTRAS EMPARELHADAS .................
........ 86 ANÁLISE DE VARIÂNCIA ...................................................
........................ 90
6.1 - ENSAIOS UNI-FACTORIAIS ...................................................
................... 90 6.1.1 - PROCEDIMENTO ONE-WAY ANOVA ......................
........................... 91 6.1.2 - PROCEDIMENTO MEANS.......................
............................................. 96 6.2 - ENSAIOS MULTI-FACTORIAIS.
................................................................ 99 77.1 7.2 7.3
7.4 8REGRESSÃO LINEAR ...........................................................
...................... 111 INTRODUÇÃO...............................................
............................................. 111 REGRESSÃO LINEAR SIMPLES........
...................................................... 115 REGRESSÃO LINEAR MÚLTIPLA
.......................................................... 121 AJUSTAMENTO DE M
ODELOS PRÉ-DEFINIDOS................................ 131 MANUSEAR OS RESULTADOS...
.............................................................. 136
ANEXOS .........................................................................
............................................ 143
ESACB
ii
SPSS
1 - Introdução
1-
INTRODUÇÃO
O pakage estatístico SPSS para Windows é um poderoso sistema de análises estatísticas e
manuseamento de dados, num ambiente gráfico, em que a utilização mais frequente, para
a maioria das análises a efectuar, se resume à selecção das respectivas opções em menus e ca
ixas de diálogo. Contudo, o sistema dispõe de um editor de comandos, a que o utiliza
dor mais avançado poderá recorrer a fim de realizar determinado tipo de análises mais
complexas e elaboradas. De um modo muito sucinto, o sistema SPSS dispõe de: Data E
ditor: Editor de Dados: uma versátil folha de cálculo, que permite definir, introduz
ir, modificar, corrigir e visualizar a informação. O Data Editor abre automaticament
e quando se entra no SPSS.
Viewer:
Janela de Resultados: Todos os resultados estatísticos, tabelas, gráficos, são visuali
zados numa janela designada por Viewer. Uma janela Viewer abre automaticamente n
a primeira vez que o utilizador executar uma tarefa que gera output. Na figura s
eguinte apresenta-se o aspecto da janela de resultados referentes ao cálculo das e
statísticas elementares um conjunto de dados (variável com o nome fosfo). O Viewer é c
omposto por duas janelas: à esquerda está um organigrama do output; à direita estão os r
esultados propriamente ditos. Neste exemplo, os resultados incluem as instruções nec
essárias à execução
ESACB
1
SPSS
1 - Introdução
da tarefa: é o que se designa por Log1, e que é composto pelas seguintes linhas de i
nstruções:
DESCRIPTIVES VARIABLES=fosfo /STATISTICS=MEAN SUM STDDEV VARIANCE RANGE MIN MAX
SEMEAN KURTOSIS SKEWNESS .
Estas instruções foram geradas, no caso, pela selecção de opções nos menus do programa; cont
udo, podem ser digitadas, como se de uma linguagem de programação se tratasse2.
Pivot Tables: Tabelas Dinâmicas: O programa dispõe de uma potente rotina de geração de t
abelas dinâmicas (ou pivot tables), que permitem que o utilizador explore os dados
, com o re-arranjo de colunas e linhas. Gráficos: O SPSS permite realizar todos os
tipos de gráficos usuais em estatística, a fim de realçar as análises efectuadas.
Acesso a Bases de Dados: O SPSS permite o acesso às bases de dados mais usuais, em
formato SQL e ODBC, tais como ficheiros de dados criados em dBase, Access, Exce
l, Lotus, etc. A importação de ficheiros de texto, Access, Excel, é feita através de um
assistente de importação (wizard).
1
2
O Log pode não estar visível; só aparece na janela Viewer se se tiver configurado o pr
ograma para mostrar este item. O utilizador pode escrever as suas próprias rotinas
de análise; para tal, deve abrir o SPSS Syntax Editor, janela de edição de comandos d
o SPSS.
ESACB
2
SPSS
2 - Edição de Dados
2-
EDITOR DE DADOS
O Data Editor do SPSS é um programa do tipo de folha de cálculo que permite facilmen
te criar ou editar ficheiros de dados. O Data Editor abre automaticamente quando
se entra no SPSS. O aspecto inicial do editor é o seguinte:
Muitas das características do data editor do SPSS são similares ás de qualquer folha d
e cálculo em ambiente Windows, tal como o Excel. As colunas correspondem às variáveis.
Inicialmente, todas as colunas, ou variáveis, tem o mesmo nome genérico, var, tal c
omo é mostrado na imagem. O utilizador irá dar os nomes às variáveis que definir. As lin
has correspondem aos casos, ou indivíduos. Cada célula contém um valor ou observação de um
indivíduo, em relação a uma determinada característica ou variável. As células podem apenas
conter valores (numéricos ou alfanuméricos); não é possível, tal como se faz nas folhas d
e cálculo, definir fórmulas em células. O SPSS permite definir fórmulas, mas que afectam
integralmente toda uma variável ou coluna. O ficheiro de dados é rigorosamente rect
angular, sendo o seu tamanho definido pelo número de casos e de variáveis. O utiliza
dor pode introduzir valores em células fora das
ESACB
3
SPSS
fronteiras actuais da folha de cálculo; contudo, o SPSS automaticamente acrescenta
linhas e/colunas de modo a que essa nova observação fique incluída dentro da estrutur
a rectangular. A fim de ilustrar este aspecto, considere a seguinte imagem refer
ente a um folha de dados do SPSS, em que existem duas variáveis (com os nomes x e
y), com 6 casos ou observações. Repare na posição da célula activa.
Se se introduzir um valor (por exemplo, 25) para esta célula, fora dos limites do
ficheiro rectangular, o SPSS cria duas novas variáveis numéricas atribuindo-lhes aut
omaticamente os nomes var00002 e var00003, e introduz valores em branco para as
células, de modo a ficar um ficheiro rectangular, com 4 variáveis e 7 casos (repare
que estas células têm o ponto decimal):
Estas células, aparentemente vazias, são assumidas pelo SPSS como “missing values”, isto
é, observações em falta para algumas variáveis. Contudo, e para já, estas células não afecta
os cálculos estatísticos, caso se se trate de variáveis numéricas. Por exemplo, calcula
ndo a média da variável x obter-se-á o valor de 15, como é lógico, para os valores apresen
tados.
ESACB
4
SPSS
2.1 - CRIAR UM FICHEIRO DE DADOS
Vamos usar os seguintes dados a fim de ilustrar como se cria um ficheiro com o D
ata Editor do SPSS. Trata-se dos resultados de um ensaio, em que se registaram a
s produções (kg/ha) de arroz, em função da variedade (V1: IR8; V2: IR5; V3: C4-63) e de
5 níveis de adubação azotada (N0: 0 kg/ha; N1: 60 kg/ha; N2: 90 kg/ha; N3: 120 kg/ha;
N4: 150 kg/ha). Para cada tratamento fizeram-se 4 repetições. Na imagem seguinte, ca
pturada do Excel, estes dados estão perceptíveis para o leitor, e estão estruturados p
ara algumas possíveis análises a executar na folha de cálculo; contudo, ao serem intro
duzidos para um ficheiro SPSS, dever-se-ão respeitar as normas deste programa, de
modo a que os dados possam ser analisados.
Variedade Azoto N0 N1 V1 N2 N3 N4 N0 N1 V2 N2 N3 N4 N0 N1 V3 N2 N3 N4
1 3852 4788 4576 6034 5874 2846 4956 5928 5664 5458 4192 5250 5822 5888 5864
Repetição 2 3 2606 3144 4936 4562 4454 4884 5276 5906 5916 5984 3794 4108 5128 4150
5698 5810 5362 6458 5546 5786 3754 3738 4582 4896 4848 5678 5524 6042 6264 6056
4 2894 4608 3924 5652 5518 3444 4990 4308 5474 5932 3428 4286 4932 4756 5362
Como se referiu atrás, os dados deverão ser introduzidos para uma matriz rectangular
, em que as colunas são as variáveis e as linhas os casos. Neste caso, as variáveis são
a Variedade, o Azoto, a Repetição e a Produção. 2.1.1 - DEFINIÇÃO DE VARIÁVEIS Vamos começar
definir estas variáveis no SPSS dando-lhes nomes válidos; as regras para os nomes d
as variáveis são: • • nome da variável tem no máximo, 8 caracteres; nome da variável deve com
r por uma letra; os restantes caracteres podem ser letras (maiúsculas ou minúsculas
são iguais), algarismos, ou os símbolos @, #, _, $. Não se podem usar espaços em branco,
nem os seguintes caracteres: !, ?, ‘, “, *, +, -, %, vírgula, ponto e vírgula, \, /, >,
< Os nomes não podem terminar com ponto; Evitar terminar o nome com o caracter _
(underscore); Evitar usar caracteres acentuados ou com til.
• • •
ESACB
5
SPSS
No exemplo, vamos definir as seguintes variáveis: variedad azoto repete producao V
ariável numérica inteira, cujos valores são 1, 2, 3, com as seguintes correspondências,
a fim de facilitar a sua introdução: 1 : IR8; 2 : IR5; 3 : C4-64; Variável inteira: 0:
0 kg/ha; 1: 60 kg/ha; ... ; 4: 150 kg/ha; Variável inteira, com os valores 1, 2,
3, 4 Variável real, com duas casas decimais (por defeito).
A fim de definir cada uma das variáveis, fazer o seguinte procedimento: Duplo clic
k na célula do nome da variável (var) no topo da coluna, ou click em qualquer sítio da
coluna para a variável e seleccionar no menu a opção Data, seleccionando depois a opção D
efine Variable...
Igualmente pode fazer click com o botão direito na célula do nome da variável (var) no
topo da coluna; aparece o menu:
onde se selecciona a opção Define Variable... Na sequência de qualquer dos procediment
os anteriores aparece a seguinte caixa de diálogo de definição da variável:
ESACB
6
SPSS
No campo Variable Name escrever o nome da variável; no caso, variedad Seleccionar
a opção
No campo Decimal Places alterar o valor para 0 (casas decimais); e fazer Selecci
onar a opção No campo Value escrever o valor 1; no campo Value Label: escever IR8; f
azer
.
:
ESACB
7
SPSS
Repetir o processo de definição de Value e Value Label para os valores 2 (IR5) e 3 (
C463); para cada valor, fazer :
No final, fazer
.
A caixa serve para entrar uma breve descrição da variável, mais elucidativa que apenas
o nome; é de preenchimento facultativo. Para aceitar estas alterações, e terminar a d
efinição da variável variedad, na caixa de diálogo fazer OK:
ESACB
8
SPSS
De modo idêntico, definir as restantes variáveis; note-se que a opção Labels serve para
fazer as correspondências, de modo que neste exemplo só é usada para as variáveis varied
ad e azoto; na definição da variável producao, não é necessário ir à opção Type porque, por d
o, as variáveis são numéricas reais (com duas casa decimais). Terminada a definição de var
iáveis, o Data Editor terá o seguinte aspecto:
2.1.2 - INTRODUÇÃO DOS VALORES Definidas as variáveis, introduzem-se os dados; o utili
zador deve optar pela estratégia de introduzir os valores coluna a coluna, ou linh
a a linha, que lhe for mais favorável e menos propensa a erros. Para apagar um val
or, colocar o cursor na célula respectiva e carregar a tecla DEL. Para alterar ou
corrigir um valor errado numa das células, activa-se essa célula (levando o cursor p
ara lá, ou simplesmente fazendo click) e digita-se o valor correcto, fazendo-o ent
rar com Enter ou deslocando para outra célula. O ficheiro ficará com o seguinte aspe
cto:
ESACB 9
SPSS
Usou-se a codificação dos valores das variáveis variedad e azoto, por um lado para fac
ilitar a introdução dos valores, e por outro lado para ser menos propenso a erros. C
ontudo, podem visualizar-se o nome da variedade e o valor da adubação; para tal, no
menu principal seleccionar a opção , e depois seleccionar a opção Value Labels:
O ficheiro de dados toma agora o aspecto mais elucidativo acerca dos dados a ana
lisar:
ESACB
10
SPSS
2.1.3 - GRAVAR O FICHEIRO DE DADOS Tendo introduzido e corrigido os dados, grava
-se o ficheiro com um nome válido (aplicamse as regras de nomes de ficheiros de MS
-DOS). Para gravar, faz-se:
Na caixa escreve-se o nome a dar ao ficheiro, por exemplo arroz; automaticamente
é atribuída a extensão .sav típica dos ficheiros de dados do SPSS:
Caso se pretenda guardar o ficheiro num disco ou directório que não do directório acti
vo, abrir a caixa pretendido: e seleccionar o disco/directório
ESACB
11
SPSS
2.1.4 - ABRIR UM FICHEIRO DE DADOS EXISTENTE Se se pretende abrir um ficheiro de
dados, para introduzir mais dados, para alterar ou corrigir valores, ou para ef
ectuar a análise desses dados, tem de se abrir o ficheiro. Para tal, efectua-se o
seguinte procedimento:
Se o ficheiro pretendido aparece na listagem, faz-se click sobre o nome do fiche
iro, ou escreve-se na caixa se . , e de seguida faz-
Caso o nome do ficheiro não conste na listagem, é porque está guardado noutro directório
que não o especificado na janela. Nesta situação, ter-se-á de encaminhar para a drive/d
irectório onde se encontra. Para tal, abre-se a o caixa disco ou o directório preten
dido: , e selecciona-se a o
Como o SPSS apenas admite um ficheiro de dados aberto, ao abrir um ficheiro o pr
ograma encerra o ficheiro actual. Caso este não esteja gravado, após quaisquer alter
ações, o programa apresenta uma mensagem de aviso:
ESACB
12
SPSS
O utilizador deverá responder Sim ou Não, consoante queira guardar ou não as alterações ef
ectuadas no ficheiro aberto (no caso da imagem, tinha-se aberto o ficheiro lambs
.sav, em que se tinham efectuado alterações). 2.1.5 - ACESCENTAR NOVOS CASOS A UM FI
CHEIRO DE DADOS Para acrescentar um novo caso, após os dados já introduzidos, basta
digitar o valor pretendido para a variável a acrescentar; automaticamente é acrescen
tado um caso a todas as variáveis. Se interessa introduzir um caso, não no final dos
dados, mas entre duas observações, então ter-se-á de introduzir uma linha (caso) entre
essas duas observações.
Admitamos que foi esquecido um caso referente a hora=Manhã; este caso deveria ser
introduzido imediatamente antes da primeira observação da Tarde; para tal, faz-se du
plo click sobre o indicador da linha 5, ou um click em qualquer parte da linha 5
e de seguida selecciona-se a opção no menu. Aparece a janela:
Pode igualmente fazer click com o botão direito do rato sobre o indicador da linha
, aparecendo o menu:
ESACB
13
SPSS
. Automaticamente é aberta uma No menu anterior deve seleccionar linha, onde se in
troduzem os valores respectivos das variáveis:
2.1.6 - ACRESCENTAR NOVAS VARIÁVEIS Para acrescentar uma nova variável ao ficheiro,
basta colocar o cursor numa célula da primeira coluna não usada, e executar o proced
imento de definição de variáveis atrás descrito. O programa cria a nova variável com tanta
s células (em branco ou missing values) quantos os casos das restantes variáveis. Após
isto, só há que proceder à introdução dos valores. Se, por algum motivo, há que introduzir
uma nova variável, não no final do ficheiro, mas entre duas variáveis já definidas, colo
car o cursor na variável à direita da qual se pretende a nova variável, seleccionar a
opção e de seguida fazer click com o botão direito do rato, aparecendo o menu: . Pode
igualmente
e seleccionar a opção
.
De seguida, definir esta variável, tal como descrito atrás.
ESACB
14
SPSS
2.1.7 - DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS O programa SPSS permite criar novas v
ariáveis como resultado de funções ou operações envolvendo as variáveis já existentes. Por ex
mplo, determinadas metodologias estatísticas (análise de variância, regressão, etc) base
iam-se no pressuposto de que os dados a analisar seguem a função de distribuição normal;
ora, tal pressuposto, é muitas vezes violado (e, infelizmente para a validade das
conclusões, não é testado). Nas situações em que se verificou a não normalidade, é frequente
proceder a determinadas transformações dos dados (logaritmo, raíz quadrada, arc-seno são
transformações usuais). Vamos ilustrar a criação de uma nova variável no ficheiro arroz.s
av, com o nome ln_prod, definida como sendo o logaritmo neperiano dos valores da
variável producao. Para tal, coloca-se o cursor na primeira célula da primeira colu
na não ocupada, e faz-se:
Aparece a seguinte caixa de diálogo:
Na caixa Target Variable escreve-se o nome da variável a criar, ln_prod; transfere
-se o cursor para a caixa Numeric Expression e na caixa das funções selecciona-se a
função LN(numexpr); de seguida, fazer click sobre a variável argumento (producao). A j
anela fica com o seguinte aspecto:
ESACB
15
SPSS
Para calcular, basta fazer
.
O ficheiro fica com o seguinte aspecto:
A variável ln_prod é visualizada com 2 casas decimais (por defeito), muito embora se
ja guardada com maior precisão. Caso haja interesse em visualizar mais casa decima
is, proceder como descrito na definição de variáveis. As transformações de variáveis podem s
er mais complexas que uma simples função; reparese que a caixa de definição das transfor
mações apresenta o que se parece a uma máquina de calcular científica, que permite defin
ir transformações várias, incluindo selecção condicional de casos (if), funções lógicas (e &;
|; negação ~) comparações (<, <=, >, >=, =, ~=), etc. 2.1.8 - ELIMINAR LINHAS E VARIÁVEIS
Para eliminar linhas de valores (casos) ou colunas (variáveis), fazer click sobre
o número da linha, à esquerda do ecran, ou sobre o nome da variável; a linha ou colun
a, consoante o caso, ficam seleccionadas (sombreadas). Para a eliminar, seleccio
nar (ou carregar na tecla DEL). e de seguida
ESACB
16
SPSS
Pode também fazer click com o botão direito do rato sobre a identificação da linha ou co
luna a eliminar, e fazer Cut ou Clear.
2.2 - IMPORTAÇÃO DE FICHEIROS EXTERNOS
O programa SPSS dispõe de uma rotina de importação de ficheiros criados noutras aplicações
, nomeadamente folhas de cálculo (Lotus 123, Excel), bases de dados (dBase, Access
), ficheiros ASCII (separados por tabulações, vírgula, espaços), etc. Vamos abordar a im
portação de ficheiros Excel e Access, por serem duas das aplicações actualmente mais usa
das na constituição de bases de dados, e ficheiros ASCII, pois não havendo outra forma
de transferir informação entre aplicações, todos os programas permitem exportar e impor
tar ficheiros ASCII, sendo esta forma uma ponte comum entre as aplicações. É pressupos
to que, qualquer que tenha sido a aplicação utilizada para criar os ficheiros, estes
devem estar organizados de acordo com a estrutura dos ficheiros SPSS. 2.2.1 - I
MPORTAÇÃO DE FICHEIROS LOTUS E EXCEL 4.0 Se o ficheiro tiver sigo gravado em Excel 4
, Lotus 123 (ou Quattro), o SPSS abre-o automaticamente. Para tal, executar o se
guinte procedimento: File Open...
Nesta janela deve especificar-se que o ficheiro é do tipo Excel (*.xls) [se se tra
tar de um ficheiro Lotus, selecciona-se a opção Lotus(*.w*)]; para tal, abrir a caix
a Ficheiro do tipo e especificar Excel (*.xls):
ESACB
17
SPSS
Na caixa Procurar em deve especificar-se o directório onde se encontra o ficheiro:
No campo Nome do ficheiro, especificar o nome do ficheiro a importar e fazer OK:
Aparece de seguida a seguinte caixa de diálogo, onde se especifica se as primeiras
células contêm os nomes das variáveis (se sim activar (rectangular) de células (no exem
plo, A1:B11): ) e o intervalo
O SPSS cria um ficheiro, com tantas variáveis quantas as colunas e tantos casos qu
antas as linhas do bloco especificado. 2.2.2 - IMPORTAÇÃO DE FICHEIROS DE DBASE Dada
a relevância da utilização do gestor de bases de dados dBase III, é natural que alguns
utilizadores disponham de bases de dados organizadas neste programa, e que prete
ndam importá-las para o SPSS a fim de executar algumas análises estatísticas. Os fiche
iros gerados pelo dBase III (*.dbf) obedecem tipicamente à estrutura dos ficheiros
SPSS, de modo que a sua importação é extremamente fácil. Para tal, faz-se o seguinte pr
ocedimento: File Open... Na caixa de diálogo, deve definir-se o tipo de ficheiro [
dBase (*.dbf)], o directório onde está guardado e o nome do ficheiro a importar, tal
como se mostra na figura:
ESACB
18
SPSS
Ao fazer
a importação processa-se automaticamente.
2.2.3 - IMPORTAÇÃO DE FICHEIROS EXCEL Os ficheiros Excel 5.0 e Excel 97 são constituídos
por diversas folhas de cálculo; a rotina de importação é ligeiramente diferente, e é asse
gurada pelo protocolo Open Database Connectivity (ODBC), que é um método padrão de par
tilha de dados entre bases de dados e outros programas. Os controladores ODBC ut
ilizam a linguagem SQL (Structured Query Language) padrão para aceder a dados de o
rigens exteriores. Pretende-se importar a seguinte folha de cálculo, criada em Exc
el 97:
ESACB
19
SPSS
Para tal, executar o seguinte procedimento: File Database Capture New Query... A
parece o seguinte assistente de importação de ficheiros:
) e fazer Especificar qual a origem do ficheiro (no caso caixa de diálogo que se s
egue, especificar o disco, directório e o ficheiro a abrir:
. Na
Aparece a seguinte janela:
ESACB
20
SPSS
Caso o ficheiro tenha diversas folhas de cálculo, será conveniente confirmar qual é qu
e se pretende importar; para visualizar as variáveis de cada folha, click sobre o
sinal + à esquerda da identificação:
Tendo confirmado qual a folha a importar (neste caso, Folha1$), click sobre o no
me da folha e arraste-o para campo Retrieve Fields :
ESACB
21
SPSS
Para executar a importação, click em Terminar. 2.2.4 - IMPORTAÇÃO DE FICHEIROS ACCESS Os
ficheiros de bases de dados criados em Microsoft Access são constituídos por divers
as folhas ou tabelas (base de dados, consultas, formulários); a rotina de pelo pro
tocolo Open Database Connectivity (ODBC), que é um método padrão de partilha de dados
entre bases de dados e outros programas. Os controladores ODBC utilizam a lingua
gem SQL (Structured Query Language) padrão para aceder a dados de origens exterior
es, e processase em tudo de modo semelhante à importação de ficheiros Excel, sendo gui
ada pelo mesmo assistente (wizard): File Database Capture New Query... Aparece o
seguinte assistente de importação de ficheiros:
Especificar qual a origem do ficheiro (no caso Seguinte. Depois, é prosseguir tal
como descrito para o Excel. 2.2.5 - RECODIFICAÇÃO DE VALORES
) e fazer
ESACB
22
SPSS
Ao fazer a importação de ficheiros externos, acontece que variáveis alfanuméricas são impo
rtadas como tal, causando posteriormente problemas em determinadas análises. Isto
acontece, por exemplo, quando se importam variáveis de agrupamento ou definição de cla
sses, ou variáveis nominais, do género de variável sexo, que agrupa os casos em mascul
ino e feminino. Em situações deste género, é natural que posteriormente haja necessidade
de agrupar os casos por sexo (genericamente por classes), nomeadamente para com
parar médias de sub-amostras. Para contornar esta questão, a fazer a importação destas v
ariáveis, há que recodificá-las em variáveis nominais, com códigos numéricos, por exemplo ma
sculino=1, feminino=2, à semelhança do que se fez na introdução das variáveis variedad e a
zoto. Vamos ilustrar usando o ficheiro pulso.sav, que se criou pela importação do fi
cheiro pulso.dbf do dBase. Neste ficheiro, as variáveis sexo (Homem, Mulher) e fum
a (Fuma, Não Fuma) são alfanuméricas, mas nitidamente com uma conotação de agrupamento em
classes. Vamos recodificar a variável sexo (Homem=1, Mulher=2) e fuma (Fuma=1, Não F
uma=2). Para tal, executar o seguinte procedimento (por variável a recodificar): T
ransform Recode Into Same Variable Na caixa de diálogo seguinte, seleccionar a var
iável a recodificar (sexo):
Seleccionar identificando em
. Na caixa de diálogo seguinte definir as recodificações, o o novo valor a atribuir; f
azer valor antigo . a recodificar, e em
ESACB
23
SPSS
Repetir para o outro valor da variável (Mulher=2). No final, a caixa de diálogo most
ra as recodificações a efectuar:
No final, fazer
e OK. As alterações são executadas.
Seguidamente, deve alterar-se o tipo de variável para numérica, e definir as “labels”: 1
=Homem; 2=Mulher, tal como já anteriormente explicado:
ESACB
24
SPSS
Fazer o mesmo procedimento para a outra variável a recodificar. No final, aparente
mente não houve alterações: a variável sexo contém os valor Homem e Mulher, como anteriorm
ente; só que, após esta transformação, estas variáveis têm a conotação de agrupamento de caso
coisa que não acontecia tal como resultaram da importação do ficheiro de dados externo
ao SPSS. 2.2.6 - SELECÇÃO DE CASOS Por vezes, há necessidade de proceder a análises sem
a inclusão de todos os casos contidos nas variáveis em jogo. Uma situação típica é ter-se v
erificado que há valores “outliers”, isto é, valores extremos muito elevados ou muito ba
ixos, que provavelmente são registos mal efectuados, ou eventualmente observações anómal
as que, incluídas nas análises estatísticas, vão distorcer a validade das conclusões. Dest
a forma, poderá ser preferível excluí-las das análises, mas sem as eliminar do ficheiro
de dados. A detecção de “outliers” será efectuada no procedimento EXPLORE (cap. 3). Vamos
ilustrar com a exclusão do caso n 6 do ficheiro pulso.sav, em que a observação correspo
ndente à variável ritmod é 265, valor impossível para a característica em análise, sendo pro
vável que tenha acontecido um lapso no acto de registo dos valores. Pretende-se ex
cluir todo este caso das análises subsequentes, sem contudo o eliminar do ficheiro
, pois poderá haver necessidade de posteriormente efectuar análises sobre as outras
variáveis (por exemplo, ritmoa), cujo valor (96) é perfeitamente normal. Para tal, f
azer: Data Select Cases...
ESACB
25
SPSS
Pretende-se excluir o caso n 6 da análise, isto é, incluir na análise todos os casos co
m excepção do caso n 6. Para tal, na caixa de diálogo seleccionar definir que se selecc
ionam para análise todos os cados diferenntes do caso n 6: ,e
A indicação caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SP
SS criou automaticamente uma variável designada filter_$, em que indica quais os c
asos seleccionados e os não incluídos. Repare-se que a linha 6 está traçada, indicando q
ue este caso está excluído de futuras análises:
ESACB
26
SPSS
A variável filter_$ é uma variável numérica, cujos valores são 0=”Not Selected” e 1=”Selected
ecran, aparecem visualizados as labels dos valores, caso se tenha optado por es
te modo de visualização. A fim de incluir novamente o caso 6 nas análises, fazer: Data
Select Cases...
ou digitar o valor 1 na célula 6 da variável filter_$. Por exemplo, querendo selecci
onar os casos referentes aos homens (sexo=1) que fumam (fuma=1), dever-se-á fazer
o seguinte procedimento: Data Select Cases...
ESACB
27
SPSS
Para definir a condição atrás referida, seleccionar a variável sexo, defini-la como send
o igual a 1; o operador lógico e (AND) é simbolizado pelo caracter &; seleccionar a
variável fuma e defini-la igual a 1:
Fazer
para avançar.
ESACB
28
SPSS
3 - Análise de Dados
3-
ANÁLISE DE DADOS
Vamos iniciar a utilização do SPSS a fim de efectuar diversas análises estatísticas. Ant
es de iniciar um processo de análise, os dados a analisar devem estar carregados n
a memória do computador. Vamos ilustrar utilizando o ficheiro arroz.sav que deverá e
star carregado na memória do computador.
3.1 - OBTER ESTATÍSTICAS DESCRITIVAS
Esta rotina calcula as estatísticas elementares (média, moda, mediana, variância, etc)
de uma variável numérica. No exemplo, a única variável susceptível de ser analisada é a var
iável producao. 3.1.1 - PROCEDIMENTO DESCRIPTIVES Para obter as estatísticas element
ares de uma variável numérica, fazer:
Aparece a seguinte caixa de diálogo, onde se definem as variáveis a analisar; no pre
sente caso, será apenas a variável producao:
ESACB
29
SPSS
Para seleccionar as variáveis a analisar, click sobre o nome da variável na listagem
que aparece na caixa esquerda, e de seguida click no botão . Ficará com o seguinte
aspecto:
A fim de definir quais os parâmetros estatísticos a estimar, seleccionar se a seguin
te caixa de diálogo:
, obtendo-
Inicialmente, estariam seleccionadas apenas a Mean (média), Std. deviation (desvio
padrão), Minimum (mínimo) e Maximum (máximo); vamos seleccionar também a Sum
ESACB 30
SPSS
(soma de todas as observações), Variance (variância), Range (intervalo de variação), s S.E
.mean (erro padrão da média: s x = ), Kurtosis (curtose ou achatamento), Skewness N
(enviesamento ou assimetria). As opções Display Order só têm significado nos casos em qu
e se procede ao cálculo de parâmetros de mais do que uma variável. No final, fazer e d
epois .
O programa abre o Viewer (janela de resultados), com o aspecto:
Na janela direita estão os resultados; como se pediu o cálculo de muitos parâmetros, o
quadro de resultados demasiado largo para caber no ecran; use a barra de scroll
para ler o quadro de resultados Caso tenha interesse em imprimir os resultados,
o SPSS resolve o problema da largura, fraccionando o quadro em vários. Repare que
ficou no SPSS Viewer; para voltar ao Data Editor do SPSS, onde está aberto o fich
eiro arroz.sav, restaure a janela na barra Iniciar do Windows:
O SPSS permite capturar os resultados visualizados no Viewer e colá-los por exempl
o, no relatório que está a ser escrito no editor de texto Word; no processador de te
xto, pode seleccionar-se a tabela e fazer o ajuste automático, de modo a que o qua
dro, demasiado largo, caiba na largura do texto. Contudo, resulta mais elegante
se não for necessário reduzir
ESACB
31
SPSS
muito a largura do quadro original. Para tal, a solução é obter menos parâmetros estatísti
cos, de modo que o quadro de resultados seja menos largo. 3.1.2 - PROCEDIMENTO E
XPLORE Em caso de necessidade de apresentar todos os parâmetros estatísticos, estes
podem ser obtidos noutra rotina do SPSS, cujo quadro de resultados se desenvolve
na vertical, sendo mais fácil inclui-los no relatório em Word. Vamos ilustrar esta
opção. A opção EXPLORE calcula os parâmetros estatísticos, e elabora o gráfico caule-e-folhas
(esquema de histograma) e o gráfico de extremos-e-quartis, muito útil para analisar
a amostra em termos de concentração ou dispersão dos valores por intervalos quartílicos,
bem como a sua simetria; além disso, é uma boa ferramenta de verificar se há observações “o
utliers”, isto é, observações extremas que se afastam muito da gama média dos valores da a
mostra. Opcionalmente, podem obter-se outras análises, como veremos.
Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal
como descrito atrás. De seguida, seleccionar o botão
ESACB
32
SPSS
Seleccionando o botão , verifica-se que o cálculo das estatísticas descritivas está acti
vado; pode-se optar por verificar analiticamente a existência de “outliers”, bem como
calcular os percentis. A opção M-estimators destina-se ao cálculo de parâmetros estatístic
os (média e variância) ponderados; geralmente esta opção só interessa em utilizações muito es
ecíficas. No final, fazer .
Voltando à caixa de diálogo Explore, seleccionar a opção e fazer .
; seleccionar a opção
Na janela Explore seleccionar a opção fazer
para obter os resultados.
ESACB
33
SPSS
Note-se que os resultados vêm na sequência dos resultados obtidos anteriormente, de
modo que durante a sessão de trabalho, os resultados vão-se acumulando, podendo o ut
ilizador em qualquer momento seleccionar os que lhe interessam. Utilize a barra
se scroll vertical para visualizar os resultados, ou na caixa do organigrama dos
resultados, à esquerda, seleccione os que lhe interessa visualizar. Por exemplo,
para ver os parâmetros estatísticos, click sobre :
Esta opção, além dos parâmetros estatísticos obtidos no procedimento DESCRIPTIVES, calcula
o intervalo de confiança para a média, e a média após eliminar as 5% observações inferiores
e as 5% observações superiores (5% Trimmed Mean). De seguida apresentam-se o histog
rama, diagrama de caule-e-folhas (steam-and-leaf) e diagrama de extremos-e-quart
is (Boxplot) referentes a esta análise.
ESACB
34
SPSS
Histogram
10
8
6
4
Frequency
2
Std. Dev = 952.52 Mean = 4956.5 N = 60.00
0
Producao
Producao Stem-and-Leaf Plot Frequency 3.00 3.00 5.00 6.00 13.00 7.00 18.00 5.00
Stem width: Each leaf: Stem & 2 3 3 4 4 5 5 6 . . . . . . . . Leaf 688 144 77789
111234 5556778889999 1223344 555666678888899999 00024
.0 00 6 5 0.0 5 6 2 0.0 0 6 0 0.0 5 5 7 0.0 0 5 5 0.0 5 5 2 0.0 0 5 0 0.0 5 4 7
0.0 0 4 5 0.0 5 4 2 0.0 0 4 0 0.0 5 3 7 0.0 0 3 5 0.0 5 3 2 0.0 0 3 0 0.0 5 2 7
0.0 0 25
1000.00 1 case(s)
ESACB
35
SPSS
7000
6000
5000
4000
3000
2000
N= 60
Producao
3.1.3 - PROCEDIMENTO EXPLORE COM FACTORES Os resultados anteriores referem-se à gl
obalidade das produções, e têm o interesse que o utilizador pretender retirar deles. N
uma situação como a que estamos a analisar, teria igualmente interesse executar esta
s análises, não para a globalidade das observações, mas sim repartidas por um ou mais do
s factores. Vamos executar o procedimento EXPLORE, obtendo os resultados para ca
da uma das três variedades (poderia ser para os cinco níveis de azoto, ou para os do
is factores em simultâneo).
ESACB
36
SPSS
Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal
como descrito atrás. Seleccionar a variável variedad para o campo Factor List:
A partir deste ponto, o procedimento é análogo ao atrás descrito. Os resultados têm o se
guinte aspecto:
A seguir apresenta-se a listagem completa dos resultados do procedimento:
ESACB
37
SPSS
Descriptives Variedade Producao IR8 Mean 95% Confidence Interval for Mean Lower
Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum
Range Interquartile Range Skewness Kurtosis IR5 Mean 95% Confidence Interval fo
r Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Mi
nimum Maximum Range Interquartile Range Skewness Kurtosis C4-63 Mean 95% Confide
nce Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance St
d. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
Statistic 4769.4000 4275.7316 5263.0684 4819.3333 4836.0000 1112633.726 1054.814
5 2606.00 6034.00 3428.00 1762.0000 -.651 -.441 5042.0000 4593.9109 5490.0891 50
85.3333 5410.0000 916664.421 957.4259 2846.00 6458.00 3612.00 1574.5000 -.839 -.
076 5058.1000 4657.4878 5458.7122 5081.6667 5091.0000 732706.305 855.9827 3428.0
0 6264.00 2836.00 1493.5000 -.419 -.921
Std. Error 235.8637
.512 .992 214.0869
.512 .992 191.4035
.512 .992
O diagrama de extremos-e-quartis é apresentado agora para cada uma das três variedad
es:
ESACB
38
SPSS
7000
6000
5000
4000
Producao
3000
2000
N= 20 20 20
IR8
IR5
C4-63
Variedade
Estes resultados podem começar a fornecer pistas para a análise dos dados, do género d
e que a variedade C4-63 apresenta uma produção mais homogénea.
3.1.4 - PROCEDIMENTO FREQUENCIES O procedimento FREQUENCIES permite gerar tabela
s de frequências (contagem de casos quer de variáveis alfanuméricas, quer de variáveis n
uméricas. Adicionalmente, pode calcular os parâmetros estatísticos calculados pelos pr
ocedimentos DESCRIPTIVES e EXPLORE, anteriormente vistos; pode igualmente gerar
histogramas, com o ajustamento a uma função de distribuição de probabilidades. No caso d
e variáveis numéricas, em que se admite que seguem uma lei de distribuição normal (press
uposto quase obrigatório para a maioria das metodologias estatísticas usuais em ciênci
as agrárias), a visualização do ajustamento do respectivo histograma à função de distribuição
rmal pode ser uma valiosa ferramenta para análises subsequentes. A fim de ilustrar
, vamos executar dois procedimentos FREQUENCIES: gerar as tabelas de frequência da
s variáveis nominais azoto e variedad, e gerar a tabela de frequências da variável pro
ducao, neste caso com o respectivo histograma ajustado à fdp normal. Seleccionar:
Statistics Summarize Frequencies... Na caixa de diálogo, seleccionar as variáveis va
riedad e azoto:
ESACB
39
SPSS
A opção permite seleccionar, facultativamente, quais os parâmetros estatísticos a calcul
ar. No caso de variáveis nominais e alfanuméricas não têm significado. Os resultados obt
idos, que são acrescentados ao Viewer, têm o seguinte aspecto:
Repita-se o procedimento para a variável numérica producao: Statistics Summarize Fre
quencies...
ESACB
40
SPSS
Vá à opção
seleccionar para calcular os decis (com a selecção da opção ), a média, mediana e variância.
No final, fazer :
De seguida, vá-se á opção função de distribuição normal:
para seleccionar o histograma com ajustamento à
ESACB
41
SPSS
Fazer
para avançar, e OK para calcular.
Veja no Viewer os resultados. O histograma com o ajustamento à f.d.p. normal tem o
seguinte aspecto, onde sobressai o enviezamento da amostra para a direita em re
lação à distribuição teórica, bem como um achatamento um pouco maior que o que seria de espe
rar (isto é, cerca de 75% da amostra está abaixo da curva, nomeadamente na zona cent
ral da distribuição):
Producao
10
8
6
4
Frequency
2
Std. Dev = 952.52 Mean = 4956.5 N = 60.00
0
Producao
.0 00 6 5 0.0 5 6 2 0.0 0 6 0 0.0 5 5 7 0.0 0 5 5 0.0 5 5 2 0.0 0 5 0 0.0 5 4 7
0.0 0 4 5 0.0 5 4 2 0.0 0 4 0 0.0 5 3 7 0.0 0 3 5 0.0 5 3 2 0.0 0 3 0 0.0 5 2 7
0.0 0 25
ESACB
42
SPSS
4 - Gráficos
4-
GRÁFICOS
A representação gráfica dos dados é geralmente uma boa abordagem para as análises estatístic
as a efectuar: a representação de variáveis numéricas em histograma permite inferir acer
ca da simetria, achatamento e normalidade da amostra em análise; o gráfico de barras
representando contagens ou percentagens de valores de variáveis permite comparar
visualmente diversas características amostrais; a representação gráfica de duas variáveis
que se julgam correlacionadas num gráfico de pontos ou de dispersão permite definir
uma abordagem prévia à metodologia de regressão; os gráficos de extremos-e-quartis facil
itam a detecção de outliers, além de permitirem analisar a simetria e sub-intervalos d
e maior concentração da amostra; etc. Muitos dos procedimentos estatísticos do SPSS in
cluem já a elaboração de gráficos adequados às análises respectivas. Nesta secção, vamos abor
a criação de gráficos isolados de outros procedimentos. O programa SPSS permite defin
ir os gráficos por duas vias: • gráficos interactivos: disponíveis a partir do sub-menu
Interactive do menu Graphs; a característica principal desta metodologia de gerar
gráficos é a facilidade em intercambiar variáveis entre os eixos do gráfico, nomeadament
e a partir da janela Viewer, após ter gerado o gráfico. A edição do gráfico faz-se directa
mente na janela Viewer.
•
gráficos standardizados: esta metodologia permite definir os gráficos, a partir de s
ubmenus individualizados no menu Graphs; após criados, estes gráficos são menos dinâmico
s que os gráficos interactivos. Para editar o gráfico, selecciona-se este na janela
Viewer e abre-se uma janela de edição do gráfico.
De seguida vão-se apresentar a definição de alguns tipos de gráficos, tendo como base de
trabalho os dados do ficheiro pulso.sav (listagem em anexo). Vamos de seguida i
lustrar a realização de alguns gráficos. Não se pretende fazer uma apresentação exaustiva de
todos os tipos de gráficos; contudo, os procedimentos para qualquer outro tipo de
gráfico são genericamente semelhantes, de modo que os gráficos descritos de seguida f
ornecem bases suficientes para que o utilizador explore e crie qualquer outro ti
po de gráficos.
4.1 - GRÁFICOS STANDARDIZADOS
ESACB
44
SPSS
4 - Gráficos
4.1.1 - GRÁFICO DE BARRAS Vamos ilustrar criando um gráfico com a contagem de casos
de cada uma das idades do ficheiro pulso.sav. Para tal: Graphs Bar ... Aparece a
seguinte caixa de diálogo, onde se selecciona o tipo de gráfico de barras a executa
r (Simple: para representar uma única série de valores ou variável; Clustered: permite
representar várias variáveis agrupadas; para cada valor de uma das variáveis são gerada
s barras para cada valor da outra variável; Stacked: permite representar várias variáv
eis em barras sobrepostas). Vamos iniciar por criar o gráfico de barras simples. N
esta caixa de diálogo selecciona-se também o tipo de dados (no caso, pretende-se rep
resentar a contagem das idades, isto é, um sumário – contagem – dos dados; para tal, sel
ecciona-se a opção ).
Para prosseguir, fazer
.
Na janela seguinte, selecciona-se a variável a representar no gráfico para o campo C
ategory Axis, e define-se que as barras representam a contagem de casos (N of ca
ses):
ESACB
45
SPSS
4 - Gráficos
Para definir os títulos do gráfico, seleccionar . Escrever o título principal (Title L
ine 1 e Line 2), sub-título (Subtitle) e notas de rodapé (Footnote – Line 1 e Line 2).
Qualquer destes títulos é facultativo:
No final fazer
. O gráfico tem o seguinte aspecto:
ESACB
46
SPSS
4 - Gráficos
Distribuição das idades dos pacientes
As idades estão expressas em anos completos
10
8
6
4
Count
2 0 19 21 23 25 27 29 31 33 35 38 42
IDADE
Fonte: Abcde, 1998.
Os gráficos de linhas (Line) e área (Area) dão a mesma informação; em vez de barras ou col
unas, é desenhada uma linha unindo os pontos à altura da contagem do número de casos e
m cada categoria ou valor do eixo dos xx; no caso do gráfico de áreas, a área definida
por essa linha e o eixo dos xx é preenchida. A definição destes gráficos tem os mesmos
passos do gráfico de barras. A título de exemplo, apresenta-se de seguida o gráfico de
área para a variável idade (o gráfico de linhas seria exactamente o mesmo, sem a área s
ombreada):
Distribuição das idades dos pacientes
As idades estão expressas em anos completos
10
8
6
4
Count
2 0 19
21
23
25
27
29
31
33
35
38
42
IDADE
Fonte: Abcde, 1998.
ESACB
47
SPSS
4 - Gráficos
Poderá ter interesse ver a distribuição de idades por sexo, isto é, fazer a separação das id
ades por sexo; para tal, na janela Bars Chart selecciona-se a opção Clustered. Apare
ce a seguinte janela, onde se seleccionam a variável a representar em barras (idad
e) e a variável de agrupamento (sexo):
Todo o restante procedimento é semelhante. O gráfico resultante é o seguinte:
Distribuição das idades dos pacientes por sexo As idades são expressas em anos complet
os
5
4
3
2
SEXO Count
1 0 19 21 23 25 27 29 31 33 35 38 42 Homem Mulher
IDADE
Fonte: Abcde, 1998
O gráfico de barras pode também usar-se para comparar visualmente a média (ou outro pa
râmetro estatístico) de duas ou mais variáveis da mesma natureza. Para exemplificar, v
amos elaborar o gráfico de barras referente às médias das variáveis ritmoa e ritmod. Par
a tal:
ESACB
48
SPSS
4 - Gráficos
Graphs Bar ... Na janela de diálogo seguinte, seleccionar o tipo Simple (só uma série
de barras) e a opção (isto é, cada barra representa um parâmetro estatístico de uma variável
):
Para prosseguir, fazer
. Na janela seguinte, seleccionar as variáveis a representar:
Veja-se que, por defeito, será representada a média (mean) das variáveis. Pretendendo
representar outro parâmetro, fazer (seleccionando individualmente cada uma das var
iáveis, ou seleccionando todas as variáveis em simultâneo – para tal, manter o botão esque
rdo pressionado e arrastar sobre o nome das variáveis a seleccionar). Aparece a se
guinte caixa de diálogo, onde se define o parâmetro a representar. Veja-se que pode
seleccionar-se um parâmetro estatístico (primeiro bloco da janela), ou então o número (o
u
ESACB
49
SPSS
4 - Gráficos
percentagem) de casos acima ou abaixo de um valor a definir (bloco central), ou
entre dois valores a definir (último bloco)3:
Definir os títulos como referido previamente. O gráfico tem o seguinte aspecto:
Ritmo cardíaco antes e após exercício físico Valores médios
160
140
120
100
80
Mean
60 RITMOA Fonte: Abcde, 1998 RITMOD
4.1.2 - HISTOGRAMA
3
Os campos Value, Low, High só são activados após seleccionar uma opção do respectivo bloco
de
opções.
ESACB
50
SPSS
4 - Gráficos
O histograma é um gráfico parecido ao de barras, só que o eixo dos xx é escalar contínuo,
representando classes de uma variável numérica, e não categorias como no caso do gráfico
de barras. As barras representam as frequências absolutas registadas no intervalo
ou classe definido no eixo dos xx. O histograma traduz a distribuição de frequências,
sendo possível analisar a simetria e o achatamento da amostra. Para ilustrar a el
aboração do histograma, vamos usar a variável ritmoa do ficheiro pulso.sav. Executar o
seguinte procedimento: Graphs Histogram ... Aparece a seguinte caixa de diálogo,
onde se selecciona a variável numérica a representar no eixo dos xx do histograma:
Seleccionando a opção ao histograma. Para definir os títulos do gráfico, seleccionar
, é sobreposta a curva de distribuição normal
, tal como descrito anteriormente.
ESACB
51
SPSS
4 - Gráficos
Histograma das frequências absolutas Ritmo cardíaco
14 12 10 8 6 4 Std. Dev = 9.54 2 0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Mean
= 76.0 N = 40.00
RITMOA
Fonte: Abcde, 1998
4.1.3 - GRÁFICO DE EXTREMOS-E-QUARTIS O diagrama de extremos-e-quartis, ou caixa-c
om-bigodes, é uma útil representação gráfica dos dados na detecção de outliers, e na análise
simetria e de sub-intervalos de concentração da amostra de valores. O gráfico baseia-s
e na localização dos quartis (1 quartil, 2 quartil ou mediana, 3 quartil), que definem
assim 4 sub-intervalos, cada um com 25% das observações: 1 intervalo quartílico, delimi
tado pelo xmin e quartil1; 2 intervalo quartílico, delimitado pelo quartil1 e quart
il2; 3 intervalo quartílico, definido pelo quartil2 e quartil3; 4 intervalo quartílico
, desde o quartil3 ao xmax. São considerados outliers as observações que fiquem abaixo
do limite definido pela expressão q1 − 1.5 × (q3 − q1 ) ou acima do limite q3 + 1.5 × (q3
− q1 ) ; caso existam outliers, o limite do “bigode” do diagrama passa a ser a observ
ação extrema que se situe dentro dos limites dos outliers atrás definidos. Para criar
o diagrama de extremos-e-quartis, executar o seguinte procedimento (vamos usar a
variável ritmoa do ficheiro pulso.sav): Graphs Boxplot ... Na caixa de diálogo segu
inte seleccionar a opção Simple, já que se trata de uma única variável, e a opção para criar
m diagrama de extremos-equartis da variável ritmoa para cada categoria de uma outr
a variável (vamos usar a variável sexo para definir as categorias). Seleccionar a opção
se se
ESACB
52
SPSS
4 - Gráficos
pretender criar o gráfico com todos os dados da variável ritmoa, sem separar pelas c
ategorias da variável sexo:
Fazer para continuar. Na seguinte caixa de diálogo, seleccionar a variável numérica a
representar no gráfico (ritmoa), e a variável para definir as categorias (sexo):
O resultado é o seguinte:
Case Processing Summary Cases Missing N Percent 0 .0% 0 .0%
Valid RITMOA SEXO Homem Mulher N 22 18 Percent 100.0% 100.0%
Total N 22 18 Percent 100.0% 100.0%
ESACB
53
SPSS
4 - Gráficos
100
15
90
10 38
80
70
RITMOA
60
50
N= 22 18
Homem
Mulher
SEXO
Repare-se que no caso dos homens, há duas observações outliers, que são assinaladas fora
dos “bigodes” do diagrama; o “bigode” chega, neste caso, até à observação mais alta, mas que
seja outlier (valor 80). Repare-se que é indicado o número de observações para cada uma
das categorias (N=22 para os homens; N=18 para as mulheres). 4.1.4 - GRÁFICO DE BA
RRA DE ERROS Um gráfico de barra de erros representa um intervalo de confiança para
a média de uma variável numérica de uma amostra (ou sub-amostras definidas pelas categ
orias de uma variável categórica). O intervalo de confiança é definido por uma das segui
ntes expressões (entre parentesis são indicadas as respectivas opções a seleccionar dura
nte a definição do gráfico – ver à frente): • , em que t ( a , N −1) é o quantil α da distrib
tudent N Confidence interval for mean);
x t (α , N −1) .
s
(opção
•
x k .s x , em que s x =
error of mean);
s N
é o erro padrão da média e k ∈ Ν
(opção
Stndrd
•
x zα .s , em que z α é o quantil α da distribuição normal reduzida N(0,1) (opção Standard d
ion).
Vamos ilustrar a criação deste tipo de gráfico usando a variável ritmoa do ficheiro puls
o.sav, sub-dividida pelas duas categorias (Homem, Mulher) da variável sexo:
ESACB
54
SPSS
4 - Gráficos
Graphs Error Bar ... Na caixa de diálogo seguinte seleccionar a opção Simple, já que se
trata de uma única variável, e a opção para um gráfico da variável ritmoa para
cada categoria de uma outra variável (sexo). Seleccionar a opção se se pretender criar
o gráfico com todos os dados da variável ritmoa, sem separar pelas categorias da va
riável sexo:
Fazer para continuar. Na seguinte caixa de diálogo, seleccionar a variável numérica a
representar no gráfico (ritmoa), e a variável para definir as categorias (sexo):
Na caixa Bars Represent deve seleccionar-se o tipo de intervalo de confiança que s
e pretende (definidos anteriormente). Para pequenas amostras, o mais usual é o int
ervalo de confiança para a média (Confidence interval for mean). O nível de confiança é de
95% (o utilizador pode definir outro nível de confiança).
ESACB
55
SPSS
4 - Gráficos
Para definir os títulos do gráfico, seleccionar O gráfico tem o seguinte aspecto:
.
Intervalo de confiança a 95% para a média do ritmo cardíaco (por categoria sexo)
90
80
95% CI RITMOA
70
60
N= 22 18
Homem
Mulher
SEXO
Fonte: Abcde, 1998
4.1.5 - GRÁFICOS DE PROBABILIDADES Os gráficos de probabilidades (P-P: Probability P
lots) visualizam graficamente o ajustamento de uma variável a uma função de distribuição d
e probabilidades. Este tipo de gráficos representa no eixo dos xx as frequências rel
ativas acumuladas observadas na amostra (observed cummulative probability) e no
eixo dos yy a função de distribuição de probabilidades esperada (expected cummulative pr
obability). A diagonal do gráfico (x=y) representa um ajustamento perfeito da amos
tra à função de distribuição de probabilidades. Quanto mais os pontos se afastam da diagon
al, ou se se distribuem segundo um determinado padrão, menor é o ajustamento da amos
tra à distribuição teórica. O SPSS pode fazer o gráfico P-P de ajustamento às seguintes dist
ribuições: beta, chiquadrado, exponencial, gamma, Laplace, Logistic, Log-normal, nor
mal, semi-normal, Pareto, t-Student, Weibull e uniforme. Vamos ilustrar ajustand
o a variável ritmoa à distribuição de probabilidades normal, com média x (parâmetro de local
ização) e variância s 2 (parâmetro de escala), estimados a partir da amostra: Graphs P-P
...
ESACB
56
SPSS
4 - Gráficos
permite seleccionar a distribuição teórica de probabilidades. As O campo frequências acu
muladas teóricas ou esperadas são calculadas por expressões matematicamente definidas,
e todas relacionadas com o “ranking” das observações (isto é, com a ordem desde 0 – corresp
ondente a xmin - a n – correspondente a xmax), sendo o método Blom o mais usual. Qua
ndo há observações repetidas (ties), a sua ordem pode ser definida pela ordem da obser
vação média ( ), ou pela ordem mais elevada (High) ou da observação mais baixa (Low) da ob
servação repetida. O resultado é o seguinte:
PPlot
MODEL: MOD_3. Blom's Expected Normal quantiles calculated using proportional est
imation formula and assigning the mean to ties. For variable RITMOA... Normal di
stribution scale=9.5379135 parameters estimated: location=75.95
ESACB
57
SPSS
4 - Gráficos
Normal P-P Plot of RITMOA
1.00
.75
.50
Expected Cum Prob
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
Detrended Normal P-P Plot of RITMOA
.10 .08 .06 .04
Deviation from Normal
.02 0.00 -.02 -.04 -.06 0.0 .2 .4 .6 .8 1.0
Observed Cum Prob
O output inclui, além do gráfico de ajustamento à normal (onde se observa um afastamen
to com comportamento cíclico em relação à diagonal), um gráfico do ajustamento dos resíduos
(yobs-yest); se a amostra é perfeitamente normal, os resíduos distribuir-se-ão segundo
uma faixa horizontal em torno do zero, sem denotar qualquer padrão de distribuição; n
o exemplo, é nítido um comportamento cíclico em torno do zero, denotando algum afastam
ento em relação à normal.
ESACB
58
SPSS
4 - Gráficos
4.1.6 - GRÁFICO DE DISPERSÃO O gráfico de dispersão (scatterplot) é um gráfico de pontos, re
presentando num plano (x,y) N pares de valores numéricos escalares, que permite an
alisar a distribuição conjunta das duas variáveis. Este tipo de gráficos é muito útil como m
etodologia prévia de análise a problemas de regressão, quando se tenta ajustar uma função
y=f(x), que estabelece uma relação de dependência entre as duas variáveis. Permite igual
mente detectar observações outliers bi-variadas, isto é, observações que se afastam do con
texto das restantes observações, mesmo que, analisadas isoladamente em relação a cada va
riável, não se suspeite desses outliers. No eixo dos xx representa-se a variável indep
endente ou causal, e no eixo dos yy a variável dependente, resposta ou efeito. A f
im de ilustrar, vamos usar as variáveis ritmoa (x) e ritmod (y), pensando a priori
que o ritmo cardíaco após exercício físico está relacionado com o ritmo cardíaco em repouso
do mesmo indivíduo. Graphs Scatter ...
Nesta janela, deve seleccionar-se o tipo de gráfico de dispersão a executar: Simple
quando se pretende representar num plano xy uma série de observações bivariadas (x,y);
se nessa série existem diferentes categorias, definidas por uma terceira variável c
ategórica, podem identificar-se os pontos correspondentes a cada categoria com mar
cas diferentes; quando se pretende representar num mesmo plano (x,y) duas ou mai
s séries de observações bi-variadas (x,y) da mesma natureza; quando se pretendem repre
sentar os gráficos xy de todas as combinações possíveis de duas ou mais variáveis; isto é, d
ispondo de 3 variáveis genericamente identificadas por x,y,z, esta opção representa os
seguintes gráficos: (x,y), (x,z), (y,z), bem como a imagem simétrica destes gráficos;
este gráfico é útil para uma análise exploratória das associações entre diversas variáveis;
resenta o gráfico espacial a 3 dimensões definido pelos eixos (x,y,z).
Overlay Matrix
3-D
O tipo de gráfico mais usual é o Simple. Tendo seleccionado a opção pretendida, fazer pa
ra prosseguir. Na janela seguinte, definir as variáveis a usar em cada um dos
ESACB
59
SPSS
4 - Gráficos
eixos (x: ritmoa; y: ritmod), bem como a variável categórica (sexo) de agrupamento (
opcional):
Definir os títulos como previamente descrito. O gráfico resultante tem o seguinte as
pecto:
Ritmo após exercício versus ritmo cardíaco em repouso Os casos são identificados por sex
o
280 260 240 220 200 180 160
RITMOD
SEXO
140 120 100 60 70 80 90 100 Mulher Homem
RITMOA
Fonte: Abcde, 1998
Nota-se que, aparte da observação no canto superior direito do gráfico, que é um outlier
bivariado, todas as outras observações têm uma tendência mais ou menos linear ligeirame
nte crescente. Para ilustrar a matriz de gráficos, com as variáveis idade, ritmoa, r
itmod, executar o procedimento:
ESACB
60
SPSS
4 - Gráficos
Graphs Scatter ... Matrix
O gráfico resultante é o seguinte:
Relação entre idade, ritmoa, ritmod
Casos identificados por sexo
IDADE
RITMOA
SEXO
RITMOD Mulher Homem Fonte: Abcde, 1998
ESACB
61
SPSS
4 - Gráficos
4.2 - EDIÇÃO DOS GRÁFICOS STANDARDIZADOS
Quando o gráfico é criado e aparece na janela Viewer do SPSS pode não estar optimizado
em relação a algumas características, nomeadamente cores e padrões de preenchimento (co
m particular ênfase se se pretende imprimir ou exportar para outras aplicações). Para
editar o gráfico, a fim de fazer estes pequenos ajustamentos, seleccionar o gráfico
(click sobre o gráfico) na janela Viewer do SPSS e abri-lo com um dos seguintes pr
ocedimentos: i) Edit SPSS Chart Object Open ii) Click com o botão direito do rato
Aparece o seguinte menu:
iii)
Seleccionar SPSS Chart Object Open Duplo click com o botão esquerdo do rato
Qualquer dos anteriores procedimentos abre o gráfico numa nova janela, com a desig
nação SPSS Chart Editor, sobreposta ao Viewer, tal como se ilustra; o gráfico está sombr
eado na janela Viewer durante a edição; as alterações efectuadas são reflectidas automatic
amente neste gráfico:
ESACB
62
SPSS
4 - Gráficos
Para alterar um pormenor, por exemplo o padrão de preenchimento das barras, fazer
click sobre uma barra (no Chart Editor); repare-se que automaticamente todas as
barras ficaram seleccionadas (muito embora as marcas sejam colocadas em apenas a
lgumas barras, todas elas estão seleccionadas):
Para alterar o formato das barras, seleccionar o menu Format:
ESACB
63
SPSS
4 - Gráficos
Neste menu, seleccionar uma das seguintes opções, conforme o objectivo; cada opção abre
uma caixa de diálogo onde o utilizador selecciona a alteração a efectuar; para tomar e
feito, fazer : Nota: A barra de ferramentas do SPSS Chart Editor tem os botões de
atalho para as respectivas entradas no menu Format, tal como de seguida se apres
entam:
Fill Patern... ou
Alterar o padrão de preenchimento;
Color... ou Marker... ou Line Style... ou Bar Style ... ou
Alterar a cor; Alterar o tipo de marca ou ponto (no scatterplot); Alterar o tipo
(contínua, pontuada) e espessura de linhas; Alterar o tipo de barras:
ESACB
64
SPSS
4 - Gráficos
Alterar as características (fonte e tamanho) do texto (só activo se se se Text... ou
seleccionou previamente uma região de texto, por exemplo os títulos) Cada uma das c
aixas de diálogo tem o botão alteração. ou , para fechar após aplicar a
Para alterar os títulos ou notas de rodapé (ou defini-los, se não o foram durante o pr
ocedimento do elaboração do gráfico), faz-se o seguinte procedimento: Chart Title... (
ou Footnote... se se trata de editar as notas de rodapé)
Abre-se a seguinte janela de diálogo, onde o utilizador poderá alterar os títulos (se
não foram previamente definidos os títulos, os respectivos campos aparecem vazios),
e o respectivo alinhamento:
No caso da edição das notas de rodapé, a janela de diálogo é a seguinte:
Após ter efectuado as alterações pretendidas, fechar o Chart Editor para regressar ao
Viewer; para tal, fazer File Close, ou click no botão .
4.3 - GRÁFICOS INTERACTIVOS
ESACB
65
SPSS
4 - Gráficos
Como referido no início do capítulo, o SPSS dispõe de uma rotina interactiva de definição
de gráficos, em que a selecção e alteração do tipo de gráficos, variáveis a incluir, e pormen
res, são mais facilmente editados. Para criar um gráfico interactivo, seleccionar: G
raphs Interactive No menu seguinte, selecciona-se o tipo de gráfico a criar:
Vamos ilustrar a criação de um gráfico de barras e de um gráfico de dispersão; para os res
tantes tipos, os procedimentos são análogos. 4.3.1 - GRÁFICO DE BARRAS No menu Interac
tive selecciona-se a opção Bar... , aparecendo a seguinte janela de diálogo:
ESACB
66
SPSS
4 - Gráficos
Esta janela é típica dos gráficos interactivos, e representa o “esqueleto” do gráfico, com u
m sistema de eixos ortogonais, cada um com um campo, para o qual se selecciona a
variável a usar nesse eixo; alguns campos podem já conter uma variável4 automaticamen
te assumida pelo programa; é o que acontece no eixo dos yy, em que o programa propõe
representar o número de casos iguais, ou frequências absolutas (variável $count). O g
ráfico pode ser bi-dimensional, ou tri-dimensional; a selecção faz-se com os botões:
gráfico bi-dimensional (plano xy) gráfico tri-dimensional (espaço xyz)
No caso de um gráfico bi-dimensional, pode ser representado na vertical ( horizont
al ( ).
) ou na
Seleccionar para o eixo dos xx a variável a representar (sexo):
Aparte das variáveis definidas no ficheiro, nesta rotina o programa automaticament
e define outras variáveis, nomeadamente a variável $count (contagem de casos), $pct
(percentagem de casos), $case (número de ordem dos casos). Se a variável é precedida p
elo ícon , trata-se de uma variável categórica; se é , trata-se de uma
4
precedida pelo ícon , é uma variável numérica escalar do ficheiro; se o ícon é variável escal
r definida pelo programa, e não constante no ficheiro.
ESACB
67
SPSS
4 - Gráficos
Para definir os títulos, seleccionar o separador Titles:
O gráfico resultante tem o seguinte aspecto:
ESACB
68
SPSS
4 - Gráficos
Se se pretende visualizar a distribuição, dentro de cada um dos sexos, pela variável f
uma, deve especificar-se esta divisão por categorias, no separador Assign Variable
s da janela Create Bar Chart, incluindo a variável para definir as categorias no c
ampo Legend Variables – Color; o que se está a fazeer, é instruir o programa para usar
cores diferentes para cada uma das categorias da variável fuma:
O gráfico resultante é o seguinte:
ESACB
69
SPSS
4 - Gráficos
4.3.2 - GRÁFICO DE DISPERSÃO Vamos ilustrar com a criação do gráfico que relaciona o ritmo
cardíaco antes de exercício (ritmoa) com o ritmo cardíaco após exercício (ritmod). Para t
al: Graphs Interactive Scatterplot ... Na janela de diálogo seguinte, definir as v
ariáveis para os eixos dos xx e dos yy; para identificar os casos por sexo, selecc
ionar a variável sexo para o campo Legend Variable – Style (os casos de cada um dos
sexos são identificados com uma marca distinta; se se incluir a variável em Color, p
ara cada um dos sexos é usada uma cor distinta):
ESACB
70
SPSS
4 - Gráficos
Para definir os títulos, seleccionar o separador Titles. O gráfico tem o seguinte as
pecto:
ESACB
71
SPSS
4 - Gráficos
O gráfico de dispersão interactivo tem a particularidade de poder ajustar uma equação de
regressão linear aos pontos, na totalidade, sem diferenciação por categorias, ou então
para os pontos de cada uma das categorias definidas por uma variável categórica. Par
a tal, na janela de diálogo Create Scatterplot, após identificar as variáveis x e y e
a variável categórica (se se pretender uma equação para cada categoria), seleccionar o s
eparador Fit:
ESACB
72
SPSS
4 - Gráficos
No campo Method, seleccionar a opção Regression; no campo Fit lines for, seleccionar
a se se pretende uma equação para cada um dos casos da variável sexo (a opção opção Total, q
e pode ser seleccionada isolada ou em conjunto com a opção Subgroups, destina-se a a
justar uma equação a toda a amostra). O resultado é o seguinte:
ESACB
73
SPSS
4 - Gráficos
Para cada uma das sub-amostras definidas pela variável sexo, foi ajustada a equação de
regressão linear, cujas equações, e o respectivo coeficiente de determinação R2, são aprese
ntadas na figura. Uma outra possibilidade é apresentar os gráficos por categorias is
olados. Para tal, na janela Create Scatterplot, a variável categórica é seleccionada p
ara o campo Panel Variables (e não para o campo Legend Variables):
ESACB
74
SPSS
4 - Gráficos
Para ajustar, em cada um dos gráficos, a respectiva equação de regressão, seleccionar no
separador Fit a opção (já que o ajustamento da equação é feito para cada um dos gráficos isol
damente). O resultado é o seguinte:
4.4 - EDIÇÃO DE GRÁFICOS INTERACTIVOS
Para editar um gráfico criado com a rotina Interactive, seleccionar o gráfico a edit
ar e fazer um dos seguintes procedimentos: i) Edit SPSS Interactive Graphic Obje
ct ii) Click no botão direito do rato; no menu seguinte:
seleccionar SPSS Interactive Graphic Object iii) Duplo click com o botão esquerdo
do rato sobre o gráfico
O gráfico é editado na janela Viewer do SPSS, tomando o seguinte aspecto:
ESACB
75
SPSS
4 - Gráficos
A área do gráfico em edição, assinalada na margem esquerda por uma seta, está no interior
de uma bordadura tracejada. Não é permitido efectuar modificações em qualquer zona fora
desta bordadura. Os ícons na borda do gráfico são botões de atalho para as tarefas de ed
ição. Para editar um elemento do gráfico, deve seleccionar-se previamente, fazendo cli
ck sobre esse elemento. Seguidamente, utiliza-se o botão pretendido: Espessura de
linhas; Estilo de linhas (contínuas, tracejadas); Tamanho de marcas ou pontos; Est
ilo (forma) de marcas ou pontos; Padrão de preenchimento de áreas; Estilo e cor das
linhas de bordadura de áreas; Cor de preenchimento de áreas; Ferramenta para criar/e
ditar uma caixa de texto; Ponteiro do rato para seleccção de elementos do gráfico; Abr
e a seguinte caixa de diálogo de selecção de variáveis, onde se podem mudar as variáveis a
representar no gráfico:
ESACB
76
SPSS
4 - Gráficos
Permite inserir elementos no gráfico (os elementos que se podem inserir dependem d
o tipo de gráfico, e natureza das variáveis em uso):
Botão que permite desfazer a última modificação efectuada no gráfico; Selecciona a orientação
horizontal ou vertical do gráfico; Dispõe automaticamente na área os elementos do gráfic
o; Definição da fonte e tamanho do texto, bold ou negrito, itálico (só está activo se prev
iamente se tiver seleccionado um elemento de texto do gráfico). Além destes botões, qu
e permitem efectuar a maior parte das modificações que o utilizador normal pretende
efectuar no gráfico, os menus Edit, View, Format possibilitam executar
ESACB
77
SPSS
4 - Gráficos
essas mesmas alterações através de menus, e outras modificações que não dispõem de botão de a
ho. No final, para terminar a sessão de edição do gráfico, basta fazer click sobre uma áre
a do ecran não pertencente à janela do gráfico.
ESACB
78
SPSS
5 - Testes T
5-
TESTES T
As metodologias estatísticas que envolvem testes de hipóteses acerca de médias de hipóte
se designam-se genericamente por testes t. O SPSS dispõe de três tipos de testes t: •
Teste t para a média de uma amostra: compara a média de uma amostra com a média hipotéti
ca conhecida de uma população. São apresentados os parâmetros estatísticos da amostra em a
nálise; igualmente é estabelecido um intervalo de confiança para ( x − µ ) . O teste de hi
pótese subjacente é: H0 :x = µ ⇔ H0 : x − µ = 0 e a estatística de testes é t = x−µ σ
•
Teste t para duas amostras independentes: Compara as médias de uma mesma variável ou
característica observada sobre duas amostras independentes de indivíduos, com a con
dição de que os indivíduos sejam aleatoriamente atribuídos aos dois conjuntos em comparação
(por exemplo, produção obtida sob um tratamento versus produção obtida sob outro tratame
nto diferente, ou de um modo genérico, controlo versus tratamento). São apresentados
os parâmetros estatísticos das amostras em análise; é efectuado o teste de LEVENE para
a homogeneidade das variâncias das duas amostras; são apresentadas as estatísticas de
teste para as situações de variâncias homogéneas e não homogéneas; é estabelecido um interval
de confiança para ( x1 − x 2 ). O teste de hipótese subjacente é: H 0 : x1 = x 2 ⇔ H 0 :
x1 − x 2 = 0 e a estatística de testes é t = H 1 : x1 − x 2 ≠ 0 x1 − x 2 1 1 s2 × N − N
x 2
2 2 O teste de Levene para decidir H 0 : s12 = s 2 H 1 : s12 ≠ s 2 consiste numa a
nálise de variância aos valores absolutos das diferenças entre os valores observados e
a média de cada uma das amostras.
ESACB
79
SPSS
5 - Testes T
•
Teste t para duas amostras emparelhadas: Compara as médias de duas variáveis ou cara
cterísticas para uma mesma amostra de indivíduos (do género peso antes versus peso dep
ois de um determinado tratamento). São apresentados os parâmetros estatísticos para as
duas amostras em análise; é calculada a correlação entre as duas amostras; São apresentad
os os parâmetros estatísticos para as diferenças entre as duas amostras emparelhadas; é
estabelecido um intervalo de confiança para ( x1 − x 2 ). O teste de hipótese subjacen
te é: H 0 : x1 = x 2 ⇔ H 0 : x1 − x 2 = 0 e a estatística de testes é t = H 1 : x1 − x 2 ≠ 0
1 − x 2 1 1 − s2 × N N2 1 H 1 : x1 ≠ x 2
A fim de ilustrar a realização destes testes vamos usar o ficheiro PULSO.SAV que foi
criado por importação de um ficheiro dBase. Em anexo é fornecida uma impressão do fiche
iro. Os dados consistem em 40 casos de pacientes (seleccionados aleatoriamente e
ntre os alunos de uma universidade), homens e mulheres, alguns dos quais fumam e
outros não fumam. Para cada um dos indivíduos foi medido o ritmo cardíaco antes (ritm
oa) e após uma corrida de 1500 m (ritmod). Pretende-se, entre outros objectivos, v
erificar se há diferenças entre os ritmos cardíacos antes e após o exercício físico; se há di
erenças de ritmo cardíaco entre homens e mulheres, entre fumadores e não fumadores. Pr
etende-se igualmente saber qual o valor indicativo do ritmo cardíaco médio da população
dessa universidade. Antes de prosseguir para os testes t é aconselhado fazer uma a
nálise exploratória dos dados, tal como foi ilustrado no capítulo 3. A seguir apresent
am-se dois estratos desta análise, nomeadamente o diagrama de extremos-e-quartis e
os valores extremos:
ESACB
80
SPSS
5 - Testes T
300
6
200
100
0
N= 40
RITMOD
Extreme Values Case Value Number 1 6 96 2 4 96 3 15 92 4 10 90 5 38 90 1 1 62 2
36 62 3 3 64 4 13 66 a 5 39 1 6 265 2 9 160 3 17 158 4 26 158 5 19 156 1 16 112
2 27 116 3 37 116 4 7 120 5 28 120 of cases with the value 66 are shown in the t
able of lower
RITMOA Highest
Lowest
RITMOD Highest
Lowest
a Only a partial list extremes.
ESACB
81
SPSS
5 - Testes T
Por esta análise pode concluir-se que o caso n 6 constitui uma observação “outlier” no refe
rente à observação ritmod: provavelmente, o observador queria registar o valor 165 e,
por erro, introduziu 265, valor virtualmente impossível para o ritmo cardíaco de qua
lquer humano, mesmo que sujeito a condições in extremis. Contudo, como na realidade
o estatístico não sabe ou que se passou, a melhor estratégia será ignorar este caso (ind
ivíduo n 6) sempre que tiver de utilizar a variável ritmod.
5.1 - TESTE T PARA A MÉDIA DE UMA AMOSTRA
Pretende-se verificar se se pode considerar que a média da variável ritmoa da população
universitária em análise pode ser de 80 pulsações por minuto. Isto é, trata-se de dar resp
osta ao seguinte teste de hipóteses: H0 :x = µ ⇔ H0 : x − µ = 0 Para tal, fazer Statistics
Compare Means H1 : x − µ ≠ 0 One-Sample T Test... H1 : x ≠ µ
Aparece a seguinte caixa de diálogo, onde se selecciona a variável a analisar (ritmo
a), e o valor hipotético da média da população :
ESACB
82
SPSS
5 - Testes T
De seguida, seleccionar
a fim de difinir o nível de confiança para ( x − µ ) :
Por defeito, está definido (1-α)=0.95; se o desejar, o utilizador poderá alterar este
nível de confiança. Fazer e depois OK:
Para um nível de significância de 5%, deve rejeitar-se a hipótese nula de que o ritmo
médio cardíaco da população, com base nesta amostra, possa ser de 80 (pois o p-value ou
significance level da amostra é de 0.011<α=0.05, ou porque |tcalc|=2.686 > t(0.05,39
)=2.021). O intervalo de confiança para ( x − µ ) ∈ [− 7.01, − 1.00]
5.2 - TESTE T PARA DUAS AMOSTRAS INDEPENDENTES
Pretende-se verificar se, em relação ao ritmo cardíaco antes do exercício físico, há ou não d
ferenças entre os fumadores e os não fumadores, isto é: H 0: x ritmoaFumadores = x rit
moanão fumadres H 1 : x ritmoaFumadores ≠ x ritmoanão fumadres
ESACB
83
SPSS
5 - Testes T
Para tal, fazer Statistics Test...:
Compare Means
Independent
Samples
T
Na caixa de diálogo seguinte, seleccionar a variável resposta a analisar (ritmoa); a
s duas amostras a comparar são dois sub-grupos desta variável, definidos pela variável
fuma; para tal, seleccionar esta variável para o campo :
Para definir os sub-grupos ou amostras, seleccionar ; usar os valores codificado
s da variável fuma (1=Fuma; 2=Não Fuma) para definir os grupos:
ESACB
84
SPSS
5 - Testes T
No final, fazer . De seguida, seleccionar confiança para a diferença entre médias:
a fim de difinir o nível de
Fazer
e depois OK:
Group Statistics FUMA Fuma Não Fuma N 16 24 Mean 76.75 75.42 Std. Deviation 12.00
7.72 Std. Error Mean 3.00 1.58
RITMOA
Independent Samples Test Levene's Test for Equality of Variances
t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upp
er -4.96 -5.67 7.63 8.34
F RITMOA Equal variances assumed Equal variances not assumed 8.665
Sig. .006
t .429 .394
df 38 23.274
Sig. (2-tailed) .671 .698
Mean Difference 1.33 1.33
Std. Error Difference 3.11 3.39
No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amo
stras. No segundo quadro apresentam-se os testes de homogeneidade de variâncias (L
evene) e o teste t-Student de comparação das médias das duas amostras. Começa por analis
ar-se a homogeneidade das variâncias, isto é, verificar se se devem considerar homogén
eas ou diferentea as variâncias dos dois sub-grupos:
2 2 H 0 : s ritmoaFuma = s ritmoaNão Fuma 2 2 H 1 : s ritmoaFuma ≠ s ritmoaNão Fuma
concluindo-se que se devem considerar as variâncias não homogéneas, pois p-value deste
teste (0.006) é inferior a um valor α=5% ou mesmo α=1% (isto é, podemos fazer esta deci
são com 99% de probabilidade de acertar). Também se pode decidir este teste, compara
ndo o valor Fcalc=8.665 com um valor crítico da distribuição F de Snedecor (por exempl
o, para α=5%, F(0.05; 1, 38)=4.105).
5
O teste de Levene é uma anova. Os graus de liberdade totais são N-1=39; pretendem-se
comparar duas amostras, de modo que fica 1 grau de liberdade para as amostras,
restando 38 graus de liberdade para o erro experimental.
ESACB
85
SPSS
5 - Testes T
De seguida, faz-se a decisão do teste t-Student, para a situação de variâncias não homogénea
s, isto é: H 0: x ritmoaFumadores = x ritmoanão fumadres H 1 : x ritmoaFumadores ≠ x r
itmoanão fumadres
O valor da estatística de teste é t=0.394 < t(0.05; 23) = 2.069, ou p-value = 0.698
> α=5%, concluindo-se assim que os ritmos cardíacos em repouso, destas duas amostras
, são estatisticamente iguais, para um nível de significância de 5%. O intervalo de co
nfiança a 95% para a diferença entre as médias é [-5.67 , 8.34], podendo teoricamente a
diferença ser nula.
5.3 - TESTE T PARA DUAS AMOSTRAS EMPARELHADAS
Pretende-se verificar se existem ou não diferenças significativas entre os ritmos ca
rdíacos antes e depois de realização do exercício físico, isto é: H 0 : x ritmoa = x rit mod
⇔ H 0 : x ritmoa − x rit mod = 0 H 1 :x ritmoa − x rit mod ≠ 0 H 1 :x ritmoa ≠ x rit mod
Como anteriormente se fez notar, este teste deverá ser efectuando, sem incluir o i
ndivíduo n 6, por se suspeitar que o respectivo registo do ritmo cardíaco após exercício
está errado. Para tal, fazer: Data Select Cases...
ESACB
86
SPSS
5 - Testes T
Pretende-se excluir o caso n 6 da análise, isto é, incluir na análise todos os casos co
m excepção do caso n 6. Para tal, na caixa de diálogo seleccionar definir que se selecc
ionam para análise todos os cados diferenntes do caso n 6: ,e
A indicação caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SP
SS criou automaticamente uma variável designada filter_$, em que indica quais os c
asos seleccionados e os não incluídos. Repare-se que a linha 6 está traçada, indicando q
ue este caso está excluído de futuras análises:
Note-se que este procedimento de seleccionar casos não é exclusivo nem obrigatório do
procedimento da comparação de médias de duas amostras emparelhadas. É um procedimento ge
ral a efectuar previamente a qualquer análise em que haja necessidade de seleccion
ar ou excluir casos. De seguida, passa-se então à comparação das médias das duas amostras
emparelhadas. Tal como o nome indica, deve haver pares de observações, de modo que a
mbas as amostras têm o mesmo número de observações. Para tal, fazer Statistics Compare M
eans Paired Samples T Test...:
ESACB
87
SPSS
5 - Testes T
Na caixa de diálogo seguinte, seleccionar as duas variáveis emparelhadas cujas médias
se pretendem comparar:
O botão serve para definir o intervalo de confiança para a diferença entre as duas média
s (por defeito, (1-α)=0.95). Os resultados são os seguintes:
Paired Samples Statistics Mean 75.44 137.31 N 39 39 Std. Deviation 9.08 12.56 St
d. Error Mean 1.45 2.01
Pair 1
RITMOA RITMOD
ESACB
88
SPSS
5 - Testes T
Paired Samples Correlations N Pair 1 RITMOA & RITMOD 39 Correlation .544 Sig. .0
00
Paired Samples Test
Paired Differences 95% Confidence Interval of the Difference Lower Upper -65.36
-58.38
Pair 1
RITMOA - RITMOD
Mean -61.87
Std. Deviation 10.78
Std. Error Mean 1.73
t -35.858
df 38
Sig. (2-tailed) .000
No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amo
stras. Repare-se que foram só levados em conta 39 observações em cada amostra. O quadr
o seguinte apresenta o valor do coeficiente de correlação de Pearson entre as duas v
ariáveis (r=0.544). No último quadro é apresentado o valor de x ritmoa − x rit mod = −61.8
7 , o intervalo de confiança para a diferença entre médias ([-65.36 , -58.38]) e o val
or da estatística de teste t-Student t= -35.858, bem como os graus de liberdade do
teste e o valor p-value ou verdaddeiro nível de significância (0.000). Como |tcalc|
= 35.858 > t(0.05,38)=2.025 (ou pvalue=0.000 < α=5%) conclui-se que as médias são sig
nificativamente diferentes.
ESACB
89
SPSS
6 - Anova
6-
ANÁLISE DE VARIÂNCIA
6.1 - ENSAIOS UNI-FACTORIAIS
A análise de variância é uma metodologia estatística cujo objectivo é decidir se existem o
u não diferenças significativas entre as médias de várias amostras de uma variável numérica,
definidas por diferentes tratamentos ou níveis de influência de um factor. Esta met
odologia é uma extensão do teste t-Student para duas amostras independentes. Isto é: H
0: x1 = x 2 = x3 = ... = xT = µ H 1 : Existem diferenças significativas entre as médi
as De um modo muito resumido, a metodologia anova calcula a variabilidade total
existente na característica ou variável em análise, e particiona esta variabilidade co
mo sendo devida fundamentalmente a duas causas: uma causa determinista, que é o fa
cto de as amostras serem sujeitas a tratamentos distintos (variabilidade entre t
ratamentos); causas aleatórias ou erro experimental, que engloba todas as restante
s fontes de variabilidade, com excepção dos diferentes tratamentos (variabilidade re
sidual ou erro experimental). Estas variabilidades são estimativas de variância (ent
re tratamentos, e residual, respectivamente). Isto é: Variabilidade Total = Variab
ilidade entre Tratamentos + Erro Experimental A estatística de teste é a estatística F
, que é uma razão entre variâncias, que sob o pressuposto de que as observações têm distribu
ição normal, segue uma distribuição F de Snedecor: F= Variância entre Tratamentos ~ F(α ; gl
num ; glden ) Variância Re sidual
Se a estatística F é demasiado grande, então é porque a variância entre tratamentos é prepon
derante em relação à variância residual, isto é, os diferentes tratamentos a que a amostra
foi sujeita conduz a resultados estatisticamente diferentes. Na sequência de uma
análise de variância em que se conclua que existem diferenças significativas entre as
médias dos diversos tratamentos em análise, faz-se um teste suplementar a fim de ide
ntificar quais são as médias estatisticamente diferentes. Os mais usuais são os testes
LSD (Least Significant Difference, Diferença Mínima Significativa), HSD-Tuckey (Hon
nestly Significant Difference), Scheffé, Duncan. Vamos ilustrar a metodologia de a
nálise de variância, usando os valores apresentados no quadro seguinte, referentes às
produções obtidas num ensaio em que se pretende
ESACB
90
SPSS
6 - Anova
estudar o efeito da densidade de sementeira, na cultura de arroz (variedade IR8)
. Definiram-se 6 densidades de sementeira (kg/ha de semente). Para cada densidad
e de fizeram-se 4 repetições. Todos os restantes factores de produção foram mantidos con
stantes no ensaio (adaptado de GOMEZ & GOMEZ, 1984). Densidade 25 50 75 100 125
150 5113 5346 5272 5164 4804 4254 5398 5952 5713 4831 4848 4542 Repetições 5307 4719
5483 4986 4432 4919 4678 5264 5049 4410 4748 4098
A anova simples (ensaios uni-factoriais) pode ser executada no SPSS com dois pro
cedimentos:
6.1.1 - PROCEDIMENTO ONE-WAY ANOVA Este é o procedimento que conduz à elaboração típica da
análise de variância, e no qual é possível definir a obtenção de mais resultados no âmbito d
sta metodologia estatística. A partir do menu principal do SPSS, seleccionar: Stat
istics Compare Means... One-Way ANOVA...
Seleccionar para o campo o nome da variável que contém os valores da variável que contém
os resultados a analisar (no exemplo, producao); no campo selecciona-se a variáve
l que identifica os diferentes tratamentos (densidad). Seleccionar a opção para defi
nir qual ou quais os testes de comparação de médias a efectuar na sequência da anova. Po
de seleccionar-se apenas um ou mais testes.
ESACB 91
SPSS
6 - Anova
No exemplo, pediram-se os testes LSD e Tuckey. O nível de significância é, por defeito
, α=5%, podendo este valor ser definido pelo utilizador:
Fazer
, voltando à janela One-Way ANOVA, onde se pode seleccionar o botão
a fim de definir cálculos adicionais; no caso, pediram-se o cálculo dos parâmetros est
atísticos, a realização do teste de Levene para verificar se as variâncias dos diferente
s tratamentos são homogéneas e representar graficamente as médias dos diferentes trata
mentos:
Os resultados são os seguintes:
ESACB
92
SPSS
6 - Anova
Oneway
Descriptives Produção (kg/ha) 95% Confidence Interval for Mean Lower Upper Bound Bou
nd 4614.4755 5633.5245 4517.0176 6123.4824 4926.6402 5831.8598 4335.3920 5360.10
80 4408.0611 5007.9389 3879.0097 5027.4903 4779.5628 5164.6038
N 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Total 4 4 4 4 4 4 24
Mean 5124.0000 5320.2500 5379.2500 4847.7500 4708.0000 4453.2500 4972.0833
Std. Deviation 320.2093 504.7893 284.4414 321.9900 188.4958 360.8798 455.9256
Std. Error 160.1047 252.3947 142.2207 160.9950 94.2479 180.4399 93.0654
Minimum 4678.00 4719.00 5049.00 4410.00 4432.00 4098.00 4098.00
Maximum 5398.00 5952.00 5713.00 5164.00 4848.00 4919.00 5952.00
Test of Homogeneity of Variances Produção (kg/ha) Levene Statistic .418 df1 5 df2 18
Sig. .830 ANOVA Produção (kg/ha) Sum of Squares 2657880.8 2123087.0 4780967.8 df 5
18 23 Mean Square 531576.167 117949.278 F 4.507 Sig. .008
Between Groups Within Groups Total
ESACB
93
SPSS
6 - Anova
Post Hoc Tests
Multiple Comparisons Dependent Variable: Produção (kg/ha)
Tukey HSD
(I) Densidade de sementeira 25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
LSD
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
(J) Densidade de sementeira 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 k
g/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/h
a 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75
kg/ha 100 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 50 kg/h
a 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 1
50 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg
/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 150 kg/ha 25 kg/ha
50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha
Mean Difference (I-J) Std. Error -196.2500 242.8469 -255.2500 242.8469 276.2500
242.8469 416.0000 242.8469 670.7500 242.8469 196.2500 242.8469 -59.0000 242.8469
472.5000 242.8469 612.2500 242.8469 867.0000* 242.8469 255.2500 242.8469 59.000
0 242.8469 531.5000 242.8469 671.2500 242.8469 926.0000* 242.8469 -276.2500 242.
8469 -472.5000 242.8469 -531.5000 242.8469 139.7500 242.8469 394.5000 242.8469 -
416.0000 242.8469 -612.2500 242.8469 -671.2500 242.8469 -139.7500 242.8469 254.7
500 242.8469 -670.7500 242.8469 -867.0000* 242.8469 -926.0000* 242.8469 -394.500
0 242.8469 -254.7500 242.8469 -196.2500 242.8469 -255.2500 242.8469 276.2500 242
.8469 416.0000 242.8469 670.7500* 242.8469 196.2500 242.8469 -59.0000 242.8469 4
72.5000 242.8469 612.2500* 242.8469 867.0000* 242.8469 255.2500 242.8469 59.0000
242.8469 531.5000* 242.8469 671.2500* 242.8469 926.0000* 242.8469 -276.2500 242
.8469 -472.5000 242.8469 -531.5000* 242.8469 139.7500 242.8469 394.5000 242.8469
-416.0000 242.8469 -612.2500* 242.8469 -671.2500* 242.8469 -139.7500 242.8469 2
54.7500 242.8469 -670.7500* 242.8469 -867.0000* 242.8469 -926.0000* 242.8469 -39
4.5000 242.8469 -254.7500 242.8469
Sig. .962 .894 .859 .541 .111 .962 1.000 .408 .170 .023 .894 1.000 .290 .110 .01
4 .859 .408 .290 .991 .594 .541 .170 .110 .991 .895 .111 .023 .014 .594 .895 .43
0 .307 .270 .104 .013 .430 .811 .067 .021 .002 .307 .811 .042 .013 .001 .270 .06
7 .042 .572 .122 .104 .021 .013 .572 .308 .013 .002 .001 .122 .308
95% Confidence Interval Lower Upper Bound Bound -968.0352 575.5352 -1027.0352 51
6.5352 -495.5352 1048.0352 -355.7852 1187.7852 -101.0352 1442.5352 -575.5352 968
.0352 -830.7852 712.7852 -299.2852 1244.2852 -159.5352 1384.0352 95.2148 1638.78
52 -516.5352 1027.0352 -712.7852 830.7852 -240.2852 1303.2852 -100.5352 1443.035
2 154.2148 1697.7852 -1048.0352 495.5352 -1244.2852 299.2852 -1303.2852 240.2852
-632.0352 911.5352 -377.2852 1166.2852 -1187.7852 355.7852 -1384.0352 159.5352
-1443.0352 100.5352 -911.5352 632.0352 -517.0352 1026.5352 -1442.5352 101.0352 -
1638.7852 -95.2148 -1697.7852 -154.2148 -1166.2852 377.2852 -1026.5352 517.0352
-706.4525 313.9525 -765.4525 254.9525 -233.9525 786.4525 -94.2025 926.2025 160.5
475 1180.9525 -313.9525 706.4525 -569.2025 451.2025 -37.7025 982.7025 102.0475 1
122.4525 356.7975 1377.2025 -254.9525 765.4525 -451.2025 569.2025 21.2975 1041.7
025 161.0475 1181.4525 415.7975 1436.2025 -786.4525 233.9525 -982.7025 37.7025 -
1041.7025 -21.2975 -370.4525 649.9525 -115.7025 904.7025 -926.2025 94.2025 -1122
.4525 -102.0475 -1181.4525 -161.0475 -649.9525 370.4525 -255.4525 764.9525 -1180
.9525 -160.5475 -1377.2025 -356.7975 -1436.2025 -415.7975 -904.7025 115.7025 -76
4.9525 255.4525
*. The mean difference is significant at the .05 level.
ESACB
94
SPSS
6 - Anova
Homogeneous Subsets
Produção (kg/ha) Densidade de sementeira 150 kg/ha 125 kg/ha 100 kg/ha 25 kg/ha 50 k
g/ha 75 kg/ha Sig. Subset for alpha = .05 1 2 4453.2500 4708.0000 4708.0000 4847
.7500 4847.7500 5124.0000 5124.0000 5320.2500 5379.2500 .111 .110
N 4 4 4 4 4 4
Tukey HSDa
Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sam
ple Size = 4.000.
Means Plots
5600 5400
5200
Mean of Produção (kg/ha)
5000
4800
4600
4400 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha
Densidade de sementeira
O primeiro quadro de resultados contém a médias, desvio padrão e erro padrão da média e in
tervalo de confiança da média, mínimo e máximo para cada tratamento. De seguida é apresent
ado o teste de homogeneidade de variâncias de Levene:
2 2 2 H 0 : s12 = s 2 = s 3 = s 4
H 1 : As variâncias não são homogéneas
Como F=0.418 < F(0.05;5;18) =2.77, ou p-value=0.83 > α=0.05, conclui-se que as var
iâncias são homogéneas, isto é, dentro de cada um dos tratamentos a variabilidade é apenas
devida a causas aleatórias. O quadro que se segue é a tabela da análise de variância, a
presentando a variabilidade particionada entre os tratamentos (betwen groups) e
residual (within groups). Como F=4.507 > F(0.05;5;18) =2.77, ou p-value=0.008 < α=
0.05, conclui-se que existem diferenças significativas entre as produções médias das 6 d
ensidades de sementeira, com um nível de significância de 5%. Contudo, este resultad
o não nos permite concluir qual ou quais densidades conduzem a produções médias signific
ativamente diferentes de outras. Para concluir tal, há que proceder à comparação da média
de cada um dos tratamentos com todas as restantes. esta comparação é feita em termos d
o valor absoluto das diferenças entre médias: se esta
ESACB
95
SPSS
6 - Anova
diferença entre duas médias é pequena, então as médias não diferem; se a diferença é grande,
as duas médias são estatisticamente distintas. Este é o princípio de qualquer teste de
comparações múltiplas. Contudo, há que fixar um critério que defina a fronteira entre o qu
e é uma diferença grande e uma diferença pequena. Este critério é estabelecido por cada um
dos testes (LSD, Scheffé, Tukey, etc), com base em expressões que relacionam a média
das somas dos quadrados residual (calculada na tabela anova) e com base em funções d
e distribuição de probabilidades. No quadro dos resultados dos testes de comparações múlti
plas são identificados com o símbolo * quais os tratamentos cujas médias diferem signi
ficativamente. Repare-se que ambos os testes acusam como conduzindo a produções médias
diferentes densidades de 50 kg/ha e 150 kg/ha (diferença de 867 kg) e 75 kg/ha e
150 kg/ha (diferença de 926 kg). Contudo apenas o teste LSD acusa existirem difere
nças entre as produções alcançadas com 25 e 150 kg/ha (diferença de 670.75 kg), 50 e 125 k
g/ha (diferença de 612.25 kg), 75 e 100 kg/ha (diferença de 531.5 kg). Isto é, o teste
LSD acusa como diferentes tratamentos cujas médias estão menos afastadas do que o t
este Tuckey, que dá, por assim dizer, maior margem de dúvida antes de imputar essas
diferenças aos efeitos dos tratamentos. De seguida aparece um quadro complementar
do teste Tukey em que agrupa os tratamentos em grupos homogéneos, sendo o critério d
e agrupamento o facto de não existirem diferenças significativas entre os médias dos t
ratamentos incluídos no mesmo grupo. O mesmo tratamento pode pertencer a mais do q
ue um grupo, desde que não difira dos restantes tratamentos desse grupo. Assim, as
densidades de sementeira de 150, 125, 100, 25 constituem um grupo de tratamento
s, cujas produções médias são as mais baixas; as densidades de 125, 100, 25, 50, 75 cons
tituem outro grupo, cujas produções são as mais altas. É claro que alguns dos tratamento
s densidades de 125, 100, 25) pertencem aos dois grupos6. Em termos absolutos, a
densidade de sementeira que conduz a maior produção é a densidade de 75 kg/ha; contud
o, a produção obtida com a densidade de 50 kg/ha não difere significativamente da ante
rior, e pode haver vantagens económicas em usar esta densidade. Contudo, estas são a
lgumas reflexões de índole técnica que competem ao analista desenvolver, não cabendo pro
priamente no âmbito deste manual. No final aparece um gráfico representado as médias d
os tratamentos, que pode ser útil explorar no sentido de compreender os resultados
, e deles tirar o proveito no âmbito da aplicabilidade da Estatística ao delineament
o de ensaios agrícolas.
6.1.2 - PROCEDIMENTO MEANS A partir do menu principal do SPSS, seleccionar:
6
Deixa-se ao cuidado do leitor a explicação agronómica destas conclusões.
ESACB
96
SPSS
6 - Anova
Statistics Compare Means... Means...
Seleccionar para o campo o nome da variável que contém os valores da variável a analis
ar (no exemplo, producao); no campo selecciona-se a variável que identifica os dif
erentes tratamentos (densidad). Seleccionar o botão a fim de pedir a elaboração da tab
ela da análise de variância. Por defeito, são calculados os parâmetros média e desvio padrão
; o utilizador pode seleccionar outras estatísticas a calcular:
ESACB
97
SPSS
6 - Anova
Means
Case Processing Summary Cases Excluded N Percent 0 .0%
Included N Percent Produção (kg/ha) * Densidade de sementeira 24 100.0%
Total N 24 Percent 100.0%
Report Produção (kg/ha) Densidade de sementeira 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha
125 kg/ha 150 kg/ha Total Mean 5124.0000 5320.2500 5379.2500 4847.7500 4708.000
0 4453.2500 4972.0833 N 4 4 4 4 4 4 24
ANOVA Table Sum of Squares 2657880.8 2123087.0 4780967.8 Mean Square 5 531576.16
7 18 117949.278 23
Std. Deviation 320.2093 504.7893 284.4414 321.9900 188.4958 360.8798 455.9256
df
Produção (kg/ha) * Densidade de sementeira
Between (Combined) G Within Groups Total
F 4.507
Sig. .008
Measures of Association Eta Squared .556
Eta Produção (kg/ha) * Densidade de sementeira .746
A tabela da anova é idêntica à obtida no procedimento anterior. Contudo, este procedim
ento não permite a obtenção dos testes subsequentes que foram obtidos previamente. A e
statística Eta-Squared é a proporção de variância da variável dependente que é SS explicada p
las diferenças entre os tratamentos; é dado pela expressão H (isto é, SS T razão entre Som
a dos Quadrados entre tratamentos (SSH) e a Soma dos Quadrados total (SST). A de
signação de Eta adoptada pelo SPSS no contexto da anova destina-se a não fazer confusão
com o coeficiente de determinação, R2, usado no contexto da regressão linear, e que po
de ser obtido a partir da tabela da anova da regressão pela expressão anterior.
ESACB
98
SPSS
6 - Anova
6.2 - ENSAIOS MULTI-FACTORIAIS
Os organismos biológicos estão simultaneamente expostos a muitos factores de crescim
ento. A resposta de um organismo a um único factor de crescimento pode variar com
o nível de outros factores; assim, os delineamentos uni-factoriais são criticados pe
lo seu pequeno leque de aplicabilidade. Na realidade, os resultados dos delineam
entos uni-factoriais são apenas válidos para o caso particular (e extremamente difícei
s de conseguir) de todos os restantes factores serem mantidos constantes. Neste
sentido, quando se espera que a resposta a um factor de interesse varie sob dife
rentes níveis de outros factores, devem evitar-se os delineamentos uni-factoriais,
e considerar um delineamento multi-factorial que permita estudar em simultâneo do
is ou mais factores. Em ensaios factoriais, há a considerar os efeitos de cada um
dos níveis de um dos factores, mantendo os níveis dos outros factores constantes (ef
eitos simples), os efeitos de cada um dos factores, abstraindo da presença dos out
ros factores (efeitos principais) e interacção entre os níveis dos diversos factores (
interacção entre factores). Diz-se que existe interacção entre dois factores se a respos
ta a um dos factores varia consoante os níveis do outro factor. A fim de ilustrar
o procedimento de cálculo da análise de variância multi-factorial, vamos usar o fichei
ro arroz.sav, em que se pretende verificar a influência de três variedades (IR8, IR5
, CA-63) e 5 níveis de adubação azotada (0, 60, 90, 120, 150 kg/ha) na produção de arroz.
Statistics General Linear Model GLM – General Factorial ... Na caixa de diálogo segu
inte, seleccionar a variável dependente a analisar (producao) e os factores de pro
dução cuja influência se pretende analisar (variedad e adubacao):
ESACB
99
SPSS
6 - Anova
De seguida, seleccionar a opção
a fim de definir o modelo de anova a
calcular. Por defeito, está seleccionada a opção , que especifica que a tabela da anov
a apresentará a os efeitos principais de cada factor, bem como as interacções o utiliz
ador pode definir entre factores. É a situação mais usual. Optando por que a anova apr
esente apenas os efeitos principais, ou apenas algumas das interacções a definir.
Por defeito, está definido o método de cálculo da soma de quadrados (tipo III); para d
elineamentos em que não haja “missing-values” deve definir-se esta metodologia de cálcul
o.
ESACB
100
SPSS
6 - Anova
A opção deve ser seleccionada (por defeito, está activada). Caso se assuma que os dado
s passam pela origem dos eixos (isto é, caso a ausência dos factores em análise conduz
am a valor zero da variável dependente), pode omitir-se esta opção. Da sua inclusão no m
odelo resulta a apresentação de mais uma linha inusitada na tabela da anova, que tra
duz a variabilidade associada à variável dependente para os níveis zero dos factores.
As restantes linhas da tabela são as usuais. Fazer para regressar à janela GLM – Gener
al factorial, onde se deve
para representar graficamente as médias de cada um dos seleccionar factores e das
interacções de factores:
Para seleccionar o gráfico das médias de um factor, definir esse factor em ; fazer p
ara adicionar esse gráfico; para definir o gráfico das interacções, seleccionar um facto
r para Horizontal Axis e outro factor para Separate Lines. Fazer Optar por para
continuar. para definir os testes de comparações múltiplas:
ESACB
101
SPSS
6 - Anova
Fazer para continuar. Seleccionar para seleccionar o cálculo de parâmetros estatístico
s, teste de Levene de homogeneidade de variâncias e os intervalos de confiança para
as médias:
Os resultados deste procedimento são os seguintes:
Univariate Analysis of Variance
ESACB 102
SPSS
6 - Anova
Between-Subjects Factors Value Label IR8 IR5 C4-63 0 kg/ha 60 kg/ha 90 kg/ha 120
kg/ha 150 kg/ha
N 20 20 20 12 12 12 12 12
Variedade
Adubação
1 2 3 0 1 2 3 4
Descriptive Statistics Dependent Variable: Produção Variedade IR8 Adubação 0 kg/ha 60 kg
/ha 90 kg/ha 120 kg/ha 150 kg/ha Total 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 k
g/ha Total 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Total 0 kg/ha 60 kg/ha
90 kg/ha 120 kg/ha 150 kg/ha Total Mean 3124.0000 4723.5000 4459.5000 5717.0000
5823.0000 4769.4000 3548.0000 4806.0000 5436.0000 5739.5000 5680.5000 5042.0000
3778.0000 4753.5000 5320.0000 5552.5000 5886.5000 5058.1000 3483.3333 4761.0000
5071.8333 5669.6667 5796.6667 4956.5000 Std. Deviation 532.7939 171.9874 400.234
5 334.1237 208.3235 1054.8145 540.9054 443.6124 757.8408 494.9542 217.5462 957.4
259 314.1507 414.2411 501.1640 573.7000 385.9374 855.9827 513.9808 331.3680 689.
7728 441.1381 271.0335 952.5245 N 4 4 4 4 4 20 4 4 4 4 4 20 4 4 4 4 4 20 12 12 1
2 12 12 60
IR5
C4-63
Total
a Levene's Test of Equality of Error Variances
Dependent Variable: Produção F 1.044 df1 14 df2 45 Sig. .430
Tests the null hypothesis that the error variance of the dependent variable is e
qual across groups. a. Design: Intercept+VARIEDAD+AZOTO+VARIEDAD * AZOTO
ESACB
103
SPSS
6 - Anova
Tests of Between-Subjects Effects Dependent Variable: Produção Type III Sum of Squar
es 44578256a 1.47E+09 1052784.4 41234745 2290726.3 8952613.0 1.53E+09 53530869 M
ean Square 3184161.1 1.47E+09 526392.200 10308686 286340.783 198946.956
Source Corrected Model Intercept VARIEDAD AZOTO VARIEDAD * AZOTO Error Total Cor
rected Total
df 14 1 2 4 8 45 60 59
F 16.005 7409.078 2.646 51.816 1.439
Sig. .000 .000 .082 .000 .207
a. R Squared = .833 (Adjusted R Squared = .781)
Estimated Marginal Means 1. Variedade
Estimates Dependent Variable: Produção 95% Confidence Interval Lower Upper Bound Bou
nd 4568.521 4970.279 4841.121 5242.879 4857.221 5258.979 Pairwise Comparisons De
pendent Variable: Produção 95% Confidence Interval a for Difference Lower Upper Boun
d Bound -556.686 11.486 -572.786 -4.614 -11.486 556.686 -300.186 267.986 4.614 5
72.786 -267.986 300.186
Variedade IR8 IR5 C4-63
Mean 4769.400 5042.000 5058.100
Std. Error 99.736 99.736 99.736
(I) Variedade IR8 IR5 C4-63
(J) Variedade IR5 C4-63 IR8 C4-63 IR8 IR5
Mean Difference (I-J) -272.600 -288.700* 272.600 -16.100 288.700* 16.100
Std. Error 141.049 141.049 141.049 141.049 141.049 141.049
Sig. .060 .047 .060 .910 .047 .910
a
Based on estimated marginal means *. The mean difference is significant at the .
05 level. a. Adjustment for multiple comparisons: Least Significant Difference (
equivalent to no adjustments).
ESACB
104
SPSS
6 - Anova
Univariate Tests Dependent Variable: Produção Sum of Squares 1052784.4 8952613.0 df
2 45 Mean Square 526392.200 198946.956 F 2.646 Sig. .082
Contrast Error
The F tests the effect of Variedade. This test is based on the linearly independ
ent pairwise comparisons among the estimated marginal means.
2. Adubação
Estimates Dependent Variable: Produção 95% Confidence Interval Lower Upper Bound Bou
nd 3223.999 3742.668 4501.666 5020.334 4812.499 5331.168 5410.332 5929.001 5537.
332 6056.001
Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha
Mean 3483.333 4761.000 5071.833 5669.667 5796.667
Std. Error 128.759 128.759 128.759 128.759 128.759
ESACB
105
SPSS
6 - Anova
Pairwise Comparisons Dependent Variable: Produção 95% Confidence Interval a for Diff
erence Lower Upper Bound Bound -1644.421 -910.913 -1955.254 -1221.746 -2553.087
-1819.579 -2680.087 -1946.579 910.913 1644.421 -677.587 55.921 -1275.421 -541.91
3 -1402.421 -668.913 1221.746 1955.254 -55.921 677.587 -964.587 -231.079 -1091.5
87 -358.079 1819.579 2553.087 541.913 1275.421 231.079 964.587 -493.754 239.754
1946.579 2680.087 668.913 1402.421 358.079 1091.587 -239.754 493.754
(I) Adubação 0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
(J) Adubação 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 90 kg/ha 120 kg/ha 150 kg
/ha 0 kg/ha 60 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 150 kg/ha 0 k
g/ha 60 kg/ha 90 kg/ha 120 kg/ha
Mean Difference (I-J) -1277.667* -1588.500* -2186.333* -2313.333* 1277.667* -310
.833 -908.667* -1035.667* 1588.500* 310.833 -597.833* -724.833* 2186.333* 908.66
7* 597.833* -127.000 2313.333* 1035.667* 724.833* 127.000
Std. Error 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.0
93 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.0
93 182.093
Sig. .000 .000 .000 .000 .000 .095 .000 .000 .000 .095 .002 .000 .000 .000 .002
.489 .000 .000 .000 .489
a
Based on estimated marginal means *. The mean difference is significant at the .
05 level. a. Adjustment for multiple comparisons: Least Significant Difference (
equivalent to no adjustments). Univariate Tests Dependent Variable: Produção Sum of
Squares 41234745 8952613.0 df 4 45 Mean Square 10308686 198946.956 F 51.816 Sig.
.000
Contrast Error
The F tests the effect of Adubação. This test is based on the linearly independent p
airwise comparisons among the estimated marginal means.
ESACB
106
SPSS
6 - Anova
3. Variedade * Adubação Dependent Variable: Produção 95% Confidence Interval Lower Upper
Bound Bound 2674.820 3573.180 4274.320 5172.680 4010.320 4908.680 5267.820 6166
.180 5373.820 6272.180 3098.820 3997.180 4356.820 5255.180 4986.820 5885.180 529
0.320 6188.680 5231.320 6129.680 3328.820 4227.180 4304.320 5202.680 4870.820 57
69.180 5103.320 6001.680 5437.320 6335.680
Variedade IR8
IR5
C4-63
Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120
kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha
Mean 3124.000 4723.500 4459.500 5717.000 5823.000 3548.000 4806.000 5436.000 573
9.500 5680.500 3778.000 4753.500 5320.000 5552.500 5886.500
Std. Error 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.0
17 223.017 223.017 223.017 223.017 223.017 223.017
Post Hoc Tests Variedade
Multiple Comparisons Dependent Variable: Produção Tukey HSD
(I) Variedade IR8 IR5 C4-63
(J) Variedade IR5 C4-63 IR8 C4-63 IR8 IR5
Mean Difference (I-J) -272.6000 -288.7000 272.6000 -16.1000 288.7000 16.1000
Std. Error 141.0486 141.0486 141.0486 141.0486 141.0486 141.0486
Sig. .141 .113 .141 .993 .113 .993
95% Confidence Interval Lower Upper Bound Bound -614.4488 69.2488 -630.5488 53.1
488 -69.2488 614.4488 -357.9488 325.7488 -53.1488 630.5488 -325.7488 357.9488
Based on observed means.
ESACB
107
SPSS
6 - Anova
Homogeneous Subsets
Produção Tukey HSD Variedade IR8 IR5 C4-63 Sig.
a,b
N 20 20 20
Subset 1 4769.4000 5042.0000 5058.1000 .113
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of
Squares The error term is Mean Square(Error) = 198946.956. a. Uses Harmonic Mean
Sample Size = 20.000. b. Alpha = .05.
Adubação
Multiple Comparisons Dependent Variable: Produção Tukey HSD
(I) Adubação 0 kg/ha
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
(J) Adubação 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 90 kg/ha 120 kg/ha 150 kg
/ha 0 kg/ha 60 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 150 kg/ha 0 k
g/ha 60 kg/ha 90 kg/ha 120 kg/ha
Mean Difference (I-J) -1277.6667* -1588.5000* -2186.3333* -2313.3333* 1277.6667*
-310.8333 -908.6667* -1035.6667* 1588.5000* 310.8333 -597.8333* -724.8333* 2186
.3333* 908.6667* 597.8333* -127.0000 2313.3333* 1035.6667* 724.8333* 127.0000
Std. Error 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.09
29 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0
929 182.0929 182.0929 182.0929
Sig. .000 .000 .000 .000 .000 .440 .000 .000 .000 .440 .016 .002 .000 .000 .016
.956 .000 .000 .002 .956
95% Confidence Interval Lower Upper Bound Bound -1795.0797 -760.2536 -2105.9131
-1071.0869 -2703.7464 -1668.9203 -2830.7464 -1795.9203 760.2536 1795.0797 -828.2
464 206.5797 -1426.0797 -391.2536 -1553.0797 -518.2536 1071.0869 2105.9131 -206.
5797 828.2464 -1115.2464 -80.4203 -1242.2464 -207.4203 1668.9203 2703.7464 391.2
536 1426.0797 80.4203 1115.2464 -644.4131 390.4131 1795.9203 2830.7464 518.2536
1553.0797 207.4203 1242.2464 -390.4131 644.4131
Based on observed means. *. The mean difference is significant at the .05 level.
ESACB
108
SPSS
6 - Anova
Homogeneous Subsets
Produção Tukey HSD Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Sig.
a,b
N 12 12 12 12 12
1 3483.3333
Subset 2 4761.0000 5071.8333
3
1.000
.440
5669.6667 5796.6667 .956
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of
Squares The error term is Mean Square(Error) = 198946.956. a. Uses Harmonic Mean
Sample Size = 12.000. b. Alpha = .05.
Profile Plots
Estimated Marginal Means of Produção
5100
5000
Estimated Marginal Means
4900
4800
4700 IR8 IR5 C4-63
Variedade
ESACB
109
SPSS
6 - Anova
6000
5000
4000
3000 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha
Adubação
7000
6000
5000
4000
Variedade
IR8
3000 IR5 2000 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha C4-63
Adubação
ESACB
110
SPSS
7 - Regressão Linear
7-
REGRESSÃO LINEAR
7.1 - INTRODUÇÃO
Muitos estudos estatísticos têm como objectivo estabelecer uma relação, traduzida por um
a equação, que permite estimar o valor de uma variável, em função de outra ou outras variáve
is. O caso mais simples é traduzir esta relação pela equação de uma recta, quando o acréscim
o de uma variável, designada por dependente e usualmente representada por y, varia
linearmente com os acréscimos provocados noutra variável, designada por independent
e, representada por x. A equação que traduz esta relação é y = a + bx ou y = b0 + b1 x , e
m que os parâmetros ou coeficientes são a ordenada na origem, a (ou bo), e o declive
, b (ou b1). Como regra, previamente ao cálculo da regressão linear, deve fazer-se u
ma análise gráfica aos dados (gráfico de dispersão ou scatterplot), a fim de ter uma per
cepção visual da existência ou não de uma tendência de dependência entre as variáveis, e como
método de detectar possíveis observações outliers ou influentes, que distorçam os resultad
os. A representação gráfica dos dados, num gráfico de pontos (scatterplot) ajuda a ident
ificar algumas situações em que a equação de regressão linear simples não tem um ajustamento
perfeito. De seguida, ilustram-se algumas destas situações. Na situação 1, a observação ass
inalada é um outlier bi-variado, muito embora não o seja em relação a cada uma das variáve
is, já que não é observação extrema. Contudo, o par (x,y) está deslocado do contexto geral d
as restantes observações. Em relação às restantes observações, o gráfico evidencia uma tendên
egundo uma recta crescente. O utilizador deverá verificar os dados e corrigir even
tuais registos erróneos, ou simplesmente desprezar esta observação e efectuar a regres
são com os dados restantes. Note-se que a inclusão desta observação irá provocar uma acent
uada variação no declive da recta.
ESACB
111
SPSS
Situação 1 50
0 10
Na situação 2 existe uma observação igualmente muito influente em termos do declive da r
ecta ajustada. Neste caso, a observação assinalada tem tendência a ser outlier, quer b
i-variado, quer em relação a cada uma das variáveis. Além disso, eliminando esta observação,
resta uma nuvem de pontos, em que não é nítida qualquer tendência de relação entre as variáv
is.
Situação 2 60
0 10
Na situação 3, a variância da variável y não é uniforme, ao longo dos valores em x, isto é, t
mando “fatias” verticais ao longo do eixo dos xx, a dispersão dos valores y vai aument
ando para valores mais elevados de y. Muito embora a normalidade dos dados não sej
a um pressuposto obrigatório para a estimativa da regressão linear, é contudo necessário
que os resíduos (yobs – yest) tenham distribuição normal e variância constante. Nesta sit
uação, estes pressupostos são violados, invalidando as inferências que se façam a partir d
a equação estimada.
ESACB
112
SPSS
Situação 3 50
0 10
A situação 4 ilustra uma forte relação entre x e y, mas não de tipo linear, pelo que o aju
stamento de uma recta para traduzir esta função de dependência é errada e sem significad
o.
Situação 4 12
0 0 16
Na situação 5 recolheram-se observações apenas nas zonas extremas do intervalo de variação d
e x, não existindo dados para valores intermédios da variável x. A função de regressão linea
r nesta situação é fortemente influenciada pelos valores extremos, mas não traduz a relação
que existe para todo o intervalo de x. Na recolha de dados, deve haver a preocup
ação de que a amostragem cubra todo o intervalo de variação de x, de modo a evidenciar o
comportamento da relação no interior desse intervalo.
Situação 5 20
0 0 10
ESACB
113
SPSS
O objectivo da regressão linear é estabelecer a função y = a + bx desta recta, que de um
modo muito aproximado permite estimar o valor de y para dado valor de x. O cálcul
o dos coeficientes de regressão faz-se pelo método dos mínimos quadrados, que minimiza
ˆ2 a soma dos quadrados dos resíduos, isto é, minimiza a função ∑ ( y obs − y ) , em que ˆ y
presenta o valor estimado pela equação para dado valor x. No gráfico seguinte represen
tam-se os valores de 24 pares de valores do tipo (x,y), em que no eixo dos xx es
tá representada a variável % de sólidos insolúveis em água e nos yy se representa a % tota
l de sólidos, duas características importantes em molho de tomate (adaptado de DEREC
K PIKE, 19??; os dados são apresentados em anexo):
60
50
40
% sólidos no molho
30
20 10 11 12 13 14 15 16 17 18
% insolúveis em água
É evidente a tendência do decréscimo da % de sólidos no molho com o aumento da % de inso
lúveis em água, segundo uma relação aproximadamente linear. Pretende-se estabelecer esta
relação entre as duas variáveis, com os objectivos de (i) descrever a relação entre as ca
racterísticas para este tipo de molho, e (ii) poder estimar ou prever a % de sólidos
do molho (característica bastante difícil de quantificar) mediante a % de insolúveis
em água que o molho contém (característica relativamente fácil de determinar). A equação de
regressão linear é uma estatística, e como tal, tem inerente a componente de erro esta
tístico. A fim de interpretar a equação estimada, são apresentados uma série de coeficient
es e estatísticas suplementares, que de um modo geral permitem analisar o maior ou
menor grau de rigor com que a equação de regressão traduz a relação entre as variáveis em e
studo. Um dos coeficientes associados à equação é o coeficiente de correlação linear, repres
entado por r, que representa, na escala ]-1, 1[, a correlação ou associação entre as
ESACB
114
SPSS
duas variáveis; o quadrado deste coeficiente constitui o coeficiente de correlação tot
al, ou coeficiente de determinação, representado por R2, que traduz, a % de variabil
idade da variável dependente (y) que é explicada pela variável independente (x). É apres
entado o coeficiente de determinação ajustado, que é um estimador não enviezado de R2 (q
ue tende a ser um estimador sobre-avaliado) definido a partir de R2 pela expressão
:
2 Ra = R 2 −
p (1 − R 2 ) N − p −1
em que p é o número de variáveis independentes; no caso da equação de regressão linear simpl
es y = a + bx , p=1. São apresentados os intervalos de confiança para os coeficiente
s a e b, bem como os erros-padrão e as estatísticas dos seguintes testes de hipóteses:
teste referente ao coeficiente a: teste referente ao coeficiente b: H0 : a = 0
H0 : b = 0 H1 : a ≠ 0 H1 : b ≠ 0
O output do procedimento do cálculo da equação de regressão apresenta a tabela da anova,
que constitui um teste de hipóteses à existência ou não de uma relação de dependência: H 0 :
y não depende de x ⇔ H0 : b = 0 H1 : b ≠ 0 H 1 : y depende de x
A estatística F tem um valor alto quando a variável independente ajuda a explicar a
variabilidade da variável dependente. Além disso, a tabela da análise de variância forne
ce a média da soma dos quadrados dos resíduos, cuja raíz quadrada é o erro padrão da estim
ativa. A equação de regressão é tão mais ajustada aos dados, quanto menor for o erro padrão
da estimativa, comparativamente com o desvio padrão da variável dependente.
7.2 - REGRESSÃO LINEAR SIMPLES
Para proceder ao cálculo da equação de regressão linear, executar o seguinte procediment
o7: Statistics Regression
7
No exemplo usam-se os dados das características do molho de tomate, em que as variáv
eis são insoluve (% de insolúveis em água) e solidos (% total de sólidos no molho).
ESACB
115
SPSS
. Aparece a seguinte caixa de diálogo, No menu anterior, seleccionar a opção onde se d
efine a variável dependente (solidos) e a variável independente (insoluve) para os r
espectivos campos:
Seleccionar o botão , que abre a seguinte caixa de diálogo, onde se seleccionam as o
pções Confidence intervals e Descriptives; as opções Estimates e Model fit estão activadas
por defeito:
ESACB
116
SPSS
Fazer :
a fim de regressar à janela Linear Regression, onde se selecciona
Nesta caixa de diálogo, deve seleccionar e para obter o histograma e o gráfico do aj
ustamento à normal dos resíduos, a fim de verificar se os resíduos seguem distribuição nor
mal (pressuposto para a validade da regressão linear) para verificar a linearidade
e a igualdade de variância dos resíduos, efectuar o gráfico dos resíduos, com os valore
s estimados standardizados (ZPRED) no eixo dos xx, e os resíduos standardizados (Z
RESID) no eixo dos yy. No final, fazer regressar à janela Linear Regression. a fim
de
O botão dá acesso à seguinte caixa de diálogo, onde se podem definir critérios de seleccção o
remoção de variáveis independentes (só têm efeito em regressão múltipla):
ESACB
117
SPSS
Os resultados do procedimento são os seguintes:
Regression
Descriptive Statistics Mean 39.7292 13.7775 Std. Deviation 5.1826 1.8995 N 24 24
% sólidos no molho % insolúveis em água
Correlations % insolúveis em água -.970 1.000 .000 . 24 24
Pearson Correlation Sig. (1-tailed) N
% sólidos no molho % insolúveis em água % sólidos no molho % insolúveis em água % sólidos no
olho % insolúveis em água
% sólidos no molho 1.000 -.970 . .000 24 24
b Variables Entered/Removed
Model 1
Variables Entered % insolúveis em águaa
Variables Removed .
Method Enter
a. All requested variables entered. b. Dependent Variable: % sólidos no molho
ESACB
118
SPSS
Model Summaryb Std. Error of the Estimate 1.2880
Model 1
R .970a
R Square .941
Adjusted R Square .938
a. Predictors: (Constant), % insolúveis em água b. Dependent Variable: % sólidos no mo
lho
b ANOVA
Model 1
Regression Residual Total
Sum of Squares 581.272 36.498 617.770
df 1 22 23
Mean Square 581.272 1.659
F 350.378
Sig. .000a
a. Predictors: (Constant), % insolúveis em água b. Dependent Variable: % sólidos no mo
lho
a Coefficients
Unstandardized Coefficients Model 1 B 76.193 -2.647 Std. Error 1.966 .141
Standardi zed Coefficien ts Beta -.970 t 38.761 -18.718 Sig. .000 .000
(Constant) % insolúveis em água
95% Confidence Interval for B Lower Upper Bound Bound 72.117 80.270 -2.940 -2.35
3
a. Dependent Variable: % sólidos no molho
a Residuals Statistics
Predicted Value Residual Std. Predicted Value Std. Residual
Minimum 27.9714 -1.5871 -2.339 -1.232
Maximum 47.8478 3.1522 1.615 2.447
Mean 39.7292 -3.70E-15 .000 .000
Std. Deviation 5.0272 1.2597 1.000 .978
N 24 24 24 24
a. Dependent Variable: % sólidos no molho
ESACB
119
SPSS
Charts
Histogram Dependent Variable: % sólidos no molho
7 6 5 4 3
Frequency
2 Std. Dev = .98 1 0 -1.00 -.50 0.00 .50 1.00 1.50 2.00 2.50 Mean = 0.00 N = 24.
00
Regression Standardized Residual
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: % sólidos no molho
1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
ESACB
120
SPSS
Scatterplot Dependent Variable: % sólidos no molho
3
2
1
0
-1
-2 -3 -2 -1 0 1 2
Regression Standardized Predicted Value
ˆ A equação da recta estimada é y = 76.193 − 2.647 x , em que x é a % de insolúveis em água e
a % de sólidos no molho. A análise e interpretação pormenorizadas dos resultados deixam-
se a cargo do leitor. Chama-se apenas a atenção para o facto de os resíduos estarem li
geiramente desajustados da distribuição normal, como está evidenciado no histograma (n
ota-se um acentuado enviezamento à esquerda, bem como a falta de resíduos numa das c
lasses centrais) e no gráfico de ajustamento à normal (um perfeito ajustamento é tradu
zido pela diagonal do gráfico; neste caso, os resíduos situam-se sistematicamente ac
ima ou abaixo desta linha, em diferentes zonas do gráfico). No gráfico dos resíduos st
andardizados versus valores previstos standardizados nota-se uma tendência para qu
e os resíduos se distribuam segundo uma curva ligeiramente côncava. Estas análise dos
resíduos sugerem que o modelo linear ajustado (equação de uma recta) não é o melhor modelo
para traduzir a relação entre estas variáveis; a distribuição dos resíduos indica que o aju
stamento de um modelo linear polinomial de 2 ordem, com uma equação do tipo y = a + b
x + cx 2 aumentará a precisão da estimativa (que é traduzida pelo coeficiente de deter
minação R2=0.941). O ajustamento a uma equação de segundo grau será abordado no parágrafo se
guinte.
7.3 - REGRESSÃO LINEAR MÚLTIPLA
Neste parágrafo será abordada a metodologia de cálculo da equação de regressão linear múltipl
, do tipo y = b0 + b1 x1 + b2 x 2 + b3 x3 + ... + bn x x , em que a variável respo
sta ou dependente é função de várias variáveis independentes.
ESACB
121
SPSS
Os coeficientes de regressão b1, b2, ..., bn traduzem o declive ou acréscimo na variáv
el dependente provocado pelo acréscimo unitário de cada uma das variáveis independente
s, x1, x2, ..., xn, respectivamente. A metodologia que se vai abordar serve igua
lmente para estimar uma equação de regressão linear polinomial, do tipo y = b0 + b1 x
+ b2 x 2 + b3 x 3 + ... + bn x n , em que y depende, não de diversas variáveis indep
endentes x1, x2, ..., xn, mas de um polinómio da mesma variável independente x. Nest
e caso, previamente a efectuar o procedimento da regressão linear, devem gerar-se
as variáveis correspondentes às potências x2, x3, ..., xn a incluir no modelo. No parágr
afo seguinte será abordada uma metodologia diferente que permite o ajustamento de
equações de curvas polinomiais a uma amostra de dados (x,y). Quando se ajusta um mod
elo de regressão múltipla, pode acontecer que se justifique estatisticamente incluir
na equação de regressão todas as variáveis independentes, ou que se incluam apenas algu
mas destas variáveis explanatórias. Esta decisão é tomada em função da significância do parâm
o de regressão de cada uma das variáveis, ou pelo acréscimo do coeficiente de determin
ação, R2, provocado pela inclusão dessas variáveis. De um modo geral, existem duas estra
tégias a seguir: (i) começar por incluir todas as variáveis, e analisar a contribuição ou
significância dos coeficientes de regressão de cada uma das variáveis independentes no
modelo; eliminar a variável independente menos significativa, desde que a sua con
tribuição seja inferior a determinado limite (normalmente analisado em termos da est
atística F associada a essa variável na tabela da anova); recalcular de novo o model
o sem esta variável e, se for caso disso, eliminar nova variável, e assim sucessivam
ente, até que todas as restantes variáveis independentes sejam significativas para a
precisão do modelo. Este tipo de estratégia designa-se por processo backward ou ste
pback. (ii) começar por calcular um modelo de regressão simples, y = b0 + b1 x , inc
luindo, se for caso disso, apenas a variável independente cujo coeficiente de regr
essão é mais significativo em termos de precisão; analisar a significância da próxima variáv
el independente mais significativa, e incluíla, se for caso disso; recalcular de n
ovo o modelo; analisar a significância da próxima variável independente mais significa
tiva, e incluí-la, se for caso disso, e assim sucessivamente até que mais nenhuma da
s variáveis independentes seja significativa. Este tipo de metodologia designa-se
por processo stepwise ou forward. Pode acontecer que os modelos obtidos por este
s dois tipos de metodologias, para a mesma amostra de valores, não sejam inteirame
nte coincidentes, nomeadamente quando alguma ou algumas das variáveis independente
s estão muito próximas do limite que define a significância da sua inclusão ou não inclusão
no modelo. Chama-se a atenção que, por vezes, a inclusão de muitas variáveis explanatórias
no modelo pouco acréscimo trazem em termos de precisão do modelo, e este fica muito
ESACB 122
SPSS
pouco funcional e muito fictício ou artificial, isto é, muito bem ajustado à amostra p
articular de valores usados para o cálculo da equação, mas pouco adaptável à população. Para
lustrar o ajustamento de uma equação de regressão linear múltipla, vamos usar o seguinte
conjunto de dados (adaptado de DRAPPER & SMITH, 1981), em que as variáveis indepe
ndentes são a temperatura média mensal (graus Fahrenheit), a produção mensal (toneladas)
, o número de dias úteis de trabalho por mês e o número de empregados, e a variável depend
ente é o consumo de água (m3), observados numa determinada empresa fabril: Temperatu
ra ( F) 58.80 65.20 70.90 77.40 79.30 81.00 71.90 63.90 54.50 39.50 44.50 43.60 56
.00 64.70 73.00 78.90 79.40 68.40 Produção mensal 7107.00 8373.00 9796.00 9208.00 14
792.00 14564.00 11964.00 13526.00 12656.00 14119.00 15691.00 14571.00 13619.00 1
4575.00 14556.00 16573.00 15618.00 14346.00 Dias úteis do mês 20.00 20.00 20.00 20.0
0 22.00 23.00 21.00 22.00 21.00 21.00 22.00 23.00 22.00 22.00 21.00 22.00 22.00
23.00 Número de operários 129.00 141.00 153.00 166.00 193.00 189.00 175.00 186.00 19
0.00 187.00 195.00 206.00 198.00 192.00 191.00 200.00 200.00 185.00 Consumo de águ
a (m3) 2967.00 2828.00 2891.00 2994.00 3282.00 3498.00 3302.00 3260.00 3211.00 3
286.00 3432.00 3425.00 3256.00 3422.00 3250.00 3464.00 3495.00 3568.00
Pretende-se ajustar uma equação do tipo y = b0 + b1 x1 + b2 x 2 + b3 x3 + b4 x 4 que
permita estimar o consumo mensal de água nesta empresa, em função das variáveis indepen
dentes observadas. Para estimar uma equação de regressão múltipla executar o seguinte pr
ocedimento: Statistics Regression
ESACB
123
SPSS
No menu anterior, seleccionar a opção . Aparece a seguinte caixa de diálogo, onde se d
efinem a variável dependente e as todas as variáveis independentes:
No campo das variáveis independentes estão incluídas todas as variáveis explanatórias. O mét
odo de cálculo seleccionado é Enter, que obriga à inclusão de todas as variáveis independe
ntes no modelo, sejam ou não significativas. Os outros métodos de cálculo são Stepwise e
Forward (métodos de inclusão progressiva de variáveis independentes), Backward (método
de eliminação progressiva de variáveis independentes) e Remove (método que calcula o mod
elo sem inclusão de qualquer variável independente, isto é, o ˆ modelo resume-se a y = y
):
A fim de comparar diversos modelos de regressão, vamos começar por incluir todas as
variáveis independentes, optando pelo método Enter; seguidamente, deve repetir-se a
metodologia, e optar por outros métodos de cálculo, nomeadamente Stepwise e Backward
. Seleccionar o botão linear simples. , e tal como descrito para a regressão
ESACB
124
SPSS
Regression
Descriptive Statistics Std. Deviation 218.9502 13.1334 2716.3310 1.0432 21.3514
Correlations Consumo mensal de água (m3) Pearson Correlation Consumo mensal de água
(m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias úteis no mês Número de operário
onsumo mensal de água (m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias úteis no
mês Número de operários Consumo mensal de água (m3) Temperatura média mensal ( F) Produção m
al (Ton) Dias úteis no mês Número de operários 1.000 .013 .894 .901 .831 . .480 .000 .00
0 .000 18 18 18 18 18 Temperatura média mensal ( F) .013 1.000 -.005 -.022 -.080 .48
0 . .493 .466 .377 18 18 18 18 18 Produção mensal (Ton) .894 -.005 1.000 .811 .939 .
000 .493 . .000 .000 18 18 18 18 18
Mean Consumo mensal de água (m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias út
eis no mês Número de operários 3268.3889 65.0500 13091.89 21.5000 182.0000
N 18 18 18 18 18
Dias úteis no mês .901 -.022 .811 1.000 .784 .000 .466 .000 . .000 18 18 18 18 18
Número de operários .831 -.080 .939 .784 1.000 .000 .377 .000 .000 . 18 18 18 18 18
Sig. (1-tailed)
N
b Variables Entered/Removed
Model 1
Variables Entered Número de operários, Temperatura média mensal ( F), Dias úteis no a mês, P
rodução mensal (Ton)
Variables Removed .
Method Enter
a. All requested variables entered. b. Dependent Variable: Consumo mensal de água
(m3)
Model Summaryb
Model 1 a.
R .945a
R Square .893
Adjusted R Square .860
Std. Error of the Estimate 81.8974
Change Statistics R Square Change .893 F Change 27.127 df1 4 df2 13 Sig. F Chang
e .000
Predictors: (Constant), Número de operários, Temperatura média mensal ( F), Dias úteis no
mês, Produção mensal (Ton) b. Dependent Variable: Consumo mensal de água (m3)
ESACB
125
SPSS
b ANOVA
Model 1
Regression Residual Total
Sum of Squares 727772.930 87193.348 814966.278
df 4 13 17
Mean Square 181943.232 6707.181
F 27.127
Sig. .000a
a. Predictors: (Constant), Número de operários, Temperatura média mensal ( F), Dias úteis
no mês, Produção mensal (Ton) b. Dependent Variable: Consumo mensal de água (m3)
Coefficientsa Standardi zed Coefficien ts Beta .014 .624 .526 -.167 t .858 .150
2.166 3.376 -.610 Sig. .406 .883 .049 .005 .552
Unstandardized Coefficients Model 1 B 531.302 .232 5.027E-02 110.460 -1.709 Std.
Error 619.067 1.550 .023 32.724 2.801
(Constant) Temperatura média mensal ( F) Produção mensal (Ton) Dias úteis no mês Número de op
rários
95% Confidence Interval for B Lower Upper Bound Bound -806.111 1868.714 -3.117 .
000 39.765 -7.759 3.581 .100 181.156 4.342
Correlations Zero-order .013 .894 .901 .831 Partial .041 .515 .683 -.167 Part .0
14 .197 .306 -.055
a. Dependent Variable: Consumo mensal de água (m3)
Minimum Predicted Value 2890.9719 Residual -111.5868 Std. Predicted Value -1.824
Std. Residual -1.363
Maximum 3499.8154 131.9858 1.119 1.612
Mean 3268.3889 1.011E-13 .000 .000
Std. Deviation 206.9062 71.6172 1.000 .874
N 18 18 18 18
Charts
Histogram Dependent Variable: Consumo mensal de água
5
4
3
2
Frequency
1
Std. Dev = .87 Mean = 0.00 N = 18.00 -1.50 -1.00 -.50 0.00 .50 1.00 1.50
0
ESACB
126
SPSS
Normal P-P Plot of Regression Standardized Residual Dependent Variable: Consumo
mensal de água (m3)
1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
Scatterplot
Dependent Variable: Consumo mensal de água (m3)
2.0
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5
A equação do modelo ajustado é: consumo=531.302+0.232temperat+0.05027producao+110.46di
as-1.709operario
2 sendo R2=0.893 e Rajustado = 0.86 .
Repita-se o processo, optando pelo método de cálculo Stepwise. Neste caso, chegar-se
-á ao modelo:
ESACB 127
SPSS
consumo=443.965+0.03842producao+107.976dias
2 e R2=0.889 e Rajustado = 0.874 .
Repare-se que se simplificou o modelo, sem contudo prejudicar a precisão deste com
o instrumento de estimativa da variável dependente. De seguida apresentam-se os re
sultados completos obtidos com o método stepwise, de modo a possibilitar a comparação
com o modelo que inclui todas as variáveis independentes:
Regression
Descriptive Statistics Std. Deviation 218.9502 13.1334 2716.3310 1.0432 21.3514
Correlations Consumo mensal de água (m3) Pearson Correlation Consumo mensal de água
(m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias úteis no mês Número de operário
onsumo mensal de água (m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias úteis no
mês Número de operários Consumo mensal de água (m3) Temperatura média mensal ( F) Produção m
al (Ton) Dias úteis no mês Número de operários 1.000 .013 .894 .901 .831 . .480 .000 .00
0 .000 18 18 18 18 18 Temperatura média mensal ( F) .013 1.000 -.005 -.022 -.080 .48
0 . .493 .466 .377 18 18 18 18 18 Produção mensal (Ton) .894 -.005 1.000 .811 .939 .
000 .493 . .000 .000 18 18 18 18 18 Dias úteis no mês .901 -.022 .811 1.000 .784 .00
0 .466 .000 . .000 18 18 18 18 18 Número de operários .831 -.080 .939 .784 1.000 .00
0 .377 .000 .000 . 18 18 18 18 18
Mean Consumo mensal de água (m3) Temperatura média mensal ( F) Produção mensal (Ton) Dias út
eis no mês Número de operários 3268.3889 65.0500 13091.89 21.5000 182.0000
N 18 18 18 18 18
Sig. (1-tailed)
N
ESACB
128
SPSS
a Variables Entered/Removed
Model 1
Variables Entered Dias úteis no mês
Variables Removed
.
2 Produção mensal (Ton) .
Method Stepwise (Criteria: Probability-of-F-to-e nter <= .050, Probability-of-F-
to-re move >= .100). Stepwise (Criteria: Probability-of-F-to-e nter <= .050, Pro
bability-of-F-to-re move >= .100).
Model Summaryc
Model 1 2
R .901a .943b
R Square .811 .889
Adjusted R Square .800 .874
Std. Error of the Estimate 98.0273 77.5677
Change Statistics R Square Change .811 .078 F Change 68.810 10.554 df1 1 1 df2 1
6 15 Sig. F Change .000 .005
a. Predictors: (Constant), Dias úteis no mês b. Predictors: (Constant), Dias úteis no
mês, Produção mensal (Ton) c. Dependent Variable: Consumo mensal de água (m3)
c ANOVA
Model 1
2
Regression Residual Total Regression Residual Total
Sum of Squares 661216.554 153749.724 814966.278 724715.124 90251.154 814966.278
df 1 16 17 2 15 17
Mean Square 661216.554 9609.358 362357.562 6016.744
F 68.810
Sig. .000a
60.225
.000b
a. Predictors: (Constant), Dias úteis no mês b. Predictors: (Constant), Dias úteis no
mês, Produção mensal (Ton) c. Dependent Variable: Consumo mensal de água (m3)
Coefficientsa Standardi zed Coefficien ts Beta .901 .514 .477 t -1.623 8.295 .81
5 3.507 3.249 Sig. .124 .000 .428 .003 .005
Unstandardized Coefficients Model 1 2 B -796.273 189.054 443.965 107.976 3.842E-
02 Std. Error 490.549 22.791 544.446 30.791 .012
(Constant) Dias úteis no mês (Constant) Dias úteis no mês Produção mensal (Ton)
95% Confidence Interval for B Lower Upper Bound Bound -1836.190 243.643 140.740
237.369 -716.494 1604.425 42.346 173.606 .013 .064
Correlations Zero-order .901 .901 .894 Partial .901 .671 .643 Part .901 .301 .27
9
ESACB
129
SPSS
c Excluded Variables
Model 1
Beta In Temperatura média mensal ( F) Produção mensal (Ton) Número de operários Temperatura
média mensal ( F) Número de operários .032
a
t .290 3.249 2.017 .296 -.683
Sig. .776 .005 .062 .772 .506
Partial Correlation .075 .643 .462 .079 -.179
Collinearit y Statistics Tolerance 1.000 .343 .385 .999 .116
.477a .323a .026
b
2
-.176b
a. Predictors in the Model: (Constant), Dias úteis no mês b. Predictors in the Model
: (Constant), Dias úteis no mês, Produção mensal (Ton) c. Dependent Variable: Consumo me
nsal de água (m3)
Minimum Predicted Value 2876.5112 Residual -105.6879 Std. Predicted Value -1.898
Std. Residual -1.363
Maximum 3487.1743 130.9278 1.060 1.688
Mean 3268.3889 2.274E-13 .000 .000
Std. Deviation 206.4711 72.8621 1.000 .939
N 18 18 18 18
Charts
Histogram
5
4
3
2
Frequency
1
Std. Dev = .94 Mean = 0.00 N = 18.00 -1.50 -1.00 -.50 0.00 .50 1.00 1.50
0
ESACB
130
SPSS
Normal P-P Plot of Regression Standardized Residual
1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
Scatterplot
2.0
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5
7.4 - AJUSTAMENTO DE MODELOS PRÉ-DEFINIDOS
O SPSS dispõe de uma rotina que permite o ajustamento de vários modelos prédefinidos a
uma amostra de valores bi-variados (x,y). Tais modelos são:
ESACB
131
SPSS
• • • • • • • • •
Linear: Quadrático: Cúbico: Logarítmico: Inverso: Potência: Composto (compound): Sigmoid
al (S): Logístico:
y = b0 + b1 .x y = b0 + b1 .x + b2 .x 2 y = b0 + b1 .x + b2 .x 2 + b3 .x 3 y = b
0 + b1 . ln x y = b0 + y = b0 .b y=e y= b1 x ⇔ ⇔ ⇔ ⇔ ln y = ln b0 + b1 . ln x ln y = ln
b0 + x. ln b1 ln y = b0 + b1 x
y = b0 .x b1
x 1 b b0 + 1 x
1
• •
Crescimento (growth): Exponencial:
1 + b0 .b1x u (em que u é o limite assimptótico superior, u>0, u>ymax) y = e b0 +b1
. x ln y = b0 + b1 .x ⇔ y = b0 .e b1 . x ⇔ ln y = ln b0 + b1 .x
1 1 ln − = ln(b0 + x. ln b1 ) y u
Muitos destes modelos são frequentemente usados em modelos econométricos, em que a v
ariável independente ou causal é o decurso do tempo. Se for este o caso, no menu apr
opriado o utilizador pode definir que x é o tempo (ver caixa de diálogo seguinte). P
ara exemplificar esta metodologia, vamos usar os dados referentes às características
do molho de tomate (em anexo). Como anteriormente se viu, o gráfico denota uma li
geira curvatura na zona superior dos valores xx, que faz suspeitar que um modelo
polinomial talvez seja melhor ajustado que o modelo linear simples. Para tal, f
azer: Statistics Regression
Neste menu, seleccionar a opção Curve Estimation... que dá acesso à seguinte caixa de diál
ogo, onde se definem as variáveis dependente (solidos) e independente (insoluve) e
se seleccionam os modelos que se pretendem obter, e se define para apresentar a
tabela da anova para cada um dos modelos calculados:
ESACB
132
SPSS
Por
defeito, .
os
modelos
ajustados
incluem
a
constante
(coeficiente
b0)
, e é apresentado o gráfico com os modelos calculados
O utilizador pode seleccionar um ou mais modelos, com o objectivo de, pela análise
dos resultados, nomeadamente R2 e anova, seleccionar o modelo melhor ajustado.
No exemplo, foi solicitado para calcular os modelos linear, quadrático e cúbico. Os
resultados são os seguintes: MODEL: MOD_1. Method.. LINEAR
Dependent variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard Deleti
on of Missing Data R .97001 .94092 R Square .93823 Error 1.28802 Analysis of Var
iance: DF Regression Residuals F= 1 22 Sum of Squares 581.27190 36.49768 Signif
F =
Mean Square 581.27190 1.65899 .0000
350.37794
-------------------- Variables in the Equation -------------------
ESACB
133
SPSS
Variable T Sig T INSOLUVE -2.646653 18.718 .0000 (Constant) 38.761 .0000 Depende
nt variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard
B
SE B
Beta
.141393 76.193433
-.970010
-
1.965707
Method.. QUADRATI
Deletion of Missing Data R .98637 .97293 R Square .97035 Error .89243 Analysis o
f Variance: DF Sum of Squares 601.04440 16.72518 Signif F = .0000 Mean Square 30
0.52220 .79644
Regression Residuals F=
2 21
377.33322
-------------------- Variables in the Equation ------------------Variable T Sig
T INSOLUVE 7.293 .0000 INSOLUVE**2 4.983 .0001 (Constant) 14.516 .0000 -8.288178
.200730 B SE B Beta
1.136478
-3.037655
-
.040286
2.075370 7.930949
115.123024
Dependent variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard Deleti
on of Missing Data R .98637 .97293 R Square .97035 Error .89243 Analysis of Vari
ance: DF Regression Residuals 2 21 Sum of Squares 601.04440 16.72518
Method.. CUBIC
Mean Square 300.52220 .79644
ESACB
134
SPSS
F=
377.33322
Signif F =
.0000
-------------------- Variables in the Equation ------------------Variable T Sig
T INSOLUVE 7.293 .0000 INSOLUVE**2 4.983 .0001 (Constant) 14.516 .0000 -8.288178
.200730 B SE B Beta
1.136478
-3.037655
-
.040286
2.075370 7.930949
115.123024
--------------- Variables not in the Equation -------------Variable T INSOLUVE**
3 .3371 Beta In Partial Min Toler T Sig
-4.796852 -.214795
1.368E-05
-.984
Notes: 9 Tolerance limits reached; some dependent variables were not entered.
% sólidos no molho
60
50
40
30
Obs erved Linear
20 10 12 14 16 18 20
Quadratic
% insolúveis em água
ESACB
135
SPSS
Note-se que ao passar do modelo linear y = 76.1934 – 2.6467x, R2=0.9409 para o mod
elo quadrático y = 115.1230 – 8.2882x + 0.2007x2, R2=0.9729, há um acréscimo significati
vo do ajustamento (Tb2=4.983, significativo; F=377.33 significativo); contudo, a
o passar para o modelo cúbico, a estatística Tb3=-0.984 é não significativa, e nem seque
r é calculado este modelo, sendo apresentados os resultados do modelo quadrático, o
que significa que o melhor modelo (dos pedidos) é o modelo quadrático.
ESACB
136
SPSS
8 - Manusear os Resultados
8-
MANUSEAR OS RESULTADOS
À medida que se vão executando tarefas com o SPSS, os resultados vão-se acumulando suc
essivamente no Viewer do programa.
A janela do organigrama apresenta a sequência de resultados, que começam na identifi
cação ; cada rotina ou tarefa aparece identificada com uma marca identificativa dos
resultados, e respectivo conteúdo; por exemplo, os resultados correspondentes à obte
nção das estatísticas descritivas é identificado no organigrama
pelo esquema
.
Cada conjunto de resultados começa pela identificação da rotina ou tarefa ( ) e com o
respectivo conteúdo; esta rotina apresenta um título visível (repare que o “livro” está aber
to), e que corresponde à linha Descriptives na janela à direita, um conjunto de nota
s que não estão visíveis no output (o “livro” está fechado), e as estatísticas descritivas vi
eis na janela de output (o “livro” está aberto). Esta organização mantém-se para os resultad
os das tarefas seguintes.
ESACB
136
SPSS
Note que cada rotina tem um conjunto de notas, mas que não estão visualizadas; para
as ver na janela de output, o utilizador só tem que fazer duplo click sobre , de m
odo a “abrir o livro”, e aparecerem as notas na janela à direita.
Repare que as notas incluem a data e hora de obtenção dos resultados, a localização do f
icheiro de dados usado, o número de linhas ou casos do ficheiro de dados, indicações s
obre a existência e tratamento de “missing values”, e as instruções que originaram os resu
ltados (o utilizador gerou estas instruções, ou programa, seleccionando ícons e janela
s nos menus do programa; contudo, e para utilizações mais avançadas, o SPSS tem um edi
tor de programas, em que o utilizador constrói as rotinas de análise, como se de uma
linguagem de programação de tratasse). A última linha das notas indica o tempo de pro
cessamento que a CPU do computador levou a executar esta rotina (neste caso, 0.9
9 segundos). Para “fechar o livro” de notas, isto é, para que as notas não sejam visuali
zadas no output, fazer duplo click sobre . Para “condensar” a parte de organigrama c
orrespondente a uma rotina de análise, fazer click sobre o botão - à esquerda da sua i
dentificação; por exemplo, para “condensar” o organigrama das estatísticas descritivas, fa
zer click sobre
O organigrama fica com o seguinte aspecto:
ESACB
137
SPSS
Esta “condensação” do organigrama tem a vantagem de permitir maior rapidez na localização de
determinados conjuntos de resultados, pois o utilizador pode “condensar” as partes
não relevantes do organigrama, ficando apenas “aberta” a parte relevante do organigram
a.
Para “expandir”, fazer duplo click sobre o botão + correspondente Para visualizar resu
ltados subsequentes, o utilizador pode usar a barra de scroll vertical da janela
de resultados, ou simplesmente fazer clik no item respectivo do organigrama. Pa
ra ter acesso imediato ao diagrama de extremos-e-quartis referente a todos is va
lores, fazer click sobre o item
Além da visualização, o utilizador pode copiar este gráfico (ou qualquer outro conjunto
de resultados) para outra aplicação em Windows (por exemplo, processador de texto).
ESACB 138
SPSS
Para tal, localizar o bloco de resultados pretendido (tal como descrito); Fazer
Edit Copy (ou CTRL-C), para capturar uma imagem do bloco seleccionado para o “clip
board” (área de transferência) do Windows; colocar-se na aplicação pretendida (poor exempl
o, num documento do Word) e fazer a colagem da imagem (Edit Past, ou CTRL-V). Se
se efectuou uma análise e se chegou à conclusão que está repetida, ou que pura e simple
smente não interessa, pode eliminar-se do Viewer. No exemplo seguinte, repetiuse a
rotina Descriptives, de modo que os resultados estão em duplicado.
Podem acrescentar-se caixas de texto com comentários aos resultados, por exemplo a
lgumas análises que se considerem pertinentes. Para incluir o comentário “O histograma
evidencia uma tendência assimétrica” após o histograma, seleccionar o item Histogram:
e fazer Insert New Text ou fazer click no botão . Na janela de resultados é aberta u
ma caixa de texto, onde se esccrevem os comentários pretendidos:
ESACB
139
SPSS
Para eliminar um dos conjunto de resultados da rotina Descriptives, fazer click
sobre o item respectivo no organigrama:
e de seguida fazer Edit Cut, ou CTRL-X, ou simplesmente carregar na tecla DEL. P
odem guardar-se os resultados em ficheiro, de modo que posteriormente o utilizad
or possa recuperá-los sem ter de os recalcular. Para gravar os resultados contidos
no Viewer do SPSS, estando colocado nesta janela, fazer: File Save Aparece a se
guinte caixa de diálogo, onde se selecciona o disco/directório onde se pretende grav
ar; na caixa escreve-se o nome a dar ao ficheiro (sem extensão); o programa automa
ticamente acrescenta a extensão .spo típica dos ficheiros Viewer do SPSS.
ESACB
140
SPSS
Posteriormente, se se pretender apenas consultar os resultados, basta abrir este
ficheiro no SPSS. Caso se pretenda continuar a executar análises e acrescentá-las a
este ficheiro, então deve abrir-se também o ficheiro de dados para a partir daí proce
der às análises. Para imprimir os resultados do Viewer, faz-se File Print; na caixa
de diálogo seguinte, confirmar a impressora, e fazer OK:
Se interessar imprimir não todo o conjunto de resultados, mas apenas alguns dos bl
ocos, devem seleccionar-se previamente. Para tal, se os blocos são contíguos, manter
a tecla SHIFT carregada e fazer click sobre os items a seleccionar; se os bloco
s não são adjacentes, manter a tecla CTRL carregada e fazer click sobre os items a s
eleccionar:
ESACB
141
SPSS
Neste exemplo, apenas o bloco Descriptives e o bloco Producao estão seleccionados;
se se mandar imprimir, só serão impressos estes resultados.
Repare que agora, no aparece activada a opção que imprimirá apenas os blocos seleccion
ados.
, a indicar
ESACB
142
SPSS
Anexos
ANEXOS
Listagem dos ficheiros SPSS referenciados no texto
ESACB
143
plasma.sav
hora 1 Manhã 2 Manhã 3 Manhã 4 Manhã 5 Manhã 6 Manhã 7 Manhã 8 Manhã 9 Manhã 10 Manhã 11 Tard
rde 13 Tarde 14 Tarde 15 Tarde 16 Tarde 17 Tarde 18 Tarde 19 Tarde 20 Tarde
estrogen fosfo Controle 8,53 Controle 20,53 Controle 12,53 Controle 14 Controle
10,8 Presente 17,53 Presente 21,07 Presente 20,8 Presente 17,33 Presente 20,07 C
ontrole 39,14 Controle 26,2 Controle 31,33 Controle 45,8 Controle 40,2 Presente
32 Presente 23,8 Presente 28,87 Presente 25,06 Presente 29,3
pulso.sav
caso sexo fuma 1 Homem Fuma 2 Mulher Fuma 3 Homem Não Fuma 4 Mulher Não Fuma 5 Homem
Fuma 6 Mulher Fuma 7 Homem Não Fuma 8 Mulher Não Fuma 9 Mulher Fuma 10 Homem Fuma 1
1 Mulher Não Fuma 12 Homem Não Fuma 13 Mulher Fuma 14 Mulher Não Fuma 15 Homem Fuma 16
Homem Não Fuma 17 Homem Não Fuma 18 Mulher Não Fuma 19 Mulher Fuma 20 Homem Fuma 21 H
omem Fuma 22 Homem Não Fuma 23 Mulher Fuma 24 Mulher Não Fuma 25 Mulher Não Fuma 26 Mu
lher Não Fuma 27 Homem Não Fuma 28 Homem Não Fuma 29 Homem Fuma 30 Homem Fuma 31 Mulhe
r Não Fuma 32 Homem Não Fuma 33 Mulher Não Fuma 34 Mulher Não Fuma 35 Mulher Não Fuma 36 H
omem Fuma 37 Homem Não Fuma 38 Homem Fuma 39 Homem Não Fuma 40 Homem Não Fuma
idade 31 20 28 29 21 27 21 42 22 28 21 22 43 19 23 41 24 21 21 20 38 20 33 25 37
22 32 22 22 19 21 26 32 24 28 34 35 21 21 30
ritmoa 62 78 64 96 66 96 68 72 88 90 82 74 66 68 92 68 76 86 88 66 70 80 76 78 7
6 80 68 70 68 70 86 72 84 72 80 62 74 90 66 70
ritmod 126 154 128 155 128 265 120 138 160 144 140 134 148 142 134 112 158 146 1
56 132 122 136 148 148 136 158 116 120 126 144 144 126 136 142 138 132 116 138 1
42 132
arroz.sav
caso variedad azoto 1 IR8 0 kg/ha 2 IR8 0 kg/ha 3 IR8 0 kg/ha 4 IR8 0 kg/ha 5 IR
8 60 kg/ha 6 IR8 60 kg/ha 7 IR8 60 kg/ha 8 IR8 60 kg/ha 9 IR8 90 kg/ha 10 IR8 90
kg/ha 11 IR8 90 kg/ha 12 IR8 90 kg/ha 13 IR8 120 kg/ha 14 IR8 120 kg/ha 15 IR8
120 kg/ha 16 IR8 120 kg/ha 17 IR8 150 kg/ha 18 IR8 150 kg/ha 19 IR8 150 kg/ha 20
IR8 150 kg/ha 21 IR5 0 kg/ha 22 IR5 0 kg/ha 23 IR5 0 kg/ha 24 IR5 0 kg/ha 25 IR
5 60 kg/ha 26 IR5 60 kg/ha 27 IR5 60 kg/ha 28 IR5 60 kg/ha 29 IR5 90 kg/ha 30 IR
5 90 kg/ha 31 IR5 90 kg/ha 32 IR5 90 kg/ha 33 IR5 120 kg/ha 34 IR5 120 kg/ha 35
IR5 120 kg/ha 36 IR5 120 kg/ha 37 IR5 150 kg/ha 38 IR5 150 kg/ha 39 IR5 150 kg/h
a 40 IR5 150 kg/ha 41 C4-63 0 kg/ha 42 C4-63 0 kg/ha 43 C4-63 0 kg/ha 44 C4-63 0
kg/ha 45 C4-63 60 kg/ha 46 C4-63 60 kg/ha 47 C4-63 60 kg/ha
repete producao 1 3852 2 2606 3 3144 4 2894 1 4788 2 4936 3 4562 4 4608 1 4576 2
4454 3 4884 4 3924 1 6034 2 5276 3 5906 4 5652 1 5874 2 5916 3 5984 4 5518 1 28
46 2 3794 3 4108 4 3444 1 4956 2 5128 3 4150 4 4990 1 5928 2 5698 3 5810 4 4308
1 5664 2 5362 3 6458 4 5474 1 5458 2 5546 3 5786 4 5932 1 4192 2 3754 3 3738 4 3
428 1 5250 2 4582 3 4896
arroz.sav
48 C4-63 49 C4-63 50 C4-63 51 C4-63 52 C4-63 53 C4-63 54 C4-63 55 C4-63 56 C4-63
57 C4-63 58 C4-63 59 C4-63 60 C4-63 60 kg/ha 90 kg/ha 90 kg/ha 90 kg/ha 90 kg/h
a 120 kg/ha 120 kg/ha 120 kg/ha 120 kg/ha 150 kg/ha 150 kg/ha 150 kg/ha 150 kg/h
a 4 1 2 3 4 1 2 3 4 1 2 3 4 4286 5822 4848 5678 4932 5888 5524 6042 4756 5864 62
64 6056 5362
catsup.sav
caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
insoluve 10,71 11,76 11,36 11,27 15,3 12,07 15,98 13,34 13,34 14,29 13,66 14,79
14,5 14,8 14,88 10,86 13,34 13,01 12,87 14,4 15,12 17,06 18,22 13,73
solidos 51 45,2 44,8 47,4 35,5 44,5 35,3 39,3 40,8 38,4 39,3 36 37,9 36,2 35,3 4
8,5 40 43 41,5 36,7 35,3 32,5 30,2 38,9

Spss Manual de Utilizacao

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Spss Manual de Utilizacao

Uploaded by

Copyright:

Available Formats

ESCOLA SUPERIOR AGRÁRIA

INSTITUTO POLITÉCNICO DE CASTELO BRANCO

You might also like