You are on page 1of 23

Introduo aos Mtodos Estatsticos para Geografia

1.1 Introduo
O estudo de fenmenos geogrficos normalmente requer a aplicao de mtodos estatsticos para produzir uma nova compreenso. As questes a seguir servem para ilustrar a grande variedade de reas nas quais a anlise estatstica tem sido aplicada a problemas geogrficos: 1. Como se d a variao dos nveis de chumbo no sangue de crianas no espao? Os nveis esto espalhados de forma aleatria pela cidade, ou existe um padro geogrfico discernvel? Como os padres esto relacionados s caractersticas da residncia e dos moradores? (Griffith et al.1998) 2. possvel descrever a difuso geogrfica da democracia que ocorreu no perodo ps Segunda Guerra Mundial como um processo contnuo ao longo do tempo, ou ela ocorreu em ondas, ou mesmo, teve breves perodos de difuso, intermitentes, que ocorreram em determinados perodos de tempo? (OLoughlih et al. 1998) 3. Quais so os efeitos do aquecimento global na distribuio geogrfica das espcies? Por exemplo, que mudanas ocorrero nos tipos e na distribuio espacial das espcies de rvores em reas especficas? (MacDonald et al. 1998) 4. Quais so os efeitos de diferentes estratgias de marketing no desempenho do produto? Por exemplo, as estratgias de marketing de massa so eficazes, apesar de localizadas mais distantes de seus mercados? (Cornish, 1997) Todos esses estudos fazem uso da anlise estatstica para chegar s suas concluses. Mtodos de anlise estatstica tm papel central no estudo de problemas geogrficos em uma pesquisa sobre artigos que tinham um foco geogrfico, Slocum (1990) descobriu que 53% desses fizeram uso de, pelo menos, um mtodo quantitativo tradicional. O papel da anlise quantitativa na geografia pode ser visto dentro de um contexto mais amplo atravs de sua ligao com o mtodo cientfico, que proporciona uma estrutura mais geral para o estudo dos problemas geogrficos.

Mtodos Estatsticos para Geografia

1.2 O mtodo cientfico


Os cientistas sociais, assim como os cientistas fsicos, geralmente fazem uso do mtodo cientfico nas suas tentativas de compreender o mundo. A Figura 1.1 ilustra esse mtodo, a partir de tentativas iniciais de organizar as ideias sobre um assunto, para a construo de uma teoria. Suponha que estamos interessados em descrever e explicar o padro espacial dos casos de cncer em uma rea metropolitana. Podemos comear registrando as incidncias recentes sobre um mapa. Tais exerccios descritivos muitas vezes levam a um resultado inesperado na Figura 1.2, podemos identificar dois grupos bastante distintos de casos. Os surpreendentes resultados gerados atravs do processo de descrio naturalmente nos levam para o prximo passo na rota para a explicao, forando-nos a gerar hipteses sobre o processo subjacente. Uma definio rigorosa do termo hiptese de uma proposio cuja verdade ou falsidade suscetvel de ser testada. Tambm podemos pensar em hipteses como possveis respostas para nossa surpresa inicial. Por exemplo, uma hiptese neste exemplo que o padro de casos de cncer est relacionado distncia das usinas de energia locais. Para testar a hiptese, precisamos de um modelo, que um dispositivo destinado a simplificar a realidade para que a relao entre as variveis possa ser melhor estudada. Enquanto a hiptese pode sugerir uma relao entre duas variveis, um modelo mais detalhado, pois sugere a natureza da relao entre as variveis. No nosso exemplo, podemos especular que o risco de cncer diminui com o aumento da distncia at uma usina de energia. Para testar esse modelo, poderamos representar graficamente

Organizar Conceito Descrio

Surpreender Hiptese

Formalizar Validar Teoria FIGURA 1.1 O mtodo cientfico. Leis Modelo

FIGURA 1.2

Distribuio dos casos de cncer.

Introduo aos Mtodos Estatsticos para Geografia

Taxa de cncer em uma subrea

Distncia da usina

FIGURA 1.3

Taxa de cncer versus distncia da usina.

as taxas de cncer para uma subrea versus a distncia que o centroide da subrea est de uma usina. Se observarmos uma curva de inclinao descendente, teremos algum subsdio para nossa hiptese (ver Figura 1.3). Os modelos so validados pela comparao de dados observados com o que se espera. Se o modelo uma boa representao da realidade, haver uma correspondncia entre os dois. Se as observaes e as expectativas so muito distantes, precisamos voltar prancheta e apresentar uma nova hiptese. Pode ser o caso, por exemplo, que o padro na Figura 1.2 deve-se simplesmente ao fato de a prpria populao estar agrupada. Se esta nova hiptese for verdadeira, ou se houver evidncia a seu favor, o padro espacial de cncer, ento, torna-se incompreensvel; uma taxa semelhante em toda a populao produz aparente aglomerao de cncer por causa da distribuio espacial da populao. Embora os modelos frequentemente sejam utilizados para entender situaes particulares, mais frequentemente ainda queremos aprender sobre o processo subjacente que levou a elas. Gostaramos de ser capazes de generalizar, a partir de um estudo, afirmaes sobre outras situaes. Uma razo para o estudo do padro espacial dos casos de cncer determinar se existe uma relao entre as taxas de cncer e as distncias a usinas especficas; um objetivo mais geral conhecer a relao entre as taxas de cncer e a distncia a qualquer usina. Uma forma de fazer tais generalizaes acumular muitas evidncias. Se fssemos repetir a nossa anlise em vrios locais pelo pas, e se os nossos resultados fossem semelhantes em todos os casos, poderamos ter descoberto uma generalizao emprica. Em um sentido estrito, as leis so, por vezes, definidas como declaraes universais de alcance ilimitado. No nosso exemplo, nossa generalizao no teria alcance ilimitado, e poderamos querer, por exemplo, limitar a nossa generalizao ou lei emprica para usinas de energia e casos de cncer no pas de interesse. Einstein chamou teorias de criaes livres da mente humana. No contexto do nosso diagrama, podemos pensar em teorias como conjuntos de generalizaes ou leis. O todo maior que a soma de suas partes no sentido que lhe d maior discernimento do que o produzido pelas generalizaes ou leis isoladas. Se, por exemplo, geramos outras leis empricas que relacionam as taxas de cncer a outros fatores, como dieta, comeamos a construir uma teoria da variao espacial nas taxas de cncer. Os mtodos estatsticos ocupam um papel central no mtodo cientfico, como retratado na Figura 1.1, pois nos permitem sugerir e testar hipteses usando modelos. Na prxima seo, vamos rever alguns importantes tipos de abordagens estatsticas na geografia.

Mtodos Estatsticos para Geografia

1.3 Abordagens exploratria e confirmatria na geografia


O mtodo cientfico nos proporciona uma abordagem estruturada para responder as questes de interesse. No cerne do mtodo est o desejo de formar e testar hipteses. Como vimos, as hipteses podem ser pensadas vagamente como respostas com potencial para as perguntas. Por exemplo, um mapa de nevasca pode sugerir a hiptese de que a distncia do local at um lago prximo pode desempenhar um papel importante na distribuio de quantidades de neve. Gegrafos usam a anlise espacial no contexto do mtodo cientfico, pelo menos, de duas maneiras distintas. Os mtodos exploratrios de anlise so usados para sugerir hipteses; mtodos confirmatrios so, como sugere o nome, usados para ajudar a confirmar as hipteses. Um mtodo de visualizao ou descrio que levou descoberta de agrupamentos na Figura 1.2 pode ser um mtodo exploratrio, enquanto um mtodo estatstico que confirmou que tal arranjo de pontos seria improvvel de ocorrer acidentalmente seria um mtodo confirmatrio. Neste livro, vamos nos concentrar principalmente nos mtodos confirmatrios. Devemos observar aqui dois pontos importantes. Primeiro, os mtodos confirmatrios nem sempre confirmam ou refutam hipteses o mundo um lugar muito complicado, e os mtodos geralmente tm limitaes importantes que impedem essa confirmao e refutao. No entanto, eles so importantes na estruturao de nosso pensamento e na escolha de uma abordagem rigorosa e cientfica para responder s perguntas. Segundo, o uso de mtodos exploratrios nos ltimos anos tem aumentado rapidamente. Isso tem ocorrido como resultado de uma combinao da disponibilidade de grandes bases de dados e de softwares sofisticados (incluindo SIG) e um reconhecimento de que os mtodos estatsticos confirmatrios so adequados em determinadas situaes e em outras, no. Ao longo deste livro, vamos manter o leitor ciente desses pontos indicando algumas das limitaes da anlise confirmatria.

1.4 Probabilidade e estatstica


1.4.1 Probabilidade
A probabilidade pode ser pensada como uma medida de incerteza, assumindo valor que varia de zero a um. Experimentos e processos muitas vezes tm vrios resultados possveis, e um resultado especfico incerto at que seja observado. Se sabemos que um resultado particular com certeza no ocorrer, diz-se que esse resultado tem probabilidade igual a zero. No outro extremo, se sabemos que um resultado vai ocorrer, diz-se que tem probabilidade igual a um. O foco principal do estudo da probabilidade o estudo das possibilidades dos vrios resultados. O quanto possvel ou provvel uma cidade ser atingida por dois furaces em uma temporada? Qual a probabilidade de um morador de determinada comunidade, que mora a 4 km de distncia de um novo supermercado, se tornar um novo cliente? As probabilidades podem ser obtidas de diferentes maneiras, que vo desde crenas subjetivas at o uso de frequncias relativas de eventos passados. Quando quiser

Introduo aos Mtodos Estatsticos para Geografia

adivinhar se uma moeda retornar cara quando lanada, voc pode optar por acreditar que a probabilidade de 0,5, ou pode efetivamente jogar a moeda inmeras vezes para determinar a proporo de vezes que o resultado cara. Se voc jogou a moeda mil vezes, e apareceu cara 623 vezes, uma estimativa da probabilidade de cara sugerida pela frequncia relativa de 623/1000 = 0,623. O estudo da probabilidade tem as suas origens, pelo menos em algum grau, nas questes de jogos de azar que surgiram no sculo 17. Em particular, nas correspondncias entre Pascal e DeMere, em 1651, interessados na maneira correta de definir um jogo de azar que teve de ser encerrado antes da sua concluso. Suponha que o primeiro jogador com trs vitrias declarado o vencedor e possa reivindicar o prmio de 64 euros. DeMere e Pascal debateram sobre como dividir os euros, dado que o jogo tinha que ser encerrado, e dado que DeMere tinha duas vitrias e Pascal tinha uma vitria. Pascal argumentou que DeMere deveria receber dois teros dos euros (2/3 de 64 42,67); Pascal receberia os restantes 21,33 euros. DeMere argumentou que eles deveriam considerar o que poderia acontecer se eles continuassem. Com probabilidade igual a , Pascal poderia ganhar a prxima rodada, e eles, ento, dividiriam o montante de dinheiro (cada um recebendo 32 euros), pois teriam chances iguais de vitria na disputa. Com probabilidade tambm igual a , DeMere poderia ganhar a prxima rodada e consequentemente o prmio total de 64 euros. Ele argumentou que sua cota era a mdia destes dois resultados (32 + 64)/2 = 48 (e no 42,67, como Pascal havia sugerido). O raciocnio de DeMere, baseado em probabilidades e possibilidades dos resultados, constitui a base da probabilidade moderna. Qual a diferena entre probabilidade e estatstica? O campo da probabilidade fornece a base matemtica para aplicaes estatsticas. Cursos anuais de probabilidade e estatstica normalmente so divididos em um curso de probabilidade no primeiro semestre e, um curso de estatstica no segundo semestre. A Probabilidade discutida nos Captulos 3 e 4; na prxima seo, descrevemos em detalhes o campo da estatstica.

1.4.2 Estatstica
Historicamente, statist era uma palavra relacionada a um poltico e statistics era o ramo das cincias polticas relacionado com a coleta, classificao e discusso dos fatos envolvidos na condio de um estado ou comunidade (Hammnond and McCullagh, 1978). Um bom exemplo deste uso que vigora at hoje o termo estatstica vital usado para descrever a coleta e tabulao de informaes dos indicadores de uma regio e os nmeros de nascimentos e mortes. McGrew e Monroe (2000) definem estatstica como a coleta, classificao, apresentao e anlise de dados numricos. Observe que essa definio contm tanto as funes histricas de coleta, classificao e apresentao, mas tambm a anlise de dados. As definies modernas tm em comum o objetivo de inferir, a partir de uma amostra, a natureza dos dados de uma populao maior do que a amostra extrada. Em geral, a estatstica subdivide-se em duas reas gerais: estatstica descritiva, usada para resumir e apresentar informaes, e isso est em consonncia com a definio mais histrica da rea, e estatstica inferencial, que como o nome indica, permite a inferncia sobre uma populao maior a partir de uma amostra.

Mtodos Estatsticos para Geografia

1.4.3 Paradoxos da probabilidade


Os seguintes paradoxos so descritos tanto por curiosidade quanto para mostrar que, embora o uso da probabilidade para responder perguntas possa levar a resultados intuitivos, necessrio cuidado ao pensar sobre resultados aparentemente no intuitivos. 1.4.3.1 Um paradoxo espacial: movimento aleatrio em vrias dimenses Este paradoxo foi retirado de Karlin e Taylor (1975). Considere uma linha numerada como na Figura 1.4, e suponha que nossa posio inicial esteja na origem. Lanamos uma moeda para determinar o nosso movimento; se for cara nos movemos para a direita, se for coroa nos movemos para a esquerda. Se jogarmos a moeda muitas vezes, certo que, em algum momento, retornaremos para a origem (implicando que, naquele momento, o nmero total de caras igual ao nmero total de coroas). Isso no deveria ser surpresa est de acordo com a nossa intuio de que os nmeros de caras e coroas observados ao lanar uma moeda deveriam ser aproximadamente iguais. Agora, considere a generalizao do experimento para duas dimenses (Figura 1.5), no qual o resultado do lanamento de duas moedas determina o movimento na grade bidimensional. Uma moeda rege o movimento na direo vertical e outra na direo horizontal (por exemplo, ir para cima e direita se as duas moedas so caras, e para baixo e esquerda, se ambas so coroas). Novamente, possvel mostrar que, embora o caminho possa vagar pelo espao bidimensional, certo que haver um retorno origem.

Coroa 4 3 2 1 0 1 2 3 4

Cara

FIGURA 1.4

Espao unidimensional para movimento aleatrio.

Cara

Coroa

Cara

Coroa

FIGURA 1.5

Espao bidimensional para caminho aleatrio.

Introduo aos Mtodos Estatsticos para Geografia

Finalmente, amplie o procedimento para trs dimenses; cada uma das trs moedas determina o movimento em uma das trs dimenses. O movimento comea na origem e continua nos pontos de uma grade dentro de um cubo. Verifica-se, agora, que um retorno origem no garantido! Ou seja, h uma probabilidade maior que zero de que o caminho aleatrio vagar para longe da origem e nunca mais voltar! Esta concluso tambm verdadeira para caminhos aleatrios em todas as dimenses maiores que trs. Este um exemplo no qual o processo de induo falha o que verdadeiro em uma e duas dimenses no pode ser generalizado para dimenses superiores. Alm disso, ele destaca o fato de que, embora a nossa intuio frequentemente seja boa, ela no perfeita. Precisamos confiar no apenas em nossa intuio sobre a probabilidade, mas em uma base terica mais consistente da teoria da probabilidade. 1.4.3.2 Um paradoxo no espacial: qualidade da torta Este paradoxo da probabilidade foi extrado da seo de Jogos Matemticos da Scientific American. Considere um indivduo que vai a um restaurante todo dia para comer um pedao de torta. O restaurante sempre tem torta de ma e de cereja, e s vezes torta de mirtilo. A qualidade das tortas avaliada numa escala de um (pssima) a seis (excelente), e a variabilidade diria da qualidade de cada uma resumida na Figura 1.6. Por exemplo, a torta de cereja ou muito boa (ela tem avaliao cinco em 49% das vezes) ou pouco saborosa (ela tem avaliao um em 51% das vezes). O cliente pretende fazer uma escolha, de modo a maximizar a proporo de vezes que escolhe a melhor torta. ( claro que a pessoa no conhece a qualidade da torta antes de solicit-la!) Inicialmente, considere a deciso enfrentada pelo cliente nos dias em que no h torta de mirtilo. As possibilidades so apresentadas na Tabela 1.1 (a melhor escolha para o dia est em negrito). As probabilidades representam as propores de vezes que determinadas combinaes das qualidades das tortas iro ocorrer. Se os clientes escolherem a torta de ma, vo escolher a melhor torta que o restaurante tem para oferecer em cerca de 62% das vezes (0,1078 + 0,1122 + 0,1122 + 0,2856 = 0,6178). Se eles optarem pela de cereja, vo escolher a melhor torta em apenas 38% das vezes (0,1078 + 0,2744 = 0,3822). A escolha clara torta de ma. Agora vamos examinar o que acontece quando o restaurante tambm tem a torta de mirtilo. As possibilidades so apresentadas na Tabela 1.2. Aqui, a torta de ma melhor

56%

100%

51%

2 3 4 6 22% Ma 22%

5 49% Mirtilo Cereja

FIGURA 1.6

Frequncia relativa da qualidade das tortas.

Mtodos Estatsticos para Geografia

em 33% das vezes (0,1078 + 0,1122 + 0,1122 = 0,3322), a de cereja melhor em cerca de 38% das vezes (0,1078 + 0,2744 = 0,3822) e a de mirtilo melhor em quase 29% das vezes (ela a melhor torta apenas nos dias em que a de ma tem avaliao dois e a de cereja, avaliao um o que ocorre 28,56% das vezes). Agora a melhor escolha a torta de cereja. Assim, temos um cenrio surreal. A estratgia tima deve ser o indivduo perguntar se tem torta de mirtilo, se no tiver, a pessoa deve escolher a torta de ma, e se tiver, a pessoa deve escolher a torta de cereja! Lembre-se de que o objetivo aqui foi o de maximizar o nmero de vezes que uma pessoa poderia escolher a melhor torta. Um objetivo mais comum, utilizado na teoria econmica, maximizar a vantagem esperada, que, neste caso, significaria fazer uma escolha para maximizar a mdia da qualidade da torta. A de ma tem uma qualidade mdia de (6 0,22) + (4 0,22) + (2 0,56) = 3,32. A torta de cereja tem uma qualidade mdia de (5 0,49) + (1 0,51) = 2,96, e a de mirtilo tem uma qualidade mdia de 3. Usando esse objetivo, deve-se escolher a de ma se eles no tm a de mirtilo (como antes); se tiverem a torta de mirtilo, deve-se ainda escolher a de ma, j que tem a melhor qualidade mdia. O objetivo do economista de maximizar leva a resultados consistentes; outros objetivos podem possivelmente levar a resultados no intuitivos. Como apontado no artigo original, o exemplo com tortas interessante, mas assume maior importncia se considerarmos as informaes na Figura 1.6 representando a eficcia de trs substncias alternativas no tratamento de uma doena.

TABELA 1.1 Qualidades e probabilidades das tortas de ma e de cereja Ma 6 6 4 4 2 2 Cereja 5 1 5 1 5 1 Probabilidade 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,56 0,49 = 0,2744 0,56 0,51 = 0,2856

TABELA 1.2 Qualidades e probabilidades das tortas de ma, de mirtilo e de cereja Ma 6 6 4 4 2 2 Mirtilo 3 3 3 3 3 3 Cereja 5 1 5 1 5 1 Probabilidade 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,56 0,49 = 0,2744 0,56 0,51 = 0,2856

Introduo aos Mtodos Estatsticos para Geografia

1.4.4 Aplicaes geogrficas de probabilidade e estatstica


Esta seo fornece exemplos de aplicaes geogrficas de probabilidade e estatstica. Os dois primeiros podem ser descritos como tradicionais, aplicaes comuns, do tipo que iremos abordar mais tarde no livro. Os outros dois so ilustrativos das formas nicas e inovadoras em que a probabilidade e a estatstica podem ser utilizadas para resolver questes geogrficas. 1.4.4.1 Agulha de Buffon e as distncias de migrao Existem pouqussimos dados coletados nos Estados Unidos sobre as distncias percorridas pelas pessoas quando mudam de endereo residencial. No entanto, esta uma medida bsica pertencente a um importante fenmeno geogrfico. Como so coletadas informaes sobre a proporo de pessoas que mudam seu municpio de residncia, isso pode ser usado, juntamente com os conceitos de probabilidade, para estimar a distncia de migrao. Comeamos com o trabalho de Buffon, um naturalista do sculo 17. Buffon tinha interesse em muitos assuntos, desde temas da botnica at a resistncia de navios no mar. Ele tambm se interessava por probabilidade e, incorporada a um anexo para o quarto volume de seu tratado de 24 volumes sobre histria natural, est a seguinte pergunta. Suponha que temos um conjunto de vrias linhas paralelas, separadas por uma distncia constante, s. Agora, lance uma agulha de comprimento L sobre o conjunto de linhas paralelas (veja Figura 1.7). Qual a probabilidade de a agulha cruzar uma linha? Claramente, esta probabilidade ser maior medida que o comprimento da agulha cresa, e a medida que a distncia entre as linhas paralelas diminua. Buffon concluiu que a probabilidade (p) de uma agulha lanada aleatoriamente cruzar as linhas era . A agulha de Buffon, na realidade, era usada, nesta poca, para estimar ; se uma agulha de comprimento conhecido jogada muitas vezes sobre um conjunto de linhas paralelas separadas por uma distncia conhecida, pode-se calcular p como a razo entre o nmero de cruzamentos e o nmero de lanamentos. O elemento desconhecido que resta na equao . Beckmann (1971), por exemplo, se refere a um Capito Fox, que passou pelo menos uma parte de seu tempo neste assunto enquanto se recuperava de ferimentos sofridos na Guerra Civil dos Estados Unidos. A agulha deve ser lanada um nmero muito grande de vezes para estimar, com um nvel de preciso razovel, o valor de , mas, infelizmente, o lanamento de agulhas nunca se desenvolveu como um passatempo popular.

s L

FIGURA 1.7

Agulha de Buffon em um conjunto de linhas paralelas.

10

Mtodos Estatsticos para Geografia

FIGURA 1.8

Agulha de Buffon em uma grade quadrada.

Laplace generalizou a questo para o caso de uma grade quadrada (veja Figura 1.8). Quando o lado de um quadrado igual a s , a probabilidade de cruzar uma linha ,assim, igual a . Vamos voltar para a conexo com a estimativa da distncia de migrao. Defina as extremidades da agulha como a origem e o destino de um migrante; queremos estimar esse comprimento desconhecido da agulha (L), que corresponde distncia de migrao. Adotaremos a hiptese de que os municpios so aproximadamente quadrados do mesmo tamanho (ou seja, um mapa da regio ficar mais ou menos como uma grade quadrada). Podemos estimar o lado de um quadrado, s, como a raiz quadrada da rea mdia dos municpios. Tambm podemos estimar p usando os dados coletados sobre a proporo de todos os migrantes que trocam de municpio de residncia, quando se mudam. Finalmente, claro que j sabemos o valor de . Podemos resolver a equao de Laplace para a distncia desconhecida de migrao:

Usando dados dos Estados Unidos, p = 0,35 e s = 33 milhas, ento, estimamos L como aproximadamente 10 milhas. Apesar da percepo de que o movimento de longa distncia talvez seja a regra, a maioria dos indivduos move uma curta distncia quando se mudam. Embora a hiptese de municpios quadrados de tamanhos iguais seja claramente irracional, o objetivo primrio de um modelo simplificar a realidade. No supomos nem afirmamos que os municpios sejam quadrados de tamanhos iguais. Poderamos ser mais exatos realizando um experimento onde jogamos agulhas de um determinado tamanho sobre um mapa dos municpios norte-americanos; tentando diferentes tamanhos de agulha, acabaremos por encontrar uma que nos fornea a probabilidade de movimento intermunicipal equivalente ao valor aproximado de p. Ns no avaliamos esta hiptese mais profundamente aqui, mas a suposio de municpios quadrados de tamanhos iguais relativamente robusta a concluso no muda muito quando a hiptese no se mantm constante. Em vez disso, essa hiptese nos permite obter uma estimativa razovel da distncia de migrao.

Introduo aos Mtodos Estatsticos para Geografia

11

TABELA 1.3 Leituras hipotticas de 10 PM (a unidade micrograma por metro cbico) Cidade A 40 38 52 35 26 Amostra mdia 38,2 Cidade B 45 41 59 34 25 Amostra mdia 40,8

1.4.4.2 Dois lugares diferentes em termos de qualidade do ar? Suponha que estamos interessados em comparar as quantidades de partculas suspensas no ar em duas cidades. Diariamente coletamos dados de 10PM (partculas de 10 micrmetros ou menores). Suponha que coletamos cinco amostras por dia na cidade A e cinco na cidade B, e essas sejam concebidas para estimar a verdadeira mdia em cada cidade. A Tabela 1.3 apresenta os resultados. A mdia amostral na cidade B claramente superior da cidade A. Mas tenha em mente que coletamos apenas uma amostra; certamente existe uma flutuao de um dia para outro, e assim a verdadeira mdia poderia ser a mesma (isto , se ns tomssemos uma grande amostra ao longo de um grande nmero de dias, as mdias poderiam ser iguais). No devemos concluir imediatamente que a cidade B tem uma mdia verdadeira da contagem de partculas suspensas no ar maior; nossos resultados poderiam ser decorrentes das flutuaes das amostragem. Em vez disso, precisamos dar ateno diferena observada entre as mdias amostrais frente diferena entre as mdias amostrais que podemos esperar, to somente, por variaes das amostragens (quando as mdias verdadeiras so iguais). Se essas diferenas so pequenas em relao diferena que se poderia esperar, mesmo quando as verdadeiras mdias so iguais, vamos aceitar a possibilidade de que as verdadeiras mdias so iguais. Por outro lado, se a diferena observada para as mdias amostrais maior do que a diferena esperada para tais flutuaes na amostragem, conclumos que as duas cidades tm diferentes nveis de quantidades de partculas. Detalhes de problemas como este (incluindo os limiares de diferena que devem ser definidos para distinguir entre aceitao e rejeio da ideia de que as mdias so iguais) so abordados no Captulo 5, que trata de questes de inferncia estatstica. 1.4.4.3 Os preos dos imveis residenciais so mais baixos nas proximidades dos aeroportos? Um importante objetivo em geografia urbana compreender a variao espacial dos preos dos imveis residenciais. Caractersticas como o tamanho do lote, a quantidade de quartos e a idade do imvel, tm uma clara influncia sobre o preo de venda. Caractersticas da vizinhana tambm podem influenciar os preos:

12

Mtodos Estatsticos para Geografia

se uma casa est situada prxima a um parque industrial ou de recreao provvel que cause um efeito evidente sobre o preo! Um aeroporto prximo poderia ter um impacto positivo sobre os preos, uma vez que a acessibilidade um aspecto desejvel. No entanto, possuir uma casa na trajetria de voo de um aeroporto pode no ser algo positivo quando o nvel de rudo levado em considerao. Poderamos tomar uma amostra de casas prximas do aeroporto em questo; tambm poderamos encontrar uma amostra de casas que no estejam prximas do aeroporto e com caractersticas similares (por exemplo, nmero semelhante de quartos, espao, tamanho do lote, etc.). Suponha que descobrimos que as casas prximas do aeroporto tm um preo mdio de venda inferior ao das casas que no esto localizadas prximas do aeroporto. Precisamos decidir se (a) a amostra reflete uma diferena verdadeira entre os preos dos imveis, baseado na localizao em relao ao aeroporto, ou (b) a diferena entre os dois locais no significativa, e a diferena amostral observada nos preos resultado de flutuaes da amostragem (tenha em mente que as nossas amostras representam uma pequena frao das casas que poderiam potencialmente ser vendidas; se ns sassemos e coletssemos mais dados, a diferena mdia de preo de venda provavelmente seria diferente). Este , novamente, um problema de estatstica inferencial, com base em um desejo de fazer uma inferncia a partir de uma amostra.Voltaremos a este problema mais tarde, e vamos discutir como um limiar crtico de diferena pode ser definido; se a diferena observada inferior a este limite, podemos tomar como concluso (b); se a diferena estiver acima do limite, temos que decidir pela opo (a). 1.4.4.4 Por que o trfego se move mais rpido na outra pista? Quase todos concordam que o trfego parece sempre andar mais rpido na outra pista. Recentemente, tem havido vrias explicaes estatsticas para esta questo. Essas explicaes incluem: (a) Redelmeier e Tibshirani (2000) criaram uma simulao em que duas faixas tinham caractersticas idnticas, em termos do nmero de veculos e de suas velocidades mdias. A nica diferena entre as duas pistas era o espaamento inicial entre os veculos. Na simulao, os veculos hipotticos poderiam acelerar quando viajavam lentamente, e poderiam desacelerar quando se aproximavam muito do veculo da frente. No surpreendentemente, enquanto se moviam rapidamente, os veculos ficavam relativamente distantes um do outro, enquanto quando se moviam lentamente, ficavam mais prximos. Como as velocidades mdias em cada pista eram semelhantes, e o nmero de carros em cada pista era idntico, cada veculo era ultrapassado pelo mesmo nmero de veculos que tinha ultrapassado. No entanto, o nmero de intervalos de tempo de um segundo em que o veculo era ultrapassado foi maior do que o nmero de intervalos em que o veculo ultrapassa outro veculo. Assim, mais tempo gasto sendo ultrapassado por outros veculos do que gasto na ultrapassagem de veculos (carros velozes esto dispersos, e so os nicos ultrapassando... voc est ultrapassando os carros lentos, que esto agrupados, de modo que no leva muito tempo para faz-lo).

Introduo aos Mtodos Estatsticos para Geografia

13

(b) Bostrom (2001) tem, superficialmente, uma simples resposta pergunta os carros da outra pista esto se movendo mais rpido! Se os carros na via rpida esto mais espalhados, a densidade de veculos ser maior na pista lenta. Agora, se voc escolher aleatoriamente um carro a qualquer momento, existe uma probabilidade relativamente elevada que ser da pista lenta, j que onde a densidade de carros maior. Assim, em qualquer dado momento, a maioria dos motoristas esto, na verdade, na pista lenta, e os carros na outra pista esto, de fato, se movendo mais rpido. (c) Dawson e Riggs (2004) observam que, se voc est viajando um pouco acima ou um pouco abaixo do limite de velocidade, e se voc observar atentamente as velocidades dos veculos que o ultrapassam assim como a velocidade dos veculos que voc est ultrapassando, haver um erro na percepo da velocidade mdia verdadeira. Em particular, os motoristas que viajam um pouco abaixo da velocidade mdia percebero o trfego de forma mais rpida do que realmente est, enquanto os motoristas que viajam um pouco acima da velocidade mdia sentiro o trfego mais lento do que ele realmente est. A razo tem a ver com a seleo de veculos cujas velocidades esto sendo observadas esta amostra ser tendenciosa porque ir incluir muitos veculos dos muito rpidos e dos muito lentos, mas poucos dos veculos indo sua prpria velocidade. Apesar de Dawson e Riggs no mencionarem isso, se a distribuio de velocidades distorcida de tal forma que mais da metade dos veculos est andando mais lentamente do que a velocidade mdia (hiptese provvel), ento, mais da metade dos veculos vai perceber o trfego mais rpido do que ele realmente est.

1.5 Mtodos descritivos e inferenciais


Uma caracterstica fundamental dos dados geogrficos que traz a necessidade de anlise estatstica que frequentemente eles podem ser considerados como uma amostra de uma populao maior. A anlise estatstica descritiva se refere ao uso de determinados mtodos que so aplicados para descrever e resumir as caractersticas da amostra, enquanto a anlise estatstica inferencial refere-se aos mtodos utilizados para inferir algo sobre a populao da amostra. Mtodos descritivos esto inseridos na classe de tcnicas exploratrias, enquanto a estatstica inferencial encontra-se na classe dos mtodos confirmatrios. Sumrios descritivos dos dados podem ser visuais (por exemplo, na forma de grficos e mapas) ou numricos; a mdia e a mediana so exemplos deste ltimo caso. Para comear a entender melhor a natureza da estatstica inferencial, suponha que lhe entregue uma moeda e pedido para determinar se ela honesta (isto , a probabilidade de ser cara a mesma probabilidade de ser coroa). Um caminho natural para coletar algumas informaes seria jogar a moeda vrias vezes. Suponha que voc joga a moeda dez vezes e observa caras em oito vezes. Um exemplo de estatstica descritiva a proporo de caras observada neste caso, 8/10 = 0,8. Entramos no domnio da estatstica inferencial quando tentamos julgar se a moeda honesta. Planejamos fazer isso inferindo se a moeda honesta, com base nos resultados da amostra. Oito caras mais do que quatro, cinco ou seis que poderiam nos deixar mais confortveis em uma declarao de que a moeda honesta, mas oito caras realmente o suficiente para dizer que a moeda no honesta?

14

Mtodos Estatsticos para Geografia

H pelo menos dois caminhos a percorrer para responder questo de saber se a moeda honesta. Uma perguntar o que aconteceria se a moeda fosse honesta, e simular uma srie de experincias idnticas s que acabamos de realizar. Ou seja, se pudssemos jogar repetidamente uma moeda honesta conhecida dez vezes e, a cada vez, registrar o nmero de caras, saberamos exatamente o quo incomum realmente era um total de oito caras. Se oito caras aparece com bastante frequncia com a moeda honesta, julgaremos a nossa moeda original como sendo honesta. Por outro lado, se oito caras um evento extremamente raro para uma moeda honesta, vamos concluir que nossa moeda original no honesta. Mantendo essa ideia, suponha que voc se prope a realizar tal experimento 100 vezes. Por exemplo, poderamos ter 100 alunos de uma turma grande, cada um lanando uma moeda, sabidamente honesta, dez vezes. Aps a organizao dos resultados, suponha que voc encontre os resultados mostrados na Tabela 1.4. Notamos que oito caras ocorreu 8% das vezes. Ainda precisamos de uma diretriz para nos dizer se o resultado observado de oito caras deve levar-nos concluso de que a moeda (ou no) honesta. A diretriz usual perguntar qual a probabilidade de o resultado ser igual ou maior do que o observado, se a nossa hiptese inicial de que possumos uma moeda honesta (chamada de hiptese nula) verdadeira. A prtica comum aceitar a hiptese nula se a probabilidade de um resultado to extremo como o que observamos for maior do que 5%. Assim, aceitaramos a hiptese nula de uma moeda honesta, se a nossa experincia tiver mostrado que oito ou mais caras no incomum e de fato tendem a ocorrer mais do que 5% das vezes. Por outro lado, vamos rejeitar a hiptese nula de que a nossa moeda original honesta se os resultados do nosso experimento indicam que oito ou mais caras, em dez, um evento raro para moedas honestas. Se as moedas honestas derem como resultado oito ou mais caras em menos de 5% das vezes, decidimos rejeitar a hiptese nula e concluimos que nossa moeda no honesta. Neste exemplo, oito ou mais caras ocorreu 12 vezes em 100, quando uma moeda honesta foi lanada dez vezes. O fato de que eventos to extremos, ou mais extremos do que o observado, ocorrero 12% das vezes com uma moeda honesta nos leva a aceitar a inferncia de que a nossa moeda original honesta. Se tivssemos observado nove caras com a nossa moeda original, teramos que julg-la desonesta, j que

TABELA 1.4 Resultados hipotticos de 100 lanamentos de 10 moedas cada Nmero de caras 0 1 2 3 4 5 6 7 8 9 10 Frequncia de ocorrncias 0 1 4 8 15 22 30 8 8 3 1

Introduo aos Mtodos Estatsticos para Geografia

15

eventos to raros ou mais raros que este (isto , quando o nmero de caras igual a 9 ou 10) ocorreram apenas quatro vezes nos 100 testes com uma moeda honesta. Observe, tambm, que o resultado observado no prova que a moeda imparcial. Ela ainda poderia ser desonesta; no h, no entanto, evidncias suficientes para apoiar a alegao. A abordagem descrita um exemplo do mtodo de Monte Carlo, e vrios exemplos da sua utilizao so dados no Captulo 10. Uma segunda maneira de responder ao problema inferencial fazer uso do fato de que este um experimento binomial; no Captulo 3, vamos aprender a usar essa abordagem.

1.6 A natureza do pensamento estatstico


A American Statistical Association (1993, citada em Mallows, 1998) observa que o pensamento estatstico : (a) a avaliao da incerteza e da variabilidade dos dados, e seu impacto na tomada de deciso, e (b) o uso do mtodo cientfico na abordagem de questes e problemas. Mallows (1998), em seu Discurso Presidencial American Statistical Association, argumenta que o pensamento estatstico no simplesmente o senso comum, nem simplesmente o mtodo cientfico. Em vez disso, ele sugere que os estatsticos deem mais ateno s questes que surgem no incio do estudo de um problema ou questo. Em particular, Mallows argumenta que os estatsticos devem: (a) avaliar quais dados so relevantes para o problema, (b) considerar como os dados relevantes podem ser obtidos, (c) esclarecer as bases de todas as hipteses, (d) expor os argumentos de todos os lados da questo, e s ento (e) formular as questes que podem ser tratadas por mtodos estatsticos. Ele tem a sensao de que os estatsticos muitas vezes confiam demais em (e), bem como na real utilizao dos mtodos que se seguem. Suas ideias servem para nos lembrar que a anlise estatstica um exerccio completo que no consiste simplesmente de ligar os nmeros a uma frmula e relatar um resultado. Em vez disso, requer uma avaliao abrangente de questes, perspectivas alternativas, dados, hipteses, anlises e interpretaes. Mallows define o pensamento estatstico como aquele que considera a relao do dado quantitativo com um problema do mundo real, muitas vezes na presena da incerteza e da variabilidade. Ele tenta tornar preciso e explcito o que os dados tm a dizer sobre o problema de interesse. Ao longo deste livro, vamos aprender vrios mtodos que so usados e implementados, mas tambm vamos aprender a interpretar os resultados e compreender suas limitaes. Muitas vezes, estudantes trabalhando com problemas geogrficos tm apenas a conscincia de que precisam da estatstica, e sua resposta procurar um especialista em estatstica em busca de conselhos sobre como comear. A primeira resposta do estatstico deveria ser dada na forma de perguntas: (1) Qual o problema? (2) Quais os dados que voc tem, e quais so as suas limitaes? (3) A anlise estatstica relevante, ou algum outro mtodo de anlise mais adequado? importante que o estudante pense primeiro sobre essas questes. Talvez uma descrio simples ser suficiente para alcanar o objetivo. Talvez alguma anlise inferencial sofisticada ser necessria. Mas, o desenrolar subsequente dos acontecimentos deve ser guiado pelos problemas significativos e pelas questes de interesse, como a restrio na

16

Mtodos Estatsticos para Geografia

disponibilidade e a qualidade dos dados. No deve ser conduzido por um sentimento de que preciso usar anlise estatstica, simplesmente por uma questo de us-la.

1.7 Consideraes especiais sobre dado espacial


Fotheringham e Rogerson (1993) classificam e discutem uma srie de problemas gerais e caractersticas associadas a problemas de anlise espacial. essencial que aqueles que trabalham com dado espacial tenham conscincia dessas questes. Apesar de todas as suas classificaes serem relevantes para a anlise estatstica espacial, as mais pertinentes so: (a) (b) (c) (d) o problema da unidade de rea modificvel; problemas de fronteira; procedimentos de amostragem espacial; a autocorrelao espacial ou dependncia espacial.

1.7.1 O problema da unidade de rea modificvel


O problema da unidade de rea modificvel se refere ao fato de os resultados das anlises estatsticas serem sensveis ao sistema de zoneamento utilizado para informar sobre os dados agregados. Muitos conjuntos de dados espaciais so agregados em zonas, e a natureza da configurao zonal pode influenciar fortemente a interpretao. O ponto inicial de uma seta representa a origem de um migrante e a extremidade representa o seu destino. O painel (a), da Figura 1.9, mostra um sistema de zoneamento e o painel (b) outro. As setas representam os fluxos migratrios dos indivduos, e eles so idnticos em cada painel. No painel (a), nenhuma migrao interzonal registrada, enquanto uma interpretao do painel (b) levaria concluso de que houve um forte movimento para o sul, desde que cinco migraes de uma zona para outra poderiam ser relatadas. Em termos mais gerais, muitas das ferramentas estatsticas descritas nos captulos seguintes produziriam resultados diferentes com a adoo de diferentes sistemas de zoneamento.

(a)

(b) FIGURA 1.9 Dois sistemas de zoneamento diferentes para dados de migrao (observao: as setas mostram a origem e o destino dos migrantes).

Introduo aos Mtodos Estatsticos para Geografia

17

O problema da unidade de rea modificvel tem dois diferentes aspectos que devem ser avaliados. O primeiro est relacionado com a colocao de limites zonais, para zonas ou sub-regies de um determinado tamanho. Se fssemos medir as taxas de mobilidade, poderamos sobrepor uma grade de clulas quadradas na rea de estudo. A grade poderia ser colocada, girada e orientada de muitas maneiras diferentes sobre a rea de estudo. O segundo aspecto refere-se escala geogrfica. Se substituirmos a grade por outra com clulas quadradas maiores, os resultados da anlise seriam diferentes. Migrantes, por exemplo, so menos propensos a cruzar clulas da grade maior do que so na grade menor. Como Fotheringham e Rogerson observam (1993), a tecnologia SIG agora facilita a anlise de dados usando sistemas alternativos de zoneamento, e deve se tornar mais rotineiro examinar a sensibilidade dos resultados para unidades de rea modificveis.

1.7.2 Problemas de fronteira


As reas de estudo so delimitadas, e importante reconhecer que os eventos fora da rea de estudo podem afetar aqueles no interior da mesma. Se estamos investigando as reas de mercado dos shopping centers em um municpio, seria um erro negligenciar a influncia de um grande shopping center situado imediatamente fora dos limites do municpio. Uma soluo delimitar uma regio ao redor da rea de estudo para incluir feies que afetam a anlise dentro da rea primria de interesse. Um exemplo do uso de tais regies em anlise do padro de pontos dado no Captulo 10. Tanto o tamanho como a forma das reas podem afetar a medio e a interpretao. Existem muitos migrantes deixando Rhode Island a cada ano, mas isso parcialmente devido ao pequeno tamanho do estado quase todo o movimento ser um passo para fora do estado! De modo semelhante, Tennessee observa mais emigrantes que outros estados com a mesma rea de territorial em parte devido sua forma retangular estreita. Isso ocorre porque os indivduos em Tennessee vivem, em mdia, mais prximos da fronteira do que os indivduos em outros estados com a mesma rea. Um movimento de determinado comprimento em uma direo aleatria , assim, mais provvel de levar um indivduo do Tennessee para fora do Estado.

1.7.3 Procedimentos de amostragem espacial


A anlise estatstica baseada em dados amostrais. Geralmente, supe-se que as observaes da amostra so colhidas aleatoriamente de alguma grande populao de interesse. Se estamos interessados na localizao de pontos de amostragem para coleta de dados sobre vegetao ou solo, por exemplo, existem muitas maneiras de se fazer isso. Pode-se escolher as coordenadas x e y de forma aleatria; isto conhecido como uma amostra aleatria simples. Outra alternativa seria escolher uma amostra espacial estratificada, certificando-se de que escolhemos um nmero predeterminado de observaes de cada uma das vrias sub-regies, com uma amostragem aleatria simples dentro das sub-regies. Mtodos alternativos de amostragem so discutidos em mais detalhes na Seo 5.7.

18

Mtodos Estatsticos para Geografia

1.7.4 Autocorrelao espacial


A autocorrelao espacial refere-se relao entre o valor de uma varivel em um ponto no espao e o valor dessa mesma varivel em uma localidade prxima. O comportamento quanto ao modo de viagem dos moradores de uma casa provavelmente est relacionado ao comportamento dos residentes em casas prximas, pois ambas as famlias tm acessibilidades semelhantes para outros locais. Assim, as observaes de duas famlias, provavelmente, no so independentes, apesar da exigncia de independncia estatstica para a anlise estatstica padro. Autocorrelao espacial (ou dependncia espacial) pode, portanto, causar srios efeitos sobre a anlise estatstica e, portanto, conduzir a interpretaes erradas. Isto tratado mais detalhadamente nos Captulos 5 e 10.

1.8 A estrutura do livro


O Captulo 2 trata de mtodos de estatstica descritiva so estudadas as abordagens visual e numrica para descrio de dados. Os Captulos 3 e 4 fornecem o importante embasamento sobre probabilidade que facilita a compreenso da estatstica inferencial. A inferncia sobre uma populao a partir de uma amostra feita, pela primeira vez, usando a amostra para fazer estimativas das caractersticas da populao. Por exemplo, uma amostra de indivduos pode resultar em dados sobre o rendimento; a mdia amostral fornece uma estimativa da renda mdia desconhecida de toda a populao em estudo. O Captulo 5 fornece detalhes sobre como essas estimativas da amostra podem ser utilizadas tanto para construir intervalos de confiana que contm o valor verdadeiro da populao com uma probabilidade desejada, quanto para testar hipteses formalmente sobre os valores da populao. O captulo tambm contm detalhes sobre a natureza da amostragem e a escolha do tamanho adequado de uma amostra. O Captulo 5 apresenta descries de testes de hipteses elaborados para determinar se concebvel que duas populaes possuam as mesmas caractersticas. Por exemplo, o teste da diferena das mdias de duas amostras trata sobre a possibilidade de duas amostras terem vindo de populaes que apresentam mdias idnticas (este objetivo foi ilustrado nos exemplos das Sees 1.4.4.2 e 1.4.4.3). O Captulo 6 trata do mtodo de anlise da varincia, que amplia esses testes de duas amostras para o caso de mais de duas amostras. Por exemplo, dados sobre o comportamento de deslocamento (por exemplo, a distncia percorrida at um equipamento pblico, como parques e bibliotecas) podem estar disponveis para cinco diferentes regies geogrficas, e pode ser de interesse testar a hiptese de que a verdadeira distncia mdia percorrida foi a mesma para todas as regies. No Captulo 7, comeamos nossa explorao de mtodos que tratam da relao entre duas ou mais variveis. O Captulo 7 introduz os mtodos de correlao, e o Captulo 8 estende esta introduo ao tema da regresso linear simples, onde uma varivel suposta dependente linearmente de outra. Regresso , provavelmente, o mtodo mais amplamente utilizado da estatstica inferencial e, no Captulo 9, feita uma abordagem adicional onde a dependncia linear de uma varivel em relao a outras variveis (ou seja, a regresso linear mltipla) tratada.

Introduo aos Mtodos Estatsticos para Geografia

19

Uma das questes bsicas enfrentadas pelos gegrafos se os dados geogrficos apresentam padres espaciais. Isso relevante por si s (quando, por exemplo, podemos perguntar se os locais de ocorrncias de crimes esto mais agrupados geograficamente do que eram no passado) e para abordar o problema fundamental da dependncia espacial dos dados geogrficos quando da realizao de testes estatsticos. Com relao a este ltimo, os testes estatsticos inferenciais quase sempre assumem que as observaes de dados so independentes; no entanto, muitas vezes este no o caso quando os dados so coletados em localizaes geogrficas. Em vez disso, os dados so, com frequncia, espacialmente dependentes o valor de uma varivel em um local provavelmente semelhante ao valor da varivel em um local prximo. Essa caracterstica dos dados geogrficos muitas vezes referida como Primeira Lei da Geografia, de Tobler. O Captulo 10 dedicado aos mtodos e testes estatsticos elaborados para determinar se os dados apresentam padres espaciais. O Captulo 11 retorna ao tpico da regresso, focalizando em como realizar anlises da dependncia de uma varivel em relao a outras, quando a dependncia espacial est presente nos dados. Finalmente, muitas vezes desejvel resumir grandes conjuntos de dados contendo um grande nmero de observaes e um grande nmero de variveis. Por exemplo, muitas vezes difcil saber por onde comear quando se utiliza dados do censo de muitas sub-regies diferentes (por exemplo, setores censitrios) para resumir a natureza de uma regio geogrfica, em parte porque so muitas variveis e muitas sub-regies diferentes. O Captulo 12 introduz a anlise fatorial e a anlise de agrupamentos como duas abordagens para a sntese dos dados. A anlise fatorial reduz o nmero original de variveis a um nmero menor de dimenses subjacentes ou de fatores, e a anlise de agrupamentos divide as observaes (ou seja, os dados de sub-regies geogrficas particulares) em categorias ou grupos. O Eplogo contm alguns pensamentos finais sobre novos rumos e aplicaes.

1.9 Bancos de dados


1.9.1 A fora do sinal de telefone celular no condado de Erie, Nova York, EUA
A fora do sinal de um telefone celular medida de acordo com a intensidade da fora do sinal (RSSI). Os valores de RSSI so negativos; sinais mais fortes tm valores que so menos negativos, e sinais mais fracos tm valores que so mais negativos. Esse banco de dados composto de 229 amostras de medies de RSSI feitas em uma regio do condado de Erie, que fica no estado de Nova York e tem Buffalo como sua maior cidade. Para mais informaes sobre RSSI, sua distribuio espacial e aplicaes na notificao de acidente para a emergncia, consulte Akella et al. (2003). Um conjunto de variveis est associado a cada medio, incluindo as coordenadas de localizao, medies topogrficas (declividade e altitude), e variveis relacionadas visibilidade e distncia da torre de celular mais prxima. As colunas de variveis so definidas como se segue: 1. nmero de identificao (ID): so sequenciais e variam de 1 a 229 2. valor de RSSI

20

Mtodos Estatsticos para Geografia

3. 4. 5. 6. 7. 8. 9.

coordenada y coordenada x declividade altitude visibilidade alcance distncia

Ao nos referirmos aos subconjuntos do banco de dados RSSI, adotaremos: 1. Subconjunto A: contm as 17 observaes que tm a coordenada x menor que 4.713.000 e coordenada y 672.500 (estas so as 17 observaes na poro do extremo sudoeste da rea de estudo). Usaremos essas observaes para realizar alguns clculos mo principalmente nos exerccios ao final de cada captulo. Os nmeros de identificao, ID, para essas 17 observaes so 65-69, 72-74, 95-98, 100-103 e 163. 2. Subconjunto B: contm as seis observaes com coordenada y superior a 677.500 e coordenada x maior que 4.720.000 (essas observaes esto no extremo da poro nordeste da rea de estudo). Usaremos essas observaes para ilustraes dentro de cada captulo. Os nmeros de identificao, ID, para essas seis observaes so 17, 18, 19, 46, 117 e 118.

1.9.2 Venda de casas em Tyne and Wear


Este um arquivo no formato SPSS constitudo de 562 casos (linhas) e 53 variveis (colunas). Os 562 casos representam casas em Tyne and Wear que foram compradas com hipotecas da Nationwide Building Society em 1991. As variveis consistem de uma mistura de informaes de identificao, de atributos da habitao e de atributos do censo das reas em que as casas esto localizadas. 1.9.2.1 Definies das variveis id um nmero de identificao. Observe que ele no varia de 1 a 562 porque alguns casos foram removidos do arquivo original devido falta de dados. easting/northing grade de referncia para a propriedade elaborada pela OS*. postcode O cdigo postal da propriedade. Voc pode us-lo no endereo www.upmystreet.com para descobrir mais informaes sobre a rea na qual a propriedade se localiza. Este site da internet tambm fornece um mapa geral da rea coberta pelo cdigo postal. Um mapa alternativo pode ser obtido em www.streetmap.co.uk. As unidades de cdigos postais fornecem um bom nvel de resoluo espacial aproximadamente 15 propriedades dividem o mesmo cdigo postal no Reino Unido. ward cdigo de seis dgitos do censo (setor)

* N. de T.: OS: Ordinance Survey: organizao do governo que faz mapas ociais detalhados da Gr-Bretanha e Irlanda do Norte.

Introduo aos Mtodos Estatsticos para Geografia

21

ward name tywr_/tywr_id district

price dprice

garage

centheat

bedrooms bathrooms dateblt prewar

interwar

postwar

sixties

newest

flr_area detached

semidet

nome do setor cdigo do setor para mapeamento 1 = Gateshead 2 = Newcastle 3 = North Tyneside 4 = South Tyneside 5 = Sunderland preo de venda da casa em (Lembre-se: valores de 1991!) varivel nominal que assume o valor: 1 se a casa est abaixo do preo mdio para o condado 2 caso contrrio uma varivel dummy que assume o valor: 1 se possui garagem 0 se no possui garagem uma varivel dummy que assume o valor: 1 se a casa tem sistema central de aquecimento completo 0 se a casa no tem ou tem apenas sistema parcial de aquecimento nmero de quartos nmero de banheiros ano em que a casa foi construda uma varivel qualitativa que assume o valor: 1 se a casa foi construda no perodo 18751914 0 caso contrrio uma varivel qualitativa que assume o valor: 1 se a casa foi construda no perodo 19151939 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19401959 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19601975 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19761991 0 caso contrrio rea construda da casa, em metros quadrados uma varivel dummy que assume o valor: 1 se a casa uma construo sem vizinho prximo 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa tem vizinho de um lado 0 caso contrrio

22

Mtodos Estatsticos para Geografia

terrace

flat

area age0_15 age16_24 age25_64 age65_ ethnic econact unempl ownocc privrent publrent nocar carshh crowdhh energy mfg Const distbn finance service sc_1/2/3/4/5 depchild multfam

uma varivel dummy que assume o valor: 1 se faz parte de um conjunto de casas conjugadas 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa parte de outra casa 0 caso contrrio rea do setor (ignorar) porcentagem da populao do setor com idade entre 015 porcentagem da populao do setor com idade entre 1624 porcentagem da populao do setor com idade entre 2564 porcentagem da populao do setor com idade maior ou igual a 65 porcentagem de populao no branca no setor porcentagem de populao economicamente ativa no setor porcentagem de populao desempregada no setor porcentagem do setor ocupada por proprietrios porcentagem de casas do setor ocupada por inquilino privado porcentagem de casas do setor ocupadas por inquilino com aluguel pago pelo governo porcentagem de casas no setor sem um carro nmero mdio de carros por casa no setor nmero mdio de casa com superlotao porcentagem da populao do setor empregada no setor de energia porcentagem da populao do setor empregada na indstria porcentagem da populao do setor empregada na construo porcentagem da populao do setor empregada no setor de distribuio porcentagem da populao do setor empregada no setor de finanas porcentagem da populao do setor empregada no setor de servios porcentagem da populao do setor nas classes sociais 1/2/3/4/5 porcentagem de famlias com filhos dependentes porcentagem de pessoas vivendo em unidades multi-familiares

Introduo aos Mtodos Estatsticos para Geografia

23

1.9.3 Dados do censo de 1990 para o condado de Erie, Nova York


Uma tabela de tamanho 235 5 foi construda da coleta (do Censo de 1990 dos Estados Unidos) e decorrente das seguintes informaes dos 235 setores censitrios do condado de Erie, Nova York (os nomes das variveis esto entre parnteses): (a) (b) (c) (d) (e) Mediana da renda familiar (medhsinc) Porcentagem de famlias chefiadas por mulheres (femaleh) Porcentagem dos graduados no ensino mdio que tm diploma profissional (educ) Porcentagem de residncias ocupadas pelo proprietrio (tenure) Porcentagem de moradores que mudaram para sua residncia atual antes de 1959 (lres)

You might also like