Professional Documents
Culture Documents
1.1 Introduo
O estudo de fenmenos geogrficos normalmente requer a aplicao de mtodos estatsticos para produzir uma nova compreenso. As questes a seguir servem para ilustrar a grande variedade de reas nas quais a anlise estatstica tem sido aplicada a problemas geogrficos: 1. Como se d a variao dos nveis de chumbo no sangue de crianas no espao? Os nveis esto espalhados de forma aleatria pela cidade, ou existe um padro geogrfico discernvel? Como os padres esto relacionados s caractersticas da residncia e dos moradores? (Griffith et al.1998) 2. possvel descrever a difuso geogrfica da democracia que ocorreu no perodo ps Segunda Guerra Mundial como um processo contnuo ao longo do tempo, ou ela ocorreu em ondas, ou mesmo, teve breves perodos de difuso, intermitentes, que ocorreram em determinados perodos de tempo? (OLoughlih et al. 1998) 3. Quais so os efeitos do aquecimento global na distribuio geogrfica das espcies? Por exemplo, que mudanas ocorrero nos tipos e na distribuio espacial das espcies de rvores em reas especficas? (MacDonald et al. 1998) 4. Quais so os efeitos de diferentes estratgias de marketing no desempenho do produto? Por exemplo, as estratgias de marketing de massa so eficazes, apesar de localizadas mais distantes de seus mercados? (Cornish, 1997) Todos esses estudos fazem uso da anlise estatstica para chegar s suas concluses. Mtodos de anlise estatstica tm papel central no estudo de problemas geogrficos em uma pesquisa sobre artigos que tinham um foco geogrfico, Slocum (1990) descobriu que 53% desses fizeram uso de, pelo menos, um mtodo quantitativo tradicional. O papel da anlise quantitativa na geografia pode ser visto dentro de um contexto mais amplo atravs de sua ligao com o mtodo cientfico, que proporciona uma estrutura mais geral para o estudo dos problemas geogrficos.
Surpreender Hiptese
FIGURA 1.2
Distncia da usina
FIGURA 1.3
as taxas de cncer para uma subrea versus a distncia que o centroide da subrea est de uma usina. Se observarmos uma curva de inclinao descendente, teremos algum subsdio para nossa hiptese (ver Figura 1.3). Os modelos so validados pela comparao de dados observados com o que se espera. Se o modelo uma boa representao da realidade, haver uma correspondncia entre os dois. Se as observaes e as expectativas so muito distantes, precisamos voltar prancheta e apresentar uma nova hiptese. Pode ser o caso, por exemplo, que o padro na Figura 1.2 deve-se simplesmente ao fato de a prpria populao estar agrupada. Se esta nova hiptese for verdadeira, ou se houver evidncia a seu favor, o padro espacial de cncer, ento, torna-se incompreensvel; uma taxa semelhante em toda a populao produz aparente aglomerao de cncer por causa da distribuio espacial da populao. Embora os modelos frequentemente sejam utilizados para entender situaes particulares, mais frequentemente ainda queremos aprender sobre o processo subjacente que levou a elas. Gostaramos de ser capazes de generalizar, a partir de um estudo, afirmaes sobre outras situaes. Uma razo para o estudo do padro espacial dos casos de cncer determinar se existe uma relao entre as taxas de cncer e as distncias a usinas especficas; um objetivo mais geral conhecer a relao entre as taxas de cncer e a distncia a qualquer usina. Uma forma de fazer tais generalizaes acumular muitas evidncias. Se fssemos repetir a nossa anlise em vrios locais pelo pas, e se os nossos resultados fossem semelhantes em todos os casos, poderamos ter descoberto uma generalizao emprica. Em um sentido estrito, as leis so, por vezes, definidas como declaraes universais de alcance ilimitado. No nosso exemplo, nossa generalizao no teria alcance ilimitado, e poderamos querer, por exemplo, limitar a nossa generalizao ou lei emprica para usinas de energia e casos de cncer no pas de interesse. Einstein chamou teorias de criaes livres da mente humana. No contexto do nosso diagrama, podemos pensar em teorias como conjuntos de generalizaes ou leis. O todo maior que a soma de suas partes no sentido que lhe d maior discernimento do que o produzido pelas generalizaes ou leis isoladas. Se, por exemplo, geramos outras leis empricas que relacionam as taxas de cncer a outros fatores, como dieta, comeamos a construir uma teoria da variao espacial nas taxas de cncer. Os mtodos estatsticos ocupam um papel central no mtodo cientfico, como retratado na Figura 1.1, pois nos permitem sugerir e testar hipteses usando modelos. Na prxima seo, vamos rever alguns importantes tipos de abordagens estatsticas na geografia.
adivinhar se uma moeda retornar cara quando lanada, voc pode optar por acreditar que a probabilidade de 0,5, ou pode efetivamente jogar a moeda inmeras vezes para determinar a proporo de vezes que o resultado cara. Se voc jogou a moeda mil vezes, e apareceu cara 623 vezes, uma estimativa da probabilidade de cara sugerida pela frequncia relativa de 623/1000 = 0,623. O estudo da probabilidade tem as suas origens, pelo menos em algum grau, nas questes de jogos de azar que surgiram no sculo 17. Em particular, nas correspondncias entre Pascal e DeMere, em 1651, interessados na maneira correta de definir um jogo de azar que teve de ser encerrado antes da sua concluso. Suponha que o primeiro jogador com trs vitrias declarado o vencedor e possa reivindicar o prmio de 64 euros. DeMere e Pascal debateram sobre como dividir os euros, dado que o jogo tinha que ser encerrado, e dado que DeMere tinha duas vitrias e Pascal tinha uma vitria. Pascal argumentou que DeMere deveria receber dois teros dos euros (2/3 de 64 42,67); Pascal receberia os restantes 21,33 euros. DeMere argumentou que eles deveriam considerar o que poderia acontecer se eles continuassem. Com probabilidade igual a , Pascal poderia ganhar a prxima rodada, e eles, ento, dividiriam o montante de dinheiro (cada um recebendo 32 euros), pois teriam chances iguais de vitria na disputa. Com probabilidade tambm igual a , DeMere poderia ganhar a prxima rodada e consequentemente o prmio total de 64 euros. Ele argumentou que sua cota era a mdia destes dois resultados (32 + 64)/2 = 48 (e no 42,67, como Pascal havia sugerido). O raciocnio de DeMere, baseado em probabilidades e possibilidades dos resultados, constitui a base da probabilidade moderna. Qual a diferena entre probabilidade e estatstica? O campo da probabilidade fornece a base matemtica para aplicaes estatsticas. Cursos anuais de probabilidade e estatstica normalmente so divididos em um curso de probabilidade no primeiro semestre e, um curso de estatstica no segundo semestre. A Probabilidade discutida nos Captulos 3 e 4; na prxima seo, descrevemos em detalhes o campo da estatstica.
1.4.2 Estatstica
Historicamente, statist era uma palavra relacionada a um poltico e statistics era o ramo das cincias polticas relacionado com a coleta, classificao e discusso dos fatos envolvidos na condio de um estado ou comunidade (Hammnond and McCullagh, 1978). Um bom exemplo deste uso que vigora at hoje o termo estatstica vital usado para descrever a coleta e tabulao de informaes dos indicadores de uma regio e os nmeros de nascimentos e mortes. McGrew e Monroe (2000) definem estatstica como a coleta, classificao, apresentao e anlise de dados numricos. Observe que essa definio contm tanto as funes histricas de coleta, classificao e apresentao, mas tambm a anlise de dados. As definies modernas tm em comum o objetivo de inferir, a partir de uma amostra, a natureza dos dados de uma populao maior do que a amostra extrada. Em geral, a estatstica subdivide-se em duas reas gerais: estatstica descritiva, usada para resumir e apresentar informaes, e isso est em consonncia com a definio mais histrica da rea, e estatstica inferencial, que como o nome indica, permite a inferncia sobre uma populao maior a partir de uma amostra.
Coroa 4 3 2 1 0 1 2 3 4
Cara
FIGURA 1.4
Cara
Coroa
Cara
Coroa
FIGURA 1.5
Finalmente, amplie o procedimento para trs dimenses; cada uma das trs moedas determina o movimento em uma das trs dimenses. O movimento comea na origem e continua nos pontos de uma grade dentro de um cubo. Verifica-se, agora, que um retorno origem no garantido! Ou seja, h uma probabilidade maior que zero de que o caminho aleatrio vagar para longe da origem e nunca mais voltar! Esta concluso tambm verdadeira para caminhos aleatrios em todas as dimenses maiores que trs. Este um exemplo no qual o processo de induo falha o que verdadeiro em uma e duas dimenses no pode ser generalizado para dimenses superiores. Alm disso, ele destaca o fato de que, embora a nossa intuio frequentemente seja boa, ela no perfeita. Precisamos confiar no apenas em nossa intuio sobre a probabilidade, mas em uma base terica mais consistente da teoria da probabilidade. 1.4.3.2 Um paradoxo no espacial: qualidade da torta Este paradoxo da probabilidade foi extrado da seo de Jogos Matemticos da Scientific American. Considere um indivduo que vai a um restaurante todo dia para comer um pedao de torta. O restaurante sempre tem torta de ma e de cereja, e s vezes torta de mirtilo. A qualidade das tortas avaliada numa escala de um (pssima) a seis (excelente), e a variabilidade diria da qualidade de cada uma resumida na Figura 1.6. Por exemplo, a torta de cereja ou muito boa (ela tem avaliao cinco em 49% das vezes) ou pouco saborosa (ela tem avaliao um em 51% das vezes). O cliente pretende fazer uma escolha, de modo a maximizar a proporo de vezes que escolhe a melhor torta. ( claro que a pessoa no conhece a qualidade da torta antes de solicit-la!) Inicialmente, considere a deciso enfrentada pelo cliente nos dias em que no h torta de mirtilo. As possibilidades so apresentadas na Tabela 1.1 (a melhor escolha para o dia est em negrito). As probabilidades representam as propores de vezes que determinadas combinaes das qualidades das tortas iro ocorrer. Se os clientes escolherem a torta de ma, vo escolher a melhor torta que o restaurante tem para oferecer em cerca de 62% das vezes (0,1078 + 0,1122 + 0,1122 + 0,2856 = 0,6178). Se eles optarem pela de cereja, vo escolher a melhor torta em apenas 38% das vezes (0,1078 + 0,2744 = 0,3822). A escolha clara torta de ma. Agora vamos examinar o que acontece quando o restaurante tambm tem a torta de mirtilo. As possibilidades so apresentadas na Tabela 1.2. Aqui, a torta de ma melhor
56%
100%
51%
2 3 4 6 22% Ma 22%
FIGURA 1.6
em 33% das vezes (0,1078 + 0,1122 + 0,1122 = 0,3322), a de cereja melhor em cerca de 38% das vezes (0,1078 + 0,2744 = 0,3822) e a de mirtilo melhor em quase 29% das vezes (ela a melhor torta apenas nos dias em que a de ma tem avaliao dois e a de cereja, avaliao um o que ocorre 28,56% das vezes). Agora a melhor escolha a torta de cereja. Assim, temos um cenrio surreal. A estratgia tima deve ser o indivduo perguntar se tem torta de mirtilo, se no tiver, a pessoa deve escolher a torta de ma, e se tiver, a pessoa deve escolher a torta de cereja! Lembre-se de que o objetivo aqui foi o de maximizar o nmero de vezes que uma pessoa poderia escolher a melhor torta. Um objetivo mais comum, utilizado na teoria econmica, maximizar a vantagem esperada, que, neste caso, significaria fazer uma escolha para maximizar a mdia da qualidade da torta. A de ma tem uma qualidade mdia de (6 0,22) + (4 0,22) + (2 0,56) = 3,32. A torta de cereja tem uma qualidade mdia de (5 0,49) + (1 0,51) = 2,96, e a de mirtilo tem uma qualidade mdia de 3. Usando esse objetivo, deve-se escolher a de ma se eles no tm a de mirtilo (como antes); se tiverem a torta de mirtilo, deve-se ainda escolher a de ma, j que tem a melhor qualidade mdia. O objetivo do economista de maximizar leva a resultados consistentes; outros objetivos podem possivelmente levar a resultados no intuitivos. Como apontado no artigo original, o exemplo com tortas interessante, mas assume maior importncia se considerarmos as informaes na Figura 1.6 representando a eficcia de trs substncias alternativas no tratamento de uma doena.
TABELA 1.1 Qualidades e probabilidades das tortas de ma e de cereja Ma 6 6 4 4 2 2 Cereja 5 1 5 1 5 1 Probabilidade 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,56 0,49 = 0,2744 0,56 0,51 = 0,2856
TABELA 1.2 Qualidades e probabilidades das tortas de ma, de mirtilo e de cereja Ma 6 6 4 4 2 2 Mirtilo 3 3 3 3 3 3 Cereja 5 1 5 1 5 1 Probabilidade 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,22 0,49 = 0,1078 0,22 0,51 = 0,1122 0,56 0,49 = 0,2744 0,56 0,51 = 0,2856
s L
FIGURA 1.7
10
FIGURA 1.8
Laplace generalizou a questo para o caso de uma grade quadrada (veja Figura 1.8). Quando o lado de um quadrado igual a s , a probabilidade de cruzar uma linha ,assim, igual a . Vamos voltar para a conexo com a estimativa da distncia de migrao. Defina as extremidades da agulha como a origem e o destino de um migrante; queremos estimar esse comprimento desconhecido da agulha (L), que corresponde distncia de migrao. Adotaremos a hiptese de que os municpios so aproximadamente quadrados do mesmo tamanho (ou seja, um mapa da regio ficar mais ou menos como uma grade quadrada). Podemos estimar o lado de um quadrado, s, como a raiz quadrada da rea mdia dos municpios. Tambm podemos estimar p usando os dados coletados sobre a proporo de todos os migrantes que trocam de municpio de residncia, quando se mudam. Finalmente, claro que j sabemos o valor de . Podemos resolver a equao de Laplace para a distncia desconhecida de migrao:
Usando dados dos Estados Unidos, p = 0,35 e s = 33 milhas, ento, estimamos L como aproximadamente 10 milhas. Apesar da percepo de que o movimento de longa distncia talvez seja a regra, a maioria dos indivduos move uma curta distncia quando se mudam. Embora a hiptese de municpios quadrados de tamanhos iguais seja claramente irracional, o objetivo primrio de um modelo simplificar a realidade. No supomos nem afirmamos que os municpios sejam quadrados de tamanhos iguais. Poderamos ser mais exatos realizando um experimento onde jogamos agulhas de um determinado tamanho sobre um mapa dos municpios norte-americanos; tentando diferentes tamanhos de agulha, acabaremos por encontrar uma que nos fornea a probabilidade de movimento intermunicipal equivalente ao valor aproximado de p. Ns no avaliamos esta hiptese mais profundamente aqui, mas a suposio de municpios quadrados de tamanhos iguais relativamente robusta a concluso no muda muito quando a hiptese no se mantm constante. Em vez disso, essa hiptese nos permite obter uma estimativa razovel da distncia de migrao.
11
TABELA 1.3 Leituras hipotticas de 10 PM (a unidade micrograma por metro cbico) Cidade A 40 38 52 35 26 Amostra mdia 38,2 Cidade B 45 41 59 34 25 Amostra mdia 40,8
1.4.4.2 Dois lugares diferentes em termos de qualidade do ar? Suponha que estamos interessados em comparar as quantidades de partculas suspensas no ar em duas cidades. Diariamente coletamos dados de 10PM (partculas de 10 micrmetros ou menores). Suponha que coletamos cinco amostras por dia na cidade A e cinco na cidade B, e essas sejam concebidas para estimar a verdadeira mdia em cada cidade. A Tabela 1.3 apresenta os resultados. A mdia amostral na cidade B claramente superior da cidade A. Mas tenha em mente que coletamos apenas uma amostra; certamente existe uma flutuao de um dia para outro, e assim a verdadeira mdia poderia ser a mesma (isto , se ns tomssemos uma grande amostra ao longo de um grande nmero de dias, as mdias poderiam ser iguais). No devemos concluir imediatamente que a cidade B tem uma mdia verdadeira da contagem de partculas suspensas no ar maior; nossos resultados poderiam ser decorrentes das flutuaes das amostragem. Em vez disso, precisamos dar ateno diferena observada entre as mdias amostrais frente diferena entre as mdias amostrais que podemos esperar, to somente, por variaes das amostragens (quando as mdias verdadeiras so iguais). Se essas diferenas so pequenas em relao diferena que se poderia esperar, mesmo quando as verdadeiras mdias so iguais, vamos aceitar a possibilidade de que as verdadeiras mdias so iguais. Por outro lado, se a diferena observada para as mdias amostrais maior do que a diferena esperada para tais flutuaes na amostragem, conclumos que as duas cidades tm diferentes nveis de quantidades de partculas. Detalhes de problemas como este (incluindo os limiares de diferena que devem ser definidos para distinguir entre aceitao e rejeio da ideia de que as mdias so iguais) so abordados no Captulo 5, que trata de questes de inferncia estatstica. 1.4.4.3 Os preos dos imveis residenciais so mais baixos nas proximidades dos aeroportos? Um importante objetivo em geografia urbana compreender a variao espacial dos preos dos imveis residenciais. Caractersticas como o tamanho do lote, a quantidade de quartos e a idade do imvel, tm uma clara influncia sobre o preo de venda. Caractersticas da vizinhana tambm podem influenciar os preos:
12
se uma casa est situada prxima a um parque industrial ou de recreao provvel que cause um efeito evidente sobre o preo! Um aeroporto prximo poderia ter um impacto positivo sobre os preos, uma vez que a acessibilidade um aspecto desejvel. No entanto, possuir uma casa na trajetria de voo de um aeroporto pode no ser algo positivo quando o nvel de rudo levado em considerao. Poderamos tomar uma amostra de casas prximas do aeroporto em questo; tambm poderamos encontrar uma amostra de casas que no estejam prximas do aeroporto e com caractersticas similares (por exemplo, nmero semelhante de quartos, espao, tamanho do lote, etc.). Suponha que descobrimos que as casas prximas do aeroporto tm um preo mdio de venda inferior ao das casas que no esto localizadas prximas do aeroporto. Precisamos decidir se (a) a amostra reflete uma diferena verdadeira entre os preos dos imveis, baseado na localizao em relao ao aeroporto, ou (b) a diferena entre os dois locais no significativa, e a diferena amostral observada nos preos resultado de flutuaes da amostragem (tenha em mente que as nossas amostras representam uma pequena frao das casas que poderiam potencialmente ser vendidas; se ns sassemos e coletssemos mais dados, a diferena mdia de preo de venda provavelmente seria diferente). Este , novamente, um problema de estatstica inferencial, com base em um desejo de fazer uma inferncia a partir de uma amostra.Voltaremos a este problema mais tarde, e vamos discutir como um limiar crtico de diferena pode ser definido; se a diferena observada inferior a este limite, podemos tomar como concluso (b); se a diferena estiver acima do limite, temos que decidir pela opo (a). 1.4.4.4 Por que o trfego se move mais rpido na outra pista? Quase todos concordam que o trfego parece sempre andar mais rpido na outra pista. Recentemente, tem havido vrias explicaes estatsticas para esta questo. Essas explicaes incluem: (a) Redelmeier e Tibshirani (2000) criaram uma simulao em que duas faixas tinham caractersticas idnticas, em termos do nmero de veculos e de suas velocidades mdias. A nica diferena entre as duas pistas era o espaamento inicial entre os veculos. Na simulao, os veculos hipotticos poderiam acelerar quando viajavam lentamente, e poderiam desacelerar quando se aproximavam muito do veculo da frente. No surpreendentemente, enquanto se moviam rapidamente, os veculos ficavam relativamente distantes um do outro, enquanto quando se moviam lentamente, ficavam mais prximos. Como as velocidades mdias em cada pista eram semelhantes, e o nmero de carros em cada pista era idntico, cada veculo era ultrapassado pelo mesmo nmero de veculos que tinha ultrapassado. No entanto, o nmero de intervalos de tempo de um segundo em que o veculo era ultrapassado foi maior do que o nmero de intervalos em que o veculo ultrapassa outro veculo. Assim, mais tempo gasto sendo ultrapassado por outros veculos do que gasto na ultrapassagem de veculos (carros velozes esto dispersos, e so os nicos ultrapassando... voc est ultrapassando os carros lentos, que esto agrupados, de modo que no leva muito tempo para faz-lo).
13
(b) Bostrom (2001) tem, superficialmente, uma simples resposta pergunta os carros da outra pista esto se movendo mais rpido! Se os carros na via rpida esto mais espalhados, a densidade de veculos ser maior na pista lenta. Agora, se voc escolher aleatoriamente um carro a qualquer momento, existe uma probabilidade relativamente elevada que ser da pista lenta, j que onde a densidade de carros maior. Assim, em qualquer dado momento, a maioria dos motoristas esto, na verdade, na pista lenta, e os carros na outra pista esto, de fato, se movendo mais rpido. (c) Dawson e Riggs (2004) observam que, se voc est viajando um pouco acima ou um pouco abaixo do limite de velocidade, e se voc observar atentamente as velocidades dos veculos que o ultrapassam assim como a velocidade dos veculos que voc est ultrapassando, haver um erro na percepo da velocidade mdia verdadeira. Em particular, os motoristas que viajam um pouco abaixo da velocidade mdia percebero o trfego de forma mais rpida do que realmente est, enquanto os motoristas que viajam um pouco acima da velocidade mdia sentiro o trfego mais lento do que ele realmente est. A razo tem a ver com a seleo de veculos cujas velocidades esto sendo observadas esta amostra ser tendenciosa porque ir incluir muitos veculos dos muito rpidos e dos muito lentos, mas poucos dos veculos indo sua prpria velocidade. Apesar de Dawson e Riggs no mencionarem isso, se a distribuio de velocidades distorcida de tal forma que mais da metade dos veculos est andando mais lentamente do que a velocidade mdia (hiptese provvel), ento, mais da metade dos veculos vai perceber o trfego mais rpido do que ele realmente est.
14
H pelo menos dois caminhos a percorrer para responder questo de saber se a moeda honesta. Uma perguntar o que aconteceria se a moeda fosse honesta, e simular uma srie de experincias idnticas s que acabamos de realizar. Ou seja, se pudssemos jogar repetidamente uma moeda honesta conhecida dez vezes e, a cada vez, registrar o nmero de caras, saberamos exatamente o quo incomum realmente era um total de oito caras. Se oito caras aparece com bastante frequncia com a moeda honesta, julgaremos a nossa moeda original como sendo honesta. Por outro lado, se oito caras um evento extremamente raro para uma moeda honesta, vamos concluir que nossa moeda original no honesta. Mantendo essa ideia, suponha que voc se prope a realizar tal experimento 100 vezes. Por exemplo, poderamos ter 100 alunos de uma turma grande, cada um lanando uma moeda, sabidamente honesta, dez vezes. Aps a organizao dos resultados, suponha que voc encontre os resultados mostrados na Tabela 1.4. Notamos que oito caras ocorreu 8% das vezes. Ainda precisamos de uma diretriz para nos dizer se o resultado observado de oito caras deve levar-nos concluso de que a moeda (ou no) honesta. A diretriz usual perguntar qual a probabilidade de o resultado ser igual ou maior do que o observado, se a nossa hiptese inicial de que possumos uma moeda honesta (chamada de hiptese nula) verdadeira. A prtica comum aceitar a hiptese nula se a probabilidade de um resultado to extremo como o que observamos for maior do que 5%. Assim, aceitaramos a hiptese nula de uma moeda honesta, se a nossa experincia tiver mostrado que oito ou mais caras no incomum e de fato tendem a ocorrer mais do que 5% das vezes. Por outro lado, vamos rejeitar a hiptese nula de que a nossa moeda original honesta se os resultados do nosso experimento indicam que oito ou mais caras, em dez, um evento raro para moedas honestas. Se as moedas honestas derem como resultado oito ou mais caras em menos de 5% das vezes, decidimos rejeitar a hiptese nula e concluimos que nossa moeda no honesta. Neste exemplo, oito ou mais caras ocorreu 12 vezes em 100, quando uma moeda honesta foi lanada dez vezes. O fato de que eventos to extremos, ou mais extremos do que o observado, ocorrero 12% das vezes com uma moeda honesta nos leva a aceitar a inferncia de que a nossa moeda original honesta. Se tivssemos observado nove caras com a nossa moeda original, teramos que julg-la desonesta, j que
TABELA 1.4 Resultados hipotticos de 100 lanamentos de 10 moedas cada Nmero de caras 0 1 2 3 4 5 6 7 8 9 10 Frequncia de ocorrncias 0 1 4 8 15 22 30 8 8 3 1
15
eventos to raros ou mais raros que este (isto , quando o nmero de caras igual a 9 ou 10) ocorreram apenas quatro vezes nos 100 testes com uma moeda honesta. Observe, tambm, que o resultado observado no prova que a moeda imparcial. Ela ainda poderia ser desonesta; no h, no entanto, evidncias suficientes para apoiar a alegao. A abordagem descrita um exemplo do mtodo de Monte Carlo, e vrios exemplos da sua utilizao so dados no Captulo 10. Uma segunda maneira de responder ao problema inferencial fazer uso do fato de que este um experimento binomial; no Captulo 3, vamos aprender a usar essa abordagem.
16
disponibilidade e a qualidade dos dados. No deve ser conduzido por um sentimento de que preciso usar anlise estatstica, simplesmente por uma questo de us-la.
(a)
(b) FIGURA 1.9 Dois sistemas de zoneamento diferentes para dados de migrao (observao: as setas mostram a origem e o destino dos migrantes).
17
O problema da unidade de rea modificvel tem dois diferentes aspectos que devem ser avaliados. O primeiro est relacionado com a colocao de limites zonais, para zonas ou sub-regies de um determinado tamanho. Se fssemos medir as taxas de mobilidade, poderamos sobrepor uma grade de clulas quadradas na rea de estudo. A grade poderia ser colocada, girada e orientada de muitas maneiras diferentes sobre a rea de estudo. O segundo aspecto refere-se escala geogrfica. Se substituirmos a grade por outra com clulas quadradas maiores, os resultados da anlise seriam diferentes. Migrantes, por exemplo, so menos propensos a cruzar clulas da grade maior do que so na grade menor. Como Fotheringham e Rogerson observam (1993), a tecnologia SIG agora facilita a anlise de dados usando sistemas alternativos de zoneamento, e deve se tornar mais rotineiro examinar a sensibilidade dos resultados para unidades de rea modificveis.
18
19
Uma das questes bsicas enfrentadas pelos gegrafos se os dados geogrficos apresentam padres espaciais. Isso relevante por si s (quando, por exemplo, podemos perguntar se os locais de ocorrncias de crimes esto mais agrupados geograficamente do que eram no passado) e para abordar o problema fundamental da dependncia espacial dos dados geogrficos quando da realizao de testes estatsticos. Com relao a este ltimo, os testes estatsticos inferenciais quase sempre assumem que as observaes de dados so independentes; no entanto, muitas vezes este no o caso quando os dados so coletados em localizaes geogrficas. Em vez disso, os dados so, com frequncia, espacialmente dependentes o valor de uma varivel em um local provavelmente semelhante ao valor da varivel em um local prximo. Essa caracterstica dos dados geogrficos muitas vezes referida como Primeira Lei da Geografia, de Tobler. O Captulo 10 dedicado aos mtodos e testes estatsticos elaborados para determinar se os dados apresentam padres espaciais. O Captulo 11 retorna ao tpico da regresso, focalizando em como realizar anlises da dependncia de uma varivel em relao a outras, quando a dependncia espacial est presente nos dados. Finalmente, muitas vezes desejvel resumir grandes conjuntos de dados contendo um grande nmero de observaes e um grande nmero de variveis. Por exemplo, muitas vezes difcil saber por onde comear quando se utiliza dados do censo de muitas sub-regies diferentes (por exemplo, setores censitrios) para resumir a natureza de uma regio geogrfica, em parte porque so muitas variveis e muitas sub-regies diferentes. O Captulo 12 introduz a anlise fatorial e a anlise de agrupamentos como duas abordagens para a sntese dos dados. A anlise fatorial reduz o nmero original de variveis a um nmero menor de dimenses subjacentes ou de fatores, e a anlise de agrupamentos divide as observaes (ou seja, os dados de sub-regies geogrficas particulares) em categorias ou grupos. O Eplogo contm alguns pensamentos finais sobre novos rumos e aplicaes.
20
3. 4. 5. 6. 7. 8. 9.
Ao nos referirmos aos subconjuntos do banco de dados RSSI, adotaremos: 1. Subconjunto A: contm as 17 observaes que tm a coordenada x menor que 4.713.000 e coordenada y 672.500 (estas so as 17 observaes na poro do extremo sudoeste da rea de estudo). Usaremos essas observaes para realizar alguns clculos mo principalmente nos exerccios ao final de cada captulo. Os nmeros de identificao, ID, para essas 17 observaes so 65-69, 72-74, 95-98, 100-103 e 163. 2. Subconjunto B: contm as seis observaes com coordenada y superior a 677.500 e coordenada x maior que 4.720.000 (essas observaes esto no extremo da poro nordeste da rea de estudo). Usaremos essas observaes para ilustraes dentro de cada captulo. Os nmeros de identificao, ID, para essas seis observaes so 17, 18, 19, 46, 117 e 118.
* N. de T.: OS: Ordinance Survey: organizao do governo que faz mapas ociais detalhados da Gr-Bretanha e Irlanda do Norte.
21
price dprice
garage
centheat
interwar
postwar
sixties
newest
flr_area detached
semidet
nome do setor cdigo do setor para mapeamento 1 = Gateshead 2 = Newcastle 3 = North Tyneside 4 = South Tyneside 5 = Sunderland preo de venda da casa em (Lembre-se: valores de 1991!) varivel nominal que assume o valor: 1 se a casa est abaixo do preo mdio para o condado 2 caso contrrio uma varivel dummy que assume o valor: 1 se possui garagem 0 se no possui garagem uma varivel dummy que assume o valor: 1 se a casa tem sistema central de aquecimento completo 0 se a casa no tem ou tem apenas sistema parcial de aquecimento nmero de quartos nmero de banheiros ano em que a casa foi construda uma varivel qualitativa que assume o valor: 1 se a casa foi construda no perodo 18751914 0 caso contrrio uma varivel qualitativa que assume o valor: 1 se a casa foi construda no perodo 19151939 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19401959 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19601975 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa foi construda no perodo 19761991 0 caso contrrio rea construda da casa, em metros quadrados uma varivel dummy que assume o valor: 1 se a casa uma construo sem vizinho prximo 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa tem vizinho de um lado 0 caso contrrio
22
terrace
flat
area age0_15 age16_24 age25_64 age65_ ethnic econact unempl ownocc privrent publrent nocar carshh crowdhh energy mfg Const distbn finance service sc_1/2/3/4/5 depchild multfam
uma varivel dummy que assume o valor: 1 se faz parte de um conjunto de casas conjugadas 0 caso contrrio uma varivel dummy que assume o valor: 1 se a casa parte de outra casa 0 caso contrrio rea do setor (ignorar) porcentagem da populao do setor com idade entre 015 porcentagem da populao do setor com idade entre 1624 porcentagem da populao do setor com idade entre 2564 porcentagem da populao do setor com idade maior ou igual a 65 porcentagem de populao no branca no setor porcentagem de populao economicamente ativa no setor porcentagem de populao desempregada no setor porcentagem do setor ocupada por proprietrios porcentagem de casas do setor ocupada por inquilino privado porcentagem de casas do setor ocupadas por inquilino com aluguel pago pelo governo porcentagem de casas no setor sem um carro nmero mdio de carros por casa no setor nmero mdio de casa com superlotao porcentagem da populao do setor empregada no setor de energia porcentagem da populao do setor empregada na indstria porcentagem da populao do setor empregada na construo porcentagem da populao do setor empregada no setor de distribuio porcentagem da populao do setor empregada no setor de finanas porcentagem da populao do setor empregada no setor de servios porcentagem da populao do setor nas classes sociais 1/2/3/4/5 porcentagem de famlias com filhos dependentes porcentagem de pessoas vivendo em unidades multi-familiares
23