You are on page 1of 18

Charles Wheelan

Estatstica
O que , para que serve, como funciona

Traduo:
George Schlesinger

Reviso tcnica:
Jairo Nicolau
Professor titular do Departamento
de Cincias Polticas da UFRJ
Para Katrina

Ttulo original:
Naked Statistics
(Stripping the Dread from the Data)

Traduo autorizada da primeira edio americana,


publicada em 203 por W.W. Norton & Company,
de Nova York, Estados Unidos

Copyright 203, Charles Wheelan

Copyright da edio brasileira 206:


Jorge Zahar Editor Ltda.
rua Marqus de S. Vicente 99 o | 2245-04 Rio de Janeiro, rj
tel(2) 2529-4750|fax(2) 2529-4787
editora@zahar.com.br|www.zahar.com.br

Todos os direitos reservados.


A reproduo no autorizada desta publicao, no todo
ou em parte, constitui violao de direitos autorais. (Lei 9.60/98)

Grafia atualizada respeitando o novo


Acordo Ortogrfico da Lngua Portuguesa

Preparao: Rosa L. Peralta


Reviso: Carolina Rodrigues, Eduardo Monteiro
Indexao: Gabriella Russano | Capa: Estdio Inslito

cip-Brasil. Catalogao na publicao


Sindicato Nacional dos Editores de Livros, rj
Wheelan, Charles
W57e Estatstica: o que , para que serve, como funciona/Charles Wheelan; traduo
George Schlesinger. .ed. Rio de Janeiro: Zahar, 206.
il.
Traduo de: Naked statistics (stripping the dread from the data)
Apndice
Inclui bibliografia e ndice
isbn 978-85-378-52-0
. Estatstica. I. Schlesinger, George. Ii. Ttulo.
cdd: 59.5
5-26679 cdu: 59.2
Introduo
Por que eu detestava clculo, mas adoro estatstica

Nunca tive uma boa relao com a matemtica. No gosto dos nmeros
pelos nmeros em si nem me impressiono com frmulas rebuscadas que
no tm aplicao no mundo real. No ensino mdio eu desgostava parti-
cularmente de clculo pela simples razo de que ningum jamais se deu
ao trabalho de me dizer por que eu precisava aprender aquilo. Qual a
rea sob uma parbola? Quem se importa?
Um dos momentos decisivos da minha vida ocorreu durante meu l-
timo ano no colgio, no fim do primeiro semestre do curso de Advanced
Placement em clculo.* Embora estivesse concentrado para o exame final,
devo admitir que estava menos preparado do que deveria. (Eu havia sido
aceito na minha primeira opo universitria algumas semanas antes, o
que drenara a j pouca motivao que eu tinha para o curso.) Quando
comecei a fazer o exame, as questes me pareceram completamente es-
tranhas. No quero dizer que estava tendo dificuldades em resolv-las.
Quero dizer que eu nem mesmo reconhecia o que estava sendo pedido.
Para mim, no era nenhuma novidade estar despreparado para as provas,
mas, parafraseando Donald Rumsfeld, eu geralmente sabia o que no sabia.
Aquele exame parecia ainda mais incompreensvel que o normal. Folheei
ento as pginas por alguns momentos e acabei de certa maneira me ren-
dendo. Fui at a frente da classe, onde a minha professora de clculo, que

* Advanced Placement (colocao avanada) um programa institudo pelas autori-


dades educacionais americanas e canadenses oferecendo currculo e exames de nvel
universitrio para estudantes do ensino mdio. As faculdades americanas muitas vezes
destinam vagas e crditos para alunos que obtm as melhores notas nas provas desse
programa. (N.T.)

7
8 Estatstica

chamarei de Carol Smith, estava supervisionando o exame. Sra. Smith,


eu disse, no reconheo grande parte do que est sendo pedido no teste.
Basta dizer que a sra. Smith no gostava de mim muito mais do que eu
gostava dela. Sim, posso admitir agora que s vezes eu usava meus limita-
dos poderes de presidente da associao de alunos para marcar assembleias
de toda a escola justamente para que a aula da sra. Smith fosse cancelada.
Sim, meus amigos e eu chegamos a mandar flores de um admirador se-
creto para a sra. Smith durante uma aula s para podermos cair na risada
no fundo da sala enquanto ela olhava ao redor envergonhada. E, sim, eu
parei de fazer qualquer dever de casa assim que entrei na faculdade.
Logo, quando fui at a sra. Smith no meio do exame e disse que a
matria no me parecia familiar, ela foi, por assim dizer, pouco solidria.
Charles, disse em voz alta, ostensivamente para mim, mas dirigindo-
se s filas de carteiras para se certificar de que toda a classe ouvisse, se
voc tivesse estudado, a matria lhe pareceria mais familiar. Era um ponto
inquestionvel.
Ento bati em retirada de volta para minha carteira. Aps alguns mi-
nutos, Brian Arbetter, um aluno de clculo muito mais comprometido que
eu, foi at a frente da classe e cochichou algo para a sra. Smith. Ela cochi-
chou de volta e ento aconteceu uma coisa verdadeiramente extraordinria.
Classe, preciso da ateno de vocs, a sra. Smith anunciou. Parece que
eu lhes dei o exame do segundo semestre por engano. J estvamos bem
adiantados no horrio do teste, de modo que o exame inteiro precisou ser
cancelado e remarcado.
No posso descrever a minha euforia. Parti para a vida, casei-me com
uma mulher encantadora, tivemos trs filhos saudveis. Publiquei livros
e visitei lugares como o Taj Mahal e o Angkor Wat. Ainda assim, o dia em
que a minha professora de clculo levou o troco um dos cinco momentos
mais formidveis da minha vida. (O fato de eu quase ter sido reprovado
no exame final substitutivo no diminuiu em praticamente nada essa ma-
ravilhosa experincia.)
O incidente do exame de clculo conta muito do que voc precisa saber
sobre a minha relao com a matemtica mas no tudo. Curiosamente,
Introduo 9

no ensino mdio eu adorava fsica, embora a fsica se apoie fortemente


nesse mesmo clculo que eu me recusava a fazer na aula da sra. Smith.
Por qu? Porque a fsica tem um propsito claro. Lembro-me muito bem do
meu professor de fsica no colgio mostrando-nos, durante o campeonato
mundial de beisebol, como podamos usar a frmula bsica da acelerao
para estimar a que distncia fora rebatida uma bola de home run.* Isso
bacana e a mesma frmula tem muitas outras aplicaes socialmente
significativas.
Na faculdade, eu me interessei especialmente pela probabilidade, mais
uma vez porque ela me permitia compreender fascinantes situaes da
vida real. Hoje reconheo que no era a matemtica que me incomodava
nas aulas de clculo, e sim ningum nunca ter me explicado seu sentido.
Se voc no fascinado pela elegncia da frmula em si o que, sem
dvida, eu no sou , ento o clculo no passa de frmulas mecnicas e
enfadonhas, pelo menos do jeito que me foi ensinado.
Isto me leva para a estatstica (que, para os propsitos deste livro, inclui
a probabilidade). Eu adoro estatstica. Ela pode ser usada para explicar tudo,
desde testes de DNA at a idiotice de jogar na loteria. A estatstica pode nos
ajudar a descobrir os fatores associados a doenas cardacas e cncer, bem
como identificar fraudes em testes padronizados. A estatstica pode at nos
ajudar a ganhar jogos de programas de TV. Na minha infncia, havia um
programa famoso chamado Lets Make a Deal, com seu igualmente famoso
apresentador, Monty Hall. Todo dia no fim do programa, um jogador bem-
sucedido ficava junto com Monty diante de trs portas: porta n.1, porta n.2 e
porta n.3. Monty Hall explicava ao jogador que havia um prmio altamente
desejvel atrs de uma das portas algo como um carro novo e uma cabra
atrs das outras duas. A ideia era simples e direta: o jogador escolhia uma das
portas e ficava com o contedo atrs dessa porta.
Quando cada jogador ou jogadora ficava diante das portas com Monty
Hall, tinha uma chance em trs de escolher a porta que seria aberta para

* Home run: rebatida em que a bola no consegue ser reposta em jogo antes que o reba-
tedor consiga dar a volta inteira at a ltima base. (N.T.)
10 Estatstica

revelar o valioso prmio. Mas Lets Make a Deal tinha um truque, que tem
deleitado os estatsticos desde ento (e deixado todo mundo estarrecido).
Depois que o jogador escolhia uma porta, Monty Hall abria uma das duas
restantes, sempre revelando uma cabra. Digamos que o jogador tivesse
escolhido a porta n.1. Monty abria ento a porta n.3; ali estaria parada a
cabra em pleno palco. Duas portas ainda estavam fechadas, as portas n.1
e 2. Se o prmio valioso estivesse atrs da n.1, o competidor ganharia; se
estivesse atrs da n.2, perderia. Mas a que as coisas ficavam interessantes:
Monty virava-se para o jogador e perguntava se ele gostaria de mudar de
ideia e trocar de porta (da n.1 para a n.2, neste caso). Lembre-se, ambas as
portas ainda estavam fechadas, e a nica informao nova que o compe-
tidor tinha recebido era que uma cabra havia aparecido atrs de uma das
portas que ele no tinha escolhido.
Deveria ele trocar?
A resposta sim. Por qu? Leia o Captulo 5.

O paradoxo da estatstica que ela est em toda parte desde mdias


de rebatidas at pesquisas presidenciais , embora a disciplina em si seja
considerada desinteressante e inacessvel. Muitos livros e aulas de estats-
tica so excessivamente carregados de matemtica e jargo. Acredite, os
detalhes tcnicos so cruciais (e interessantes), mas apenas grego se voc
no entender intuitivamente. E voc pode nem dar importncia para a in-
tuio se no estiver convencido de que existe um motivo para aprend-la.
Cada captulo deste livro promete responder pergunta bsica que fiz (em
vo) para a minha professora de clculo no colgio: qual o objetivo disto?
Este livro sobre a intuio. breve em matemtica, equaes e gr-
ficos. Quando eles forem usados, prometo que tero um propsito claro e
elucidativo. Por outro lado, o livro prdigo em exemplos para convencer
voc de que existem excelentes motivos para aprender essa matria. A
estatstica pode ser realmente interessante, e a maior parte dela nem to difcil.
A ideia para este livro nasceu no muito tempo depois da minha infeliz
experincia na aula de clculo da sra. Smith. Ingressei na faculdade para
Introduo 11

estudar economia e polticas pblicas. Antes mesmo de o programa come-


ar, fui enviado (sem surpresa) para o campo da matemtica, junto com
a maioria dos meus colegas, para que nos preparssemos para os rigores
que viriam em seguida. Durante trs semanas, aprendemos matemtica o
dia todo numa sala de aula sem janelas, num poro (de verdade).
Num desses dias, tive algo muito prximo de uma epifania de carreira.
Nosso instrutor tentava nos ensinar as circunstncias nas quais a soma
de uma srie infinita converge para um valor finito. Acompanhe meu
raciocnio por um minuto porque esse conceito j vai ficar claro. (Neste
instante, voc provavelmente est se sentindo como eu me sentia naquela
sala sem janelas.) Uma srie infinita um padro de nmeros que continua
indefinidamente, tal como 1 + 12 + 14 + 18 As reticncias significam que
o padro continua at o infinito.
Essa a parte que estvamos tendo mais dificuldade de entender. O ins-
trutor tentava nos convencer, usando alguma prova que h muito tempo
j esqueci, de que uma srie de nmeros pode continuar para sempre e
mesmo assim pode redundar (aproximadamente) em um nmero finito.
Um dos meus colegas de classe, Will Warshauer, no aceitava nada daquilo,
apesar da impressionante prova matemtica. (Para ser honesto, eu mesmo
estava um pouco ctico.) Como pode a soma de algo infinito resultar em
alguma coisa finita?
A tive uma inspirao, ou, mais precisamente, a intuio do que o
instrutor estava tentando explicar. Virei-me para Will e expliquei-lhe o que
eu tinha acabado de elaborar na minha cabea. Imagine que voc tenha
se posicionado a dois metros de uma parede.
Agora avance metade da distncia at a parede (um metro), de modo
que voc se encontre a um metro dela.
Dessa distncia de um metro, percorra novamente metade da distncia
(12 metro). E, a partir desse 12 metro, repita o movimento (aproxime-se
de metro, ou 25 centmetros). Depois repita outra vez (mova-se 18 de
metro, ou 12,5 centmetros). E assim por diante.
Gradualmente, voc vai chegando bem perto da parede. (Por exemplo,
quando estiver a 11024 de um centmetro, voc andar metade dessa distn-
12 Estatstica

cia, ou mais 12048 de um centmetro.) Mas jamais chegar parede, porque,


por definio, cada movimento far voc percorrer apenas a metade da
distncia restante. Em outras palavras, voc chegar infinitamente perto
da parede, mas nunca a alcanar. Se medirmos a sua distncia em metros,
a srie poder ser descrita como 1 + 12 + 14 + 18
A est o insight: mesmo que voc continue se aproximando indefi-
nidamente com cada movimento percorrendo a metade da distncia
restante at a parede , a distncia total que voc ir percorrer jamais
poder ser maior que dois metros, que a distncia do seu ponto de par-
tida at a parede. Para propsitos matemticos, a distncia total que voc
percorre pode ser aproximada para dois metros, o que acaba sendo muito
conveniente para propsitos de clculo. Um matemtico diria que a soma
da srie infinita 1m + 12m + 14m + 18m converge para dois metros, que
o que o nosso instrutor estava tentando nos ensinar naquele dia.
O importante que eu convenci Will. E convenci a mim mesmo. No
consigo me recordar da matemtica que prova que a soma de uma srie
infinita pode convergir para um nmero finito, mas isso a eu sempre
posso procurar na internet. E quando o fizer, provavelmente far sentido.
Pela minha experincia, a intuio torna a matemtica e outros detalhes
tcnicos mais compreensveis mas no necessariamente o contrrio.
O objetivo deste livro tornar mais intuitivos e acessveis os concei-
tos estatsticos mais importantes, no s para aqueles de ns obrigados a
estud-los em salas de aula sem janelas, mas para qualquer pessoa interes-
sada no extraordinrio poder dos nmeros e dados.

Agora, tendo acabado de demonstrar que as ferramentas centrais da esta-


tstica so menos intuitivas e acessveis do que deveriam ser, vou fazer uma
afirmao aparentemente contraditria: a estatstica pode ser extremamente
acessvel no sentido de que qualquer um com dados e um computador pode
executar procedimentos estatsticos sofisticados usando apenas algumas te-
clas. O problema que, se os dados forem pobres, ou se as tcnicas estats-
ticas forem usadas de maneira inadequada, podemos chegar a concluses
Introduo 13

bastante enganosas e at mesmo potencialmente perigosas. Considere a


seguinte manchete hipottica de uma notcia na internet: pessoas que fazem
pequenas pausas no trabalho esto muito mais propensas a morrer de cncer.
Imagine essa manchete surgindo do nada na sua tela enquanto voc est
navegando pela web. De acordo com um estudo em tese impressionante
com 36 mil funcionrios de escritrio (um conjunto de dados enorme!), os
funcionrios que relataram sair do escritrio para pausas regulares de dez
minutos durante o dia de trabalho eram 41% mais propensos a desenvolver
cncer nos cinco anos seguintes do que os funcionrios que no saem do
escritrio durante o dia de trabalho. Obviamente precisamos agir diante
de achados como esse talvez algum tipo de campanha nacional de cons-
cientizao para impedir pausas curtas durante o servio.
Ou talvez precisemos apenas pensar com mais clareza sobre o que
muitos funcionrios fazem durante o intervalo de dez minutos. Minha
experincia profissional sugere que muitos desses funcionrios que relatam
sair do escritrio para pausas curtas se amontoam na frente da entrada
do prdio para fumar (criando uma nuvem de fumaa atravs da qual o
resto de ns precisa passar para entrar ou sair). Eu inferiria que so talvez
os cigarros, e no os intervalos breves no expediente, a causa do cncer.
Inventei esse exemplo apenas para ser particularmente absurdo, mas posso
garantir que muitas abominaes estatsticas na vida real so quase to
absurdas uma vez que forem desconstrudas.
A estatstica como uma arma de alto calibre: til quando usada de
forma correta e potencialmente desastrosa em mos erradas. Este livro
no vai fazer de voc um especialista em estatstica; ele vai lhe ensinar a
ter suficiente cuidado e respeito pela rea para que voc no cometa o
equivalente estatstico de explodir a cabea de algum com um tiro.
Este no um livro-texto, o que libertador em termos dos tpicos
que devem ser cobertos e das maneiras como podem ser explicados. O
livro foi planejado para introduzir os conceitos estatsticos de maior relevncia
para a vida cotidiana. Como os cientistas concluem que algo provoca cn-
cer? Como funcionam as pesquisas de opinio (e o que pode dar errado)?
Quem mente com estatstica, e como se faz isso? Como a sua empresa
14 Estatstica

de carto de crdito usa os dados sobre o que voc anda comprando para
prever qual a probabilidade de voc deixar de efetuar um pagamento? (
srio, eles podem fazer uma coisa dessas.)
Se voc quer entender os nmeros por trs da notcia e apreciar o
extraordinrio (e crescente) poder dos dados, este o material de que
voc precisa. No final, espero ter persuadido voc da observao feita pela
primeira vez pelo matemtico e escritor sueco Andrejs Dunkels: fcil
mentir com estatstica, mas difcil dizer a verdade sem ela.
Mas eu tenho aspiraes ainda mais arrojadas que essa. Acho que
voc poder realmente vir a gostar de estatstica. As ideias subjacentes
so fabulosamente interessantes e relevantes. A chave separar as ideias
importantes dos hermticos detalhes tcnicos que possam atrapalhar. Esta
a estatstica.
4. Correlao
Como a Netflix sabe quais filmes eu gosto?

A Netflix insiste que vou gostar do filme Bhutto, um documentrio


que oferece uma viso em profundidade e s vezes incendiria da vida
e da trgica morte da ex-primeira-ministra paquistanesa Benazir Bhutto.
Provavelmente vou gostar do filme. (Eu o adicionei ao Minha lista.) As
recomendaes da Netflix s quais assisti no passado foram incrveis. E
quando eles recomendam um filme a que j assisti, costuma ser um de
que eu realmente gostei.
Como a Netflix faz isso? Ser que existe alguma gigantesca equipe de
estagirios na sede da corporao que usou uma combinao do Google e
entrevistas com a minha famlia e amigos para determinar que eu poderia
gostar de um documentrio sobre uma ex-primeira-ministra paquistanesa?
claro que no. A Netflix simplesmente domina algumas estatsticas so-
fisticadas. A Netflix no me conhece. Mas conhece os filmes dos quais gostei
no passado (porque eu os avaliei). Usando essa informao, junto com as
avaliaes de outros clientes e um computador potente, a Netflix pode fazer
previses incrivelmente acuradas sobre as minhas preferncias.
Adiante voltarei ao algoritmo especfico da Netflix para fazer essas
escolhas; por enquanto, o ponto importante que tudo est baseado em
correlao. A Netflix recomenda filmes que so semelhantes a outros fil-
mes de que gostei; e tambm recomenda filmes que foram muito bem ava-
liados por outros clientes cujas avaliaes so similares s minhas. Bhutto
foi recomendado por causa das cinco estrelas com que avaliei dois outros
documentrios, Enron: os mais espertos da sala e Sob a nvoa da guerra.
A correlao mede o grau em que dois fenmenos esto relacionados
entre si. Por exemplo, existe uma correlao entre temperaturas de vero

82
Correlao 83

e venda de sorvete. Quando uma sobe, a outra sobe tambm. Duas vari-
veis tm correlao positiva se uma variao numa delas associada a
uma variao da outra no mesmo sentido, tal como a relao entre altura
e peso. Pessoas mais altas pesam mais (em mdia); pessoas mais baixas
pesam menos. Uma correlao negativa se uma variao positiva numa
das variveis est associada a uma variao negativa na outra, tal como a
relao entre exerccio e peso.
O aspecto traioeiro nesses tipos de associaes que nem toda obser-
vao se encaixa no padro. s vezes pessoas mais baixas pesam mais que
pessoas mais altas. s vezes pessoas que no se exercitam so mais ma-
gras que pessoas que se exercitam o tempo todo. Ainda assim, existe uma
relao significativa entre altura e peso, bem como entre exerccio e peso.
Se fssemos colocar num grfico de disperso as alturas e pesos de
uma amostra aleatria de americanos adultos, seria de esperar ver algo
do seguinte tipo:

Grfico de disperso de altura e peso


Peso (quilos)

Altura (centmetros)

Se fssemos criar um grfico de disperso entre exerccio (medido em


minutos por semana de exerccio intensivo) e peso, seria de esperar uma
correlao negativa, com os que se exercitam mais tendendo a pesar me-
nos. Mas um padro consistindo em pontos dispersos numa pgina uma
ferramenta um tanto tosca. (Se a Netflix tentasse me fazer recomendaes
de filmes com um grfico das avaliaes de milhares de filmes por milhes
de clientes, os resultados soterrariam a sede debaixo de grficos de disper-
84 Estatstica

so.) Em vez disso, o poder da correlao como ferramenta estatstica


que podemos encapsular uma associao entre duas variveis numa nica
estatstica descritiva: o coeficiente de correlao.
O coeficiente de correlao tem duas caractersticas fabulosamente
atraentes. A primeira, por razes matemticas que foram relegadas ao
apndice, trata-se de um nmero nico que varia de 1 a 1. Uma corre-
lao de 1, muitas vezes descrita como correlao perfeita, significa que
qualquer alterao em uma das variveis est associada com uma alterao
equivalente na outra varivel no mesmo sentido.
Uma correlao de 1, ou correlao negativa perfeita, significa que
toda alterao em uma varivel est associada a uma alterao equivalente
na outra varivel em sentido oposto.
Quanto mais perto de 1 ou 1 estiver a correlao, mais forte a asso-
ciao. Uma correlao de 0 (ou prxima a 0) significa que as variveis no
tm associao significativa entre si, como a relao entre o nmero do
sapato e os resultados em exames escolares.
A segunda caracterstica atraente do coeficiente de correlao que ele
no est ligado a nenhuma unidade. Podemos calcular a correlao entre
altura e peso mesmo que a altura seja medida em centmetros e o peso
em quilogramas. Podemos at calcular a correlao entre a quantidade de
televisores que alunos do ensino mdio tm em suas casas e seus resultados
em exames escolares, e eu lhes asseguro que ser positiva. (Falarei mais
sobre essa relao daqui a pouco.) O coeficiente de correlao faz uma
coisa aparentemente milagrosa: reduz uma complexa baguna de dados
medidos em unidades diferentes (como o nosso grfico de disperso de
altura e peso) numa nica e elegante estatstica descritiva.
Como?
Mantendo o hbito, pus a frmula mais comum para se calcular o
coeficiente de correlao no apndice ao final do captulo. Essa no uma
estatstica que voc vai calcular mo. (Depois de voc inserir os dados,
um programa bsico como o Microsoft Excel calcula a correlao entre as
duas variveis.) Ainda assim, intuitivamente no to difcil. A frmula
para calcular o coeficiente de correlao faz o seguinte:
Correlao 85

1. Calcula a mdia e o desvio padro para ambas as variveis. Se nos ati-


vermos ao exemplo de altura e peso, saberamos ento a altura mdia
das pessoas na amostra, o peso mdio das pessoas na amostra e o desvio
padro tanto para a altura como para o peso.
2. Converte todos os dados de modo que cada observao seja representada
por sua distncia da mdia (seu desvio padro). Acompanhe meu racioc-
nio; no to complicado. Suponha que a altura mdia na amostra seja
de 170 centmetros (com um desvio padro de dez centmetros); e que
o peso mdio seja de 75 quilos (com um desvio padro de cinco quilos).
Agora suponha que voc tenha 182 centmetros de altura e pese 71 qui-
los. Podemos dizer tambm que sua altura 1,2 desvios padres acima
da mdia em altura [(180 165) 10], e seu peso 0,8 desvios padres abaixo
da mdia, ou 0,8 para fins de frmula [(71 75) 5]. Sim, incomum algum
estar acima da mdia em altura e abaixo da mdia em peso, mas j que voc
pagou um bom dinheiro pelo livro, achei que deveria pelo menos fazer voc alto
e magro. Note que a sua altura e peso, anteriormente em centmetros e
quilos, foram reduzidos a 1,2 e 0,8. isso que faz as unidades sumirem.
3. Aqui eu libero minhas mos e deixo o computador fazer o servio. A
frmula calcula ento a relao entre altura e peso de todos os indivduos
da amostra, medidos pelas unidades-padro. Quando os indivduos da
amostra so altos, digamos 1,5 ou dois desvios padres acima da mdia,
o que tende a acontecer com seus pesos medidos em desvios padres da m-
dia para o peso? E quando os indivduos esto perto da mdia em termos
de altura, quais so seus pesos, medidos em unidades de desvio padro?

Se a distncia de uma varivel em relao mdia tende a ser ampla-


mente consistente com a distncia da outra varivel em relao mdia
(por exemplo, pessoas distantes da mdia em termos de altura, em qual-
quer um dos dois sentidos, tambm tendem a estar distantes da mdia
no mesmo sentido em termos de peso), ento seria de esperar uma forte
correlao positiva.
Se a distncia em relao mdia de uma das variveis tende a corres-
ponder a uma distncia similar em relao mdia da segunda varivel
86 Estatstica

no sentido oposto (por exemplo, pessoas bem acima da mdia em termos de


exerccio tendem a estar bem abaixo da mdia em termos de peso), ento
devemos esperar uma forte correlao negativa.
Se duas variveis no tendem a se desviar da mdia segundo nenhum
padro significativo (por exemplo, nmero do sapato e exerccio), ento
devemos esperar uma correlao pequena ou nula.
Voc sofreu intensamente nesta seo; voltaremos j, j para o alu-
guel de filmes. Antes de retornarmos Netflix, porm, vamos refletir
sobre outro aspecto da vida em que a correlao relevante: o Teste
de Raciocnio SAT. Conhecido antigamente nos Estados Unidos como
Teste de Aptido Acadmica (SAT, na sigla em ingls), trata-se de um
exame padronizado composto de trs partes matemtica, leitura crtica
e redao cujo objetivo mensurar a capacidade acadmica e predizer
o desempenho universitrio. claro que h motivo razovel para se
perguntar (especialmente aqueles que no gostam de testes padroniza-
dos): no para isso que serve o ensino mdio? Por que um exame de
quatro horas to importante quando os funcionrios encarregados
da admisso universitria tm acesso a quatro anos de notas tiradas no
ensino mdio?
A resposta para essas perguntas encontra-se camuflada nos Captulos
1 e 2. Notas do ensino mdio so uma estatstica descritiva imperfeita.
Um aluno que tira notas medocres enquanto enfrenta uma programao
difcil com aulas de matemtica e cincias pode ter maior capacidade e po-
tencial acadmico do que um aluno no mesmo colgio com notas melhores
em matrias menos desafiadoras. Obviamente h discrepncias potenciais
ainda maiores de uma escola para outra. Segundo o College Board, que
produz e administra o SAT, o teste foi criado para democratizar o acesso
ao ensino superior para todos os estudantes. Muito justo. O SAT fornece
uma medida padronizada de capacidade que pode ser facilmente compa-
rada entre todos os alunos que se candidatam ao ensino superior. Mas ser
que uma boa medida de capacidade? Se queremos um critrio que possa ser
comparado facilmente entre estudantes, poderamos tambm mandar os
Correlao 87

alunos de ltimo ano correrem um tiro de cem metros, que mais barato
e mais fcil do que administrar o SAT. O problema, obviamente, que a
performance num tiro de cem metros no tem correlao com desempe-
nho acadmico. Obter os dados fcil; s que eles simplesmente no nos
revelam nada de significativo.
Ento, qual a qualidade da informao obtida pelo SAT? Infelizmente
para futuras geraes de alunos do ensino mdio, o SAT faz um trabalho
razoavelmente bom em predizer as notas de primeiro ano de faculdade.
O College Board publica as correlaes relevantes. Numa escala de 0 (ab-
solutamente nenhuma correlao) a 1 (correlao perfeita), a correlao
entre a mdia de notas no ensino mdio e a mdia de notas no primeiro
ano da faculdade 0,56. (Para dar alguma perspectiva a esse nmero, a
correlao entre altura e peso para homens adultos nos Estados Unidos
aproximadamente 0,4.) A correlao entre o placar composto do SAT
(leitura crtica, matemtica e redao) e a mdia das notas do primeiro ano
universitrio tambm 0,56. Esse resultado parece argumentar a favor
da eliminao do SAT, pois o teste parece no dar resultados melhores na
previso do desempenho universitrio do que as notas do ensino mdio.
Na verdade, o melhor previsor de todos uma combinao do SAT e da
mdia do ensino mdio, que tem uma correlao de 0,64 com as notas do
primeiro ano universitrio. Sinto muito por ter que dizer isso.

Um ponto crucial nesta discusso geral que correlao no implica


causalidade; uma associao positiva ou negativa entre duas variveis
no significa necessariamente que uma variao numa delas esteja cau-
sando a variao na outra. Por exemplo, anteriormente aludi a uma pro-
vvel correlao positiva entre os resultados do SAT de um aluno e a
quantidade de televisores que sua famlia possui. Isso no significa que
pais superansiosos possam aumentar o placar dos testes de seus filhos
comprando cinco aparelhos de televiso adicionais para a casa. E prova-
velmente tampouco significa que assistir muito televiso seja bom para
o desempenho acadmico.
88 Estatstica

A explicao mais lgica para tal correlao seria que pais com ele-
vado nvel de educao podem se dar ao luxo de ter uma poro de
aparelhos de televiso e tendem a ter filhos cujos resultados nos testes
esto acima da mdia. Tanto televisores como resultados de testes so
provavelmente causados por uma terceira varivel, que a educao dos
pais. No posso provar a correlao entre esses aparelhos na casa e re-
sultados do SAT. (O College Board no fornece esses dados.) No entanto,
posso provar que alunos de famlias mais ricas tm em mdia escores no
SAT mais altos do que alunos de famlias menos ricas. Segundo o College
Board, alunos com renda familiar acima de US$200 mil tm um placar
mdio no SAT de matemtica de 586, em comparao com um placar
mdio de 460 para alunos com renda familiar de US$20 mil ou menos.
Ao mesmo tempo, tambm provvel que famlias com renda superior
a US$200 mil tenham mais televisores em suas (mltiplas) casas do que
famlias com renda de US$20 mil ou menos.

Comecei a escrever este captulo muitos dias atrs. Desde ento, tive a
oportunidade de assistir ao documentrio Bhutto, um filme excepcional
sobre uma famlia excepcional. As sequncias originais, que comeam
com a partilha da ndia e do Paquisto em 1947 e vo at o assassinato
de Benazir Bhutto em 2007, so extraordinrias. A voz de Bhutto muito
bem intercalada ao longo do filme na forma de discursos e entrevistas.
Em todo caso, dei cinco estrelas ao filme, que praticamente o que a
Netflix previu.
No nvel mais bsico, a Netflix est explorando o conceito de cor-
relao. Primeiro, eu avalio um conjunto de filmes. A Netflix compara
minhas avaliaes com as de outros clientes para identificar aqueles cujas
avaliaes estejam altamente correlacionadas com as minhas. Esses clien-
tes tendem a gostar dos filmes que eu gosto. Uma vez estabelecido isso, a
Netflix pode recomendar filmes que receberam alta avaliao de clientes
de mentalidade semelhante minha, mas que eu ainda no assisti.
Correlao 89

Esse o quadro geral. A metodologia real muito mais complexa.


Na verdade, a Netflix lanou em 2006 um concurso no qual membros do
pblico foram convidados a projetar um mecanismo que melhorasse as
recomendaes existentes da empresa em pelo menos 10% (o que signi-
fica que o sistema ficaria 10% mais acurado em predizer como um cliente
avaliaria um filme depois de assistir). O vencedor ganharia US$1 milho.
Todo indivduo ou equipe que se inscreveu para o concurso recebeu
dados de treinamento consistindo em mais de 100 milhes de avaliaes
de 18 mil filmes por 480 mil clientes Netflix. Um conjunto separado de 2,8
milhes de avaliaes foi retido, o que significa que a Netflix sabia como
os clientes tinham avaliado esses filmes, mas os participantes do concurso
no. Os competidores foram julgados com base na acurcia com que seus
algoritmos previam as avaliaes reais dos clientes para esses filmes retidos.
Durante trs anos, milhares de equipes de mais de 180 pases submeteram
propostas. Havia duas exigncias para participar: primeira, o vencedor
deveria licenciar o algoritmo para a Netflix; segunda, o vencedor tinha de
descrever ao mundo como voc fez e por que funciona.
Em 2009, a Netflix anunciou o vencedor: uma equipe de sete pessoas
composta de estatsticos e cientistas da computao dos Estados Unidos,
ustria, Canad e Israel. Sinto muito, no posso descrever o sistema ga-
nhador, nem mesmo no apndice. O artigo explicando o sistema tem 92
pginas.* Eu fico impressionado com a qualidade das recomendaes da
Netflix. Ainda assim, o sistema apenas uma supervariao rebuscada
do que as pessoas vm fazendo desde a aurora do cinema: achar algum
com gosto semelhante e pedir uma recomendao. Voc tende a gostar
do que eu gosto, e no gostar do que eu no gosto, ento, o que acha do
novo filme do George Clooney?
Essa a essncia da correlao.

* Voc pode l-lo em: http://www.netflixprize.com/assets/GranPrize2009_BPC_Prag-


maticTheory.pdf.