Professional Documents
Culture Documents
por Arantza Urkaregi Etxepare, Universidad del Pas Vasco-Euskal Herriko Unibertsitatea
Se atribuye al poltico britnico del siglo XIX Benjamn Disraeli esta famosa clasicacin de las mentiras en tres tipos: mentiras, grandes mentiras, y ... estadsticas. Mienten las estadsticas? No es una ciencia la Estadstica? Los nmeros no engaan, pero las personas que nos los presentan, a menudo, s lo hacen. Seguramente, sera ms correcta formular la frase como: "Existen medio mentirosos, mentirosos y estadsticos embaucadores". Como apunta el estadstico Stephen K. Campbell, esta continua perversin de la estadstica hace que la ciudadana "en un principio, acepte las conclusiones estadsticas sin ejercer crtica alguna, por suponer que las cifras no mienten. A veces nos desalentamos con el solo hecho de que se nos ofrezcan armaciones que empiecen "segn las estadsticas..." o "las estadsticas demuestran que ...". Pero, a veces, nos pasamos al extremo opuesto. Tendemos a creer que con las estadsticas se puede probar cualquier cosa, y por lo tanto no prueban nada. Mientras que en un momento cremos que las cifras no podan mentir, ahora se deduce que lo nico que pueden hacer es engaar. Una de las formas de engaar es omitir una parte importante de la informacin. 31
"El Estatuto de Autonoma de Andaluca ha sido aprobado con el 87 % de los votos. La abstencin super el 63 %". "Casi un 77 % de los espaoles" ha raticado la Constitucin europea. Esta segunda frase fue la armacin que realiz el presentador del Telediario al da despus del referndum europeo. "Olvid" aadir que se trataba del porcentaje sobre el nmero de votantes, y no sobre el total de la poblacin, mayoritariamente abstencionista (58.23 %). La Constitucin europea no fue aprobada por el 77 % de la ciudadana espaola, sino por el 77 % de las personas que acudieron a votar. En denitiva, slo el 32 % del censo ratic la Constitucin europea. Cuando un medio de comunicacin quiere impresionar a su audiencia con la gravedad de una situacin, suele emplear nmeros absolutos en vez de porcentajes: "50 muertos en el ltimo puente de cuatro das". Cuando un medio de comunicacin quiere impresionar a su audiencia con la gravedad Si la situacin, suele emplear nmeros absolutos en vez de muertes "50 muertos de una noticia se acompaara de las estadsticas de porcentajes:por accidente de trco, ltimo puente de cuatro das". en el observaramos que se trata de aproximadamente el mismo valor que el nmero de vctimas por accidente estadsticas en muertes porperiodo de cuatro das. Si la noticia se acompaara de las de trco de cualquier accidente de trfico, observaramos que el titular no sera noticia... Se trata valor que el se llama falacia Pero, entonces, se trata de aproximadamente el mismo de lo que nmero de vctimas por accidente de trfico en cualquier periodo de cuatro das. de "base extensa". Pero, entonces, el titular no sera noticia Se trata forma inversa. Por ejemplo, es freEsta argucia se suele emplear tambin en de lo que se llama falacia de "base extensa". cuente leer en los peridicos armaciones como: "El nmero de asesinatos en la Esta argucia se suele ciudad ha aumentado emplear% respecto al pasado ao." un 60 tambin en forma inversa. Por ejemplo, es frecuente leer en los peridicos afirmaciones como: "El nmero de asesinatos en la ciudad ha Si el periodista o el poltico nos dijeran que el ao pasado se cometieron 5 aumentado un 60% respecto al pasado ao." homicidios y ste 8, poltico nos dijeranel dato nopasado se cometieron 5la misma manera. Si el periodista o el probablemente que el ao nos impactara de homicidios y Y, 8, embargo, en dato no nos impactara ejemplos manera. stesinprobablemente el ninguno de los dos de la misma podemos decir que el periodista o elembargo, en ninguno de los dos ejemplos podemos decir que el periodistaverdad, la Y, sin poltico hayan mentido, simplemente han dicho una media o el poltico hayan mentido, simplemente han dicho una media verdad, la que les interesaba. que les interesaba. Lo mismo ocurre con noticias como la Lo mismo ocurre con noticias como la siguiente:siguiente:
Estos porcentajes, se refieren a la poblacin o a la muestra? Cuntas personas han Estos porcentajes, se reeren a la poblacin o a la muestra? Cuntas sido entrevistadas? sonas han sido entrevistadas?
per-
POBLACIN VS. MUESTRA Cuando se dan datos estadsticos, es necesario sealar si los datos recogidos se refieren a la poblacin constituyen una muestra (subconjunto de la poblacin). En el caso ms habitual de que se trate de una muestra, sta debe haber sido seleccionada de forma que sea representativa de la poblacin. Cuanto ms representativa sea la muestra, obtendremos mejores estimaciones para los parmetros de la poblacin.
33
34
Un Paseo por la Geometra Sesgos producidos por ocultamiento de informacin o falseamiento de la misma.
En el primer caso, cuando se trata de entrevistas a personas que acaban de ejercer su derecho a voto, el error se puede reducir mediante un riguroso procedimiento de sustitucin de quienes se han negado a declarar su voto. Sin embargo, el falseamiento de la respuesta tiene una solucin difcil y slo sobre la base de experiencias anteriores resulta posible aplicar ndices de correccin a los datos agregados. Las ocultaciones de informacin no son novedosas. En la Revista Estudios de Economa Aplicada, Jos Aranda Aznar1 seala algunos ejemplos del siglo XVIII: En el Censo de Floridablanca de 1787 existe una advertencia en la que el redactor duda sobre el aumento de poblacin entre 1768 y 1787, estimando que debera ser un 45 por ciento superior. Seguidamente da como razn de esta subestimacin de poblacin "el cuidado con que los pueblos y sus vecinos procuran disminuir el nmero de sus habitantes, temerosos de que tales numeraciones se dirijan a aumentar las cargas de los servicios personales o de los tributos". Lo mismo ocurre con el Censo de Frutos y Manufacturas de 1799, que pretenda nada menos que dar "una razn de los frutos y de las manufacturas que ha producido cada Provincia en dicho ao; sus precios corrientes, la cantidad que ha consumido y sobrado; la proporcin que hay entre los productos y la poblacin, y entre esta y la extensin territorial; y asimismo los lugares donde se hallan establecidos los artculos principales de la industria". Tan ambicioso proyecto no debi ser un xito por el comentario que gura en la citada publicacin: "La poca exactitud que se encuentra en muchos de los estados remitidos por los Intendentes; las faltas que se han notado en algunos, y la obscuridad que han presentado otros, hicieron demasiadamente trabajosa la redaccin de este Censo, el cual carece para ello de la certeza que desearn los que la leyeran".
2. Error de estimacin
La Estadstica no proporciona la "verdad", nos acerca a la realidad con un cierto nivel de conanza o un cierto margen de error.
1
35
Una vez seleccionada adecuadamente la muestra, hay que sealar el error que se est cometiendo al generalizar los datos obtenidos en la muestra a la poblacin. Volvamos al ejemplo de La Vanguardia 21 - 01 - 2007: "Un 76 % de los consultados por el Instituto Noxa avala el dilogo con ETA". Efectivamente, se trata de una muestra y, por tanto, se debe indicar el error de la estimacin. Sin embargo, no hemos encontrado a lo largo del artculo ninguna mencin sobre el nmero de personas encuestadas, es decir, sobre el tamao de la muestra. Y el error de estimacin est relacionado con el tamao muestral: a mayor tamao muestral, menor error de estimacin. As, si se han realizado 2.000 encuestas, con un 95 % de conanza, podemos armar que el porcentaje que avalara, en el conjunto de la poblacin espaola, el dilogo con ETA estara entre: 76 2,2 = (73,8, 78,2). Con 1.000 encuestas y el mismo nivel de conanza, este porcentaje se situara entre el 72.9 % y el 79.1 % (76 3,1).
3. El problema de la no-respuesta
Otro elemento que contribuye a falsear la informacin estadstica son los datos ausentes. En un estudio realizado por Ikerfel para el Ayuntamiento de Bilbao, se indica que se han realizado 800 entrevistas telefnicas, lo que da lugar, con un nivel de conanza del 95 %, a un error de estimacin de 3,5 %. Sin embargo, no todas las personas han respondido a todas las preguntas y, en consecuencia, el error cometido para cada pregunta ser diferente. Si consideramos la pregunta sobre seguridad ciudadana (P22), observamos que el 12 % de personas entrevistadas considera que Bilbao es una ciudad insegura. Por lo tanto, con un 95 % de conanza, la proporcin correspondiente para la poblacin estara en el intervalo 12 3,5 = (8,5, 15,5). Es decir, con un 95 % de conanza, podemos armar que entre el 8.5 % y el 15.5 % de la ciudadana bilbana considera que Bilbao es una ciudad insegura. Sin embargo, si observamos la P23 (Principales motivos que determinan la percepcin de dcit de la seguridad ciudadana), se indica que el tamao muestral es 93, el nmero de personas que no consideran a Bilbao como ciudada segura. La proporcin sealada en el grco, de un 36 % que relaciona la inseguridad con la inmigracin se reere a un 36 % de esas 93 personas, por lo que, si quisiramos generalizar esa proporcin para el conjunto de la ciudadana bilbana, el error de estimacin no sera del 3.5 %, sino del 10.2 %, por lo que esta estimacin sera mucho menos exacta; es decir, con un 95 % de conanza, la propocin de la ciudadana bilbana que relaciona la inseguridad con la inmigracin estara entre un 25.8 % y un 46.2 %, lo que nos da un error de estimacin excesivamente grande,
que entre el 8.5% y el 15.5% de la ciudadana bilbana considera que Bilbao es una ciudad insegura. Sin embargo, si observamos la P23 (Principales motivos que determinan la percepcin de dficit de la seguridad ciudadana), se indica que el tamao muestral es 93, el nmero de personas que no consideran a Bilbao como ciudada segura. La proporcin sealada en el grfico, de un 36% que relaciona la inseguridad con la inmigracin se refiere a un 36% de esas 93 personas, por lo que, si quisiramos generalizar esa proporcin para el conjunto de la ciudadana bilbana, el error de estimacin no sera del 3.5%, sino del decir, con un 95% de 3610.2%, por lo que esta estimacin sera mucho menos exacta; es Un Paseo por la Geometra confianza, la propocin de la ciudadana bilbana que relaciona la inseguridad con la inmigracin estara entre un 25.8% y un 46.2%, lo que nos da un error de estimacin excesivamente grande, dado muestral. dado el reducido tamao el reducido tamao muestral.
Fuente: Gestin de calidad 2007. Estudio sociolgico realizado por Ikerfel en enero de 2007 para el Ayuntamiento de Bilbao.
En definitiva, cuando trabajamos con datos estadsticos relativos a una muestra de la En denitiva, cuando cuenta que: poblacin, debemos tener en trabajamos con datos estadsticos relativos a una muestra
de la poblacin, debemos tener en cuenta que: La muestra debe ser representativa de la poblacin. Cuanto msdebe ser representativa deel error cometido. La muestra pequea es la muestra mayor es la poblacin.
Es necesario reducir al mximo la falta de respuesta.
Cuanto ms pequea es la muestra mayor es el error cometido. Es necesario reducir al mximo la falta de respuesta.
37
El Ayuntamiento nos indica que la proporcin media es del 68 %, es decir, han calculado la media aritmtica: x= 40 + 92 + 90 + 50 272 = = 68. 4 4
Es cierta esta armacin? Primera cuestin: Hay el mismo nmero de trabajadores/as en estas reas? Nos proporcionan la siguiente informacin: Area no mujeres Obras y Servicios 60 Mujer y Coop. al Desarrollo 46 Accin Social 63 Urbanismo 40 Total 209 no total trabaj. 150 50 70 80 350
Cul es la proporcin media de mujeres en estas 4 reas? x= 209 = 59, 71. 350
Es decir, hay que calcular la media ponderada de las proporciones de cada rea, siendo los pesos el nmero de trabajadores/as de cada rea. Pero no siempre es adecuado resumir un conjunto de datos mediante la media, sea sta aritmtica o ponderada. La media aritmtica
n k
x1 + x2 + + xn = x= n
xi
i=1
xi fi =
i=1
es representativa cuando los datos no estn muy dispersos, pero no lo es cuando la dispersin es grande, debido a que los valores extremos tienen mucha inuencia en la media. Cuando tenemos un grupo de datos dispersos, el estadstico que mejor representa a ese conjunto de datos es la mediana: el valor que divide a ese conjunto de datos ordenado en dos partes iguales. n F(Me) = f (X Me) = . 2 El anlisis de la estructura salarial es un ejemplo en el que el salario medio no es representativo de dicha estructura salarial.
F ( Me) = f ( X Me) =
n 2
El anlisis de la estructura salarial es un ejemplo en el que el salario medio no es representativo de dicha estructura salarial. La representacin del salario neto en base a los datos Paseola Encuesta de estructura 38 Un de por la Geometra salarial realizada por el INE en 2002 nos proporciona el siguiente grfico, en el que La representacin del salario as en base a existencia Encuesta pocos salarios muy observamos las diferencias por sexo, neto como lalos datos de lade unos de estructura salarial realizada por el INE en 2002 nos proporciona el las mujeres). en altos respecto al conjunto (mayores en los hombres que en siguiente grco, Estos salarios altos van a el que observamos las diferencias por sexo, as como la existencia dehora de representar la tener una gran influencia en la media, por lo que, a la unos pocos salarios muy altos respecto al conjunto (mayores en los hombres que en las muestructura salarial, el salarios altos van atendencia central ms adecuado eslo que, jeres). Estos estadstico de tener una gran inuencia en la media, por la mediana y no la media: a la hora de representar la estructura salarial, el estadstico de tendencia central
ms adecuado es la mediana y no la media:
4000,00 55 3500,00
Salario neto
1500,00
1000,00
500,00
Hombres
Mujeres
Sexo
Cuando describimos un conjunto de estandar: mediante la media, el estadstico de datos dispersin asociado es la desviacin dispersin asociado es la desviacin estandar:
s=
1 2 1 1 k fi(xi x) . n i=1
Mientras que cuando utilizamos la mediana, Q estadstico de dispersin asociado es el el . RI = Q3 1 rango intercuartlico:
Si comparamos estos estadsticos para el salario neto diferenciados para homRI = tabla: bres y mujeres, obtenemos la siguiente Q3 Q1
Si comparamos estos estadsticos para el salario neto diferenciados para hombres y mujeres, obtenemos la siguiente tabla:
Salario neto Hombres Mujeres Hombres nd. Mujeres Hombres a Mujeres Hombres erc. Mujeres
39
Si analizamos la distribucin de la renta personal y la poblacin de la CAV con 18 y renta personal de la poblacin de la CAV con 18 de ms una en 2001 Si con altos la distribucin de la renta con altos la poblacin de la CAV obtenemos valores una de valores mbin aos distribucin analizamostambin de la distribucin personalpoblacin deextremos, 18 y Si analizamos la distribucin extremos, personal de la renta la CAV con como se observacon el grfico: en 18 y ms aos en 2001 obtenemos tambin una distribucin con altos valores
120000
120000
ms aos en 2001 obtenemos tambin una distribucin con altos valores extremos, extremos, como se observa como se observa en el grfico: en el grco:
120000
100000
120000 100000
37
38 36
34
38 36 37 32 35 33 29
38 100000
120000
36 37 34 32 35 33 29
38 36 37 34 32 31 26 27 23 25 21 24 19 22 20 17 15 13 18 16 14 12 35 33 29
34 35 32 80000
100000
80000
30 28 29
33 31 27 25
37
38
36 31
26
80000
100000
31 26
34 35 32 30 28 29 33 31
28 30
28 30 27 23 25 21 24 19
60000
60000
80000
26 24
60000
60000
40000
40000
23 21 22 20 19
27 23 25 27 21 24 19 22 20 18 16 14 12
60000
80000
28 30
22 20
26 24 23 21 22 20 19
25
17 15 13
40000
17 15
40000
18 16 14 12
40000
13
20000
20000
20000
20000
20000
Hombres
Hombres
Mujeres
Mujeres
la renta anual en laRenta se recogen en la Desv. Stand Mediana Rango Intercuartlico CAV siguiente Los estadsticos correspondientes a la renta anual en la CAV se recogen en la siguiente Media Los estadsticos correspondientes a la renta anual en la CAV se recogen en la siguiente tabla: Global 12.526,19 14.166,41 9.520,47 18.750,00
tabla:
Rango 16.500,00 Rango 15.508,00 Desv. Stand Renta Hombres 17.467,75 Stand Mediana Mediana Media Desv. 15.525,63 Rango Intercuartlico Intercuartlico Renta 7.882,16 Media 10.852,92 Desv. Stand Mediana Mujeres 3.750,00 9.750,00 Intercuartlico 14.166,41 Global 9.520,47 12.526,19 18.750,0014.166,41 9.520,47 18.750,0018.750,00 12.526,19 Global Segn los datos de la tabla, el 14.166,41 hombres empleados de la EAE tiene 50 % de los 9.520,47 15.525,63 Hombres Hombres 16.500,00 17.467,75 17.467,75 15.525,63 16.500,00 15.508,0015.525,63 16.500,00 15.508,0015.508,00 de la EAE tiene una renta menor de 3.750 euros. Sin embargo, si utilizamos la
una renta menor de 16.500 euros, mientras que el 50 % de las mujeres empleadas media, se obtiene que la renta media de las mujeres sera de 7.882 euros, frente
10.852,92 Mujeres 17.467,75 euros7.882,16 3.750,00 Mujeres 9.750,00 10.852,92 10.852,92 desviaciones tpicas son muy grandes, 7.882,16 3.750,00 3.750,00 9.750,00 9.750,00 a los de los hombres. Las
incluso mayores que las medias correspondientes, lo que nos indica una gran dispersin, por lo que deberamos utilizar la mediana de la renta como estadstico ms datos de EAE el una de las de los hombres empleados de lala tabla,conjuntode los hombrestanto a niveldetiene una renta funSegn larepresentativo deltiene hombres rentas, empleados global, como en Segn los datos de lostabla, el 50% de los50% rentaempleados de la EAE la EAE tiene una renta ue el 50% de menor de 16.500 euros, mientras que el 50% de las mujeres empleadas de la EAE tiene las cin del sexo. mujeres empleadas de la EAE tiene
menor de 16.500 euros, mientras que el 50% de las mujeres empleadas de la EAE tiene n embargo, si utilizamos laeuros. Sin embargo, si la una de 3.750 media, se euros. Sin embargo, si utilizamos se obtiene obtiene una renta menor renta menor de 3.750 obtiene que utilizamos la media,la media, se que la que la e 7.882 euros, frente a de 17.467,757.882 de 7.882 euros, frente a los 17.467,75 los los renta media renta media los las mujereseuros euros, frente a los 17.467,75 euros deeuros de los de las mujeres sera de sera hombres. Las mayores son muymedias son muy grandes, incluso desviaciones tpicas grandes, incluso mayores mayores medias medias que las son muy grandes, incluso que las que las hombres. Las desviaciones tpicas correspondientes, lo deberamos utilizar una gran dispersin, por lo indica nos gran una gran dispersin, por lo que deberamos correspondientes, lo que nosque que una indicadispersin, por lo que deberamos utilizar utilizar la mediana del stico ms representativode la renta como estadstico ms representativo del conjunto de las rentas, la mediana de la renta comoconjunto de msrentas, estadstico las representativo del conjunto de las rentas, n del sexo. tanto a nivel global, como en funcin del sexo. tanto a nivel global, como en funcin del sexo.
40
5. A modo de conclusin
La aplicacin de la estadstica en diferentes campos de la ciencia se ha ido incrementando a medida que se ha extendido la utilizacin de los ordenadores y se han A MODO DE CONCLUSIN popularizado los paquetes estadsticos. La aplicacin de la estadstica en diferentes campos de la ciencia se ha ido Esta amplia utilizacin de la Estadstica tiene elementos positivos, pero tamincrementando a medida que se ha extendido la utilizacin de los ordenadores y se han bin negativos: paquetes estadsticos.introducir los datos y tratarlos con un paquete popularizado los no es suciente estadstico para realizarde la Estadstica tiene elementos positivos, pero tambin Esta amplia utilizacin un buen anlisis estadstico. Consejos es suficiente introducir los datos tratarlos con un negativos: no para una buena utilizacin deyla Estadstica: paquete estadstico
para realizar un buen anlisis estadstico.
Denir claramente los objetivos de la investigacin. Seleccionar la muestra de forma aleatoria, asegurando la representatividad Definir claramente los objetivos de la investigacin. deSeleccionar la muestra de forma aleatoria, asegurando la representatividad de la la misma y su adecuacin a los objetivos.
misma su Depurarylos adecuacin a los objetivos. datos y reducir al mximo los valores ausentes. Depurar los datos y reducir al mximo los valores ausentes.
Estudiar los datosyyseleccionar los estadsticos ms adecuados para resumir la resumir seleccionar los estadsticos ms adecuados para Estudiar los datos la informacin de los datos. informacin de los datos.
Presentar los datos indicando la metodologa seguida, el nivel de el Presentar los datos indicando la metodologa seguida, el nivel de confianza y conanza error que se puede cometer. y el error que se puede cometer.
La siguiente noticia aparecida en El Correo, incluyendo la ficha tcnica, es un buen La siguiente noticia aparecida en El Correo, incluyendo la cha tcnica, es un ejemplo de cmo se deben presentar los resultados estadsticos:
EL CORREO, 21 01 2007 El PP aventaja al PSOE en 2,4 puntos en intencin de voto tras el atentado de ETA Los populares obtendran entre 163 y 169 escaos frente a los 148 actuales, mientras los socialistas pasaran de 164 a entre 142 y 152
El Partido Popular, con una expectativa de voto del 40,7%, aventaja en 2,4 puntos al PSOE (38,3%), segn los resultados del sondeo elaborado por el Instituto Metra-Seis, en exclusiva para la agencia Colpisa, sobre una muestra de 2.000 entrevistas realizadas entre los das 7 y 15 del presente mes de enero. La traduccin en escaos de estos porcentajes de votos permitira al PP obtener entre 163 y 169 escaos frente a los 148 actuales, mientras que el PSOE pasara de 164 diputados a 142-152. Los populares parecen as romper, de manera coyuntural, el recurrente empate tcnico que le viene atribuyendo la mayora de las encuestas publicadas durante los ltimos meses. El resto de partidos con representacin parlamentaria apenas sufrira alteracin, aunque CiU e IU se muestran al alza y podran obtener 1 2 diputados ms de los 10 y 5, respectivamente, que tienen ahora; el PNV mantendra sus 7 escaos, mientras ERC figura a la baja, con la posible prdida de uno de sus 8 escaos. La encuesta pone de manifiesto que el PP mantiene unos ndices de fidelidad entre sus votantes ms elevados de los que es capaz de conservar el PSOE. O, dicho de otro modo, la proporcin de votantes fieles al PP -haga lo que haga- es significativamente ms alta que la de los fieles del PSOE.
FICHA TCNICA
Universo y mbito: Personas de 18 y ms aos, censadas en cualquier municipio del territorio nacional. Muestra: 2.000 personas, con afijacin proporcional a la poblacin residente en las distintas comunidades y niveles de hbitat. Error estadstico de los datos obtenidos: +- 2,2%, en el caso ms desfavorable, con una probabilidad del 95,5% (2 sigma). Tipo de encuesta: Telefnica, asistida por ordenador (CATI). Sistema de seleccin: Aleatoria de telfonos/hogares y cumplimentacin de cuotas cruzadas de gnero y edad en los hogares seleccionados.
41
La Estadstica nos permite acercarnos a la realidad, pero siempre que actuemos en base a unas determinadas reglas que posibiliten la aplicacin de las tcnicas estadsticas, sin falsear esa realidad. Yale y Kendal (1954) denen la Estadstica como la Ciencia que trata de la recoleccin, clasicacin y presentacin de los hechos sujetos a una apreciacin numrica como base a la explicacin, descripcin y comparacin de los fenmenos. Espero que esta charla os haya servido para no creer a ciegas en armaciones que dicen basarse en la Estadstica, pero al mismo tiempo os haya animado a profundizar en la estadstica, para utilizarla y hacerlo de una manera adecuada.
Arantza Urkaregi Etxepare Universidad del Pas VascoEuskal Herriko Unibertsitatea Zientzia eta Teknologia Fakultatea Matematika Aplikatua, Estatistika eta I.O. Saila Sarriena auzoa, z/g, 48940 Leioa e-mail: arantza.urkaregi@ehu.es