You are on page 1of 25

este captulo...

"

Anllsls ~lvarlado
Obtencin de porcentajes para las tablas
Elaboracin y lectura de tablas
Formatos de tablas blvariadas
Introducc16n al anllsls multivarlado

continuas y discretas
entre detalles y manejabilldad
entre subgrupos
r .. t .. ~'nrias de respuestas combinadas"
manejo de los "no s"
De~;crlp(:lol:les numricas en la Investigacin
COllllpanlcl.l)nt~S

Puntos principales
Preguntas y ejercicios de repaso
Proyecto de continldad
Lecturas adicionales

Anlisis univariado
todos los anlisis de las ciencias sociales peral rubro general de anlisis multivariaa los que. por tanto. dedicaremos la mayoria
la parte 4. El trmino se refiere Simplemente al
de diversas variables al mismo tiempo. El
de la asociacin simultnea' de edad. eduy prejuicios seria un ejemplo de anlisis

Anlisis de datos
Lo que aprender en este captulo
Al terminm este captulo. llsted ser capaz de ~rectllar
diuersas manipulaciones simples pero poderosas de los
dalos con el.fln de obtener conclusiones cien/meas.

del menor espacio. la correlacin mltiple.


la regresin mltiple y el anlisis de trayectorias.
;Se aprecia mejor la lgica del anlisis multivaliado
'mediante el uso de tablas simples. llamadas tablas
de contingencia o tabulaciones cruzadas. Asi. dedicaremos este capitulo a comprender y elaborar
dichas tablas.
No es posible comprender del lodo el anlisis
multivartado sin un conocimiento slido de formas
de anlisis ms fundamentales: el anlisis unlvariado y el blvartado, Por ende. iniciamos con stos
el capitulo.

El an6liais univariado es el examen de la -dIstribucin de los casos en una sola variable cada vez. Comenzaremos con la lgica y los rormatos del anlisis de datos univariados.

Distribuciones
,El rormato ms comn para presentar datos unlvaliados es inrormar todos los casos. es decir. elaborar una 'lista del atributo de cada caso del estudio
en trminos de la variable de que se trate. Tomemos los datos de la Encuesta Social General sobre
la asistencia a las ceremonias religiosas. ASIS. La
tabla 15. I presenta los resultados de un anlisis
el) SPSS de esta variable.
Examinemos la tabla parte por part~. Plimero. si
vamos a la parte in(elior veremos que la muestra
que se va a analizar tiene en total ) 500 casos.
Tambien se aprecia que) 7 de los) E.OO entrevista'
dos contestaron "no se- (NSJ o no respondieron
(NRJ a la pregunta. Asi. nuestra evaluacin de la
asistencia de los estadounidenses a ceremonias re'
Iigiosas durante 20 aos entre 1973 Y 1993 se basar en 1483 interrogados.

349

350

Capitulo 1S

Anlisis de datos
Anlisis univariado

Tabla 15.1
Asistencia a ceremonias religiosas segn la ESG, 1973-1993
Asistencia

Frecuencia con

Categoria

que

Af.lo

CADA SEMANA

1
2
3
4
5
6
7

MS DE UNA VEZ ALA SEMANA

NS, NR

UNA VEZ 1IL Af.lo

VARIAS VECES AL

Frecuencia

224
139
i80
194
84
136
114
294

NIJNC}'.

MENOS DE UNA VEZ 1IL

Af.lo

UNA VEZ 1IL MES


OOS O TRES VECES 1IL MES
CASI CADA SEMANA

118
17

1500

Total
Casos vlidos

Figura 15.1
Grfica de barras de ASIS de la ESG, 1973.1993

el E. asiste a ceremonias religiosas


Valor

1483

Casos faltan tes

Ahora regresemos a la parle supertor de la tabla.


Veremos que 224 personas dijeron que nunca aslstian a ceremonias religiosas. Esta cifra. en cuanto
tal. no nos dice nada sobre las costumbres religiosas. SI los datos que examinamos comprendieran
3000 entrevistados en lugar de 1500, supondriamos que 448 personas habrtan dicho que nunca
van a ceremonias religiosas. NI 224 ni 448 nos dan
una idea sobre la asiduidad de la asistencia del
"estadounidense promedio' a la Iglesia.
Por analoga. supongamos que su mejor amigo
le comenta que se tom seis latas de cerveza. Advierta que su reaccin a tal declaracin depender
de que haya consumido la cerveza en un mes. una
semana. un dia o una hora. Del mismo modo. en el
, caso de la participacin religiosa necesitamos alguna base para evaluar a los 224 que nunca van a la
iglesia.
Al dividir ls 1483 que respondieron entre estos
224 tenemos 15.1 por ciento. que aparece en la tabla como 'porcentaje vlido". Asi. vemos que 15 por
ciento. o aproXimadamente un estadounidense de
, cada siete. afirman que nunca va a la Iglesia.
;
Para que no piense que la generalidad de los estadounidenses no son religiosos. revise la tabla
15.1 y localice la categoria de respuesta ms elegi. da: CADA SEMANA. con 19.8 por ciento de los entrevistados. Sumemos esta cifra al 8 por ciento que
dice que asiste a las ceremonias religiosas ms de una
! vez a la semana y descubriremos que ms de un

351'

Porcentaje

14.9
9.3
12.0
12.9
5.6
9.1
7.6
19.6
7.9
Ll

100.0
17

Porcentaje

Porcentaje

vlido

acumulado

15.1
9.4
12.1
13 .1
5.7
9.2
7.7
19.8
8.0

15.1
24.5
36.6
49.7
55.4
64.5
72.2
92.0
100.0

No aplica

Tendencia central
Adems de los informes de datos marginales. tambin se puede optar por presentar los datos en la
forma de promedio. compendiados o medidas de
tendencia central. Aqu las' opciones son la moda o
modo (el atributo ms frecuente. agrupado o no).
la media aritmtica o la mediana (el atrtbuto ceno
tral en la distrtbucin ordenada de los atributos
observados). Veamos cmo calcular las tres medidas de tendencia central de un conjunto de datos.
Supongamos que realizamos un experimento
con adolescentes como sujetos. Sus edades van de
los 13 a los 19 aos. como se indica en la tabla siguiente:
Cantidad

13
14

15
16
17
18
19

________________________________

20

10
Q)

Il.

0 ........- -....

100.0

cuarto (27.8 por Ciento) de los adultos de Estados


Unidos dice que va a la Iglesia por Lo menos una vez
.
a la semana.
A veces es ms fcil ver una distribucin de freo
cuenclas en una grfica. como en la figura 15-1.

Edad

30~------------------

"
6
8

"3

FRECUENCIA CON QUE EL E ASISTE A CEREMONIAS RELIGIOSAS

Ahora que hemos visto las edades de los 31 sujetos. cul es su edad en general. o en promedio?
Veamos tres formas de responder tal pregunta.
La medida de tendencia central ms fcil de calcular es el modo. el caso ms frecuente. Como vemos,
haY,ml:! sujetos de 16 aos (ocho) que de cualquier
otra edad. asi que la edad modal es 16. como se indica en la figura 15.2.
Esta figura tambin muestra el clculo de la media. Son tres pasos: (1) multipliqu~ cadll: edad por
el nmero de sujetos que la tienen. (2) sume los
productos de esas multiplicaciones y (3) divida el
total entre el nmero de sujetos. Como se indica en
la figura 15.2. la media de las edades en este ejem.
plo es de 15.87.
'La mediana es el valor" centra]": la mitad de los
datos estn arriba de l. la mitad abajo. Si tuviramos las edades exactas de los sujetos (por ejemplo.
17 aos y 124 das) podriamos ordenar a los sUJetos por edad y la mediana de todo el grupo seria la
edad del sujeto de en medio.
Sin embargo. no conocemos las edades exactas;
al respecto. nuestra informacin son "datqs agruP~dos': por ejemplo. en la ('alegoria de" 13 aos' s~

agrupan tres personas que no tienen exactamente


la misma edad.
La figura 15.2 ilustra ,el algorttmo para calcular
la mediana de datos agrupados. Como en total hay
31 sujetos. el sujeto "central" seria el nmero 16 si
estuvieran ord;nados por edad (15 adolescentes
serian ms jvenes y J 5 mayores). En la parte infertor de la figura 15.2' vemos que la persona ceno
tral es alguna de las ocho que tienen 16 aos. En
la imagen aumentada de este grupo. se aprecia que
el nmero 16 es el tercero de Izquierda a derecha.
Como desconocemos las edades exactas de los
sujetos de este grupo. la convencin estadistica es
Suponer que estn distribuidos de manera" uniforme. En este caso. las edades posbles de los sujetos del grupo van de 16 aos y cero dias a 16 aos
y 364 dlas. Estrictamente. pues. el margen es de
364/365; no obslante. como cuestin prctica basta decir que es un ao.
Si los ocho sujetos de este grupo estuvieran distribuidos uniformemente de un lmite al otro. habria
entre ellos una distancia de un octavo de ao: ~n
intervalo de 0.125 de ao. Observe en la ilustracin que. si situamos al primer sujeto a la' mitad

-;

352

Capitulo IS

Anlisis univariado

Anlisis de datos

del Intervalo. a partir del lmite Inferter y luego. sumames un Intervalo. cemplete a la edad de cada
sujeto sucesivo.. el ltimo. est a medie Intervalo del
lmite supelier.
Por tanto.. le que hiclmes fue calcular hlpetticamente las edades exactas de les eche sujetes (supenlende que seguian una dlslrtbucln unlferme).
Luego. de hacerle. basta sealar la edad del sujeto
central -16.31-. que es la edad mediana del
grupo. .
Desde luego.. cuando. el nmero de los sujetos es
par no. hay une central. En este case. se calcula
simplemente la media de los dos puntes entre les
que queda. Por ejemplo.. supongames que hay un
. sujeto ms de 19 aos. Asi. el nmero medio se situara entre el nmero 16 y el 17. y calculariames
la mediana de este medo.: (16.31 + 16.44)/2 =
16.38.
En la blblfografia de la Investigacin encontrar
tanto medias como medianas. Cada vez que le presenten medias. debe tener presente que son muy
vulnerables a los valores extremos. es decir. con
nmeros muy grandes e muy pequees. Veamos
un ejemplo. para ilustrar la razn.
Para determinar el bienestar de los habitantes
de un pas. los investigadores acuden a diversos Indicadores. Una de las medidas ms empleadas es
el indice de mortalidad irifanti/ ([MI). el nmero. de
nies que mueren durante el primer ao de vida
por cada 1000 nacides vivos. Tomemos el fMI en
1991 de cuatro naclenes que poseen culturas muy
diferentes (Populatlen Reference Bureau. 1993).

Figura 15.2
Tres "medidas de tendencia centra'"
Edad
13
14
15
16
17
18
19

Edad
13
14
"I
1
1,

15
!

'. i

16
17
lB
19

1'1'

Nmero

~~~
~~~~
~~~~~~
~~~~~~~~ ..
~~~~
~~X
~XX
Nmero

~~~
~XX~
~~~~~X
X~~~~~~~
~~~~
~~~
~~~

:1"

Edad
13
14
15

i:
11.

~~~
~~~~

.
13x3=39

J<

Media = 15.B7
Promedio aritmtico

14x4'=56

15x6=90
16x8=12B
17x4=6B
lBx3=54

..

19x3=57
492 + 31 = 15.87
(Total) (Casos)

ndice de ~ortalidad

1-3

Mediana = 16.31

infantil. 1991

Punto medio

4-7

Emiratos rabes Unidos

Katar

tE~X~~B-13

~~~~~~~X

17

~~X~

19

Ms frecuente

Nmero.

16

18

Modo = 16

~tt
~~~

25
26

Holanda

6.5

Blgica

9.9

22-25

14

15

16

17

lB

19

20

21

26-2B

.~

29-31

16.06

16.19

16.31

16.44

16.56

16.69

16.Bl

16.94

Los indices relativamente elevades en Emiratos


Arabes Unidos y Katar manifiestan la situacin de
pobreza en que viven muchas familias de esos paises. En Holanda y Blgica. como en otras naciones
de Europa eccidental. los IMI son mucho menores.

353

La ecenoma es otro aspecto de la calidad de VIda. y una medida asequible es el producto nacional
bruto per cpita de cada pas. El preducto nacienal
bruto (PNB) es el valor total de les bienes y servicios que produce la nacin: al diVIdirlo entre su pobracln (la productividad media de sus habitantes)
se obtiene un indicador del bienestar ecenmico
del pueblo. La tabla siguiente presenta estos datos
de los cuatro pases de nuestro ejemplo (Populatien
Reference Bureau. 1993).
PNB per cpica. 1991
Emiratos rabes Unidos

Katar
Holanda

Blgica

$19.B70
$/5.870
$IB.560
$/9.300

Como vemos. el mayor PNB per cpita es el de


los Emiratos rabes Unidos. y Katar no est muy
lejos de Blgica y Holanda. La razn de esta disparidad radica en la distribucin del in(reso en los
des sultanates petroleros. donde unas cuantas familias poseen una gran riqueza que InOa el promedio que se observa. Es evidente que en estos casos
la media es engaesa: una medida come la media
na de ingreso familiar dalia una ima(en ms adecuada del ciudadano "promedio" de esos paises.
A veces uno encuentra que se reportan medias
cuando las medianas serian ms apropiadas perque es ms fcil calcular aquellas. Advierta que en
este caso todo. lo que necesitamos es el PNB y el total de la poblacin de cada pas. datos que se informan nltinartamente. Para determinar la mediana
del Ingreso familiar necesltarames realizar una encuesta con una muestra representativa .de las familias de cada nacin y luego calcularamos la mediana. Estas encueslas son comunes en los paises
desarrollados. pero. son menes habituales en el
Tercer Mundo.

Dispersin
Las medidas de tendencia central ofrecen al lector
la ventaja especial de que reducen los datos crudos
a su forma ms manejable: un solo nmero (o alribulo.) representa.1 oda la informacin detallada que

If"

il;l

lS4

CapitUlo 15

Anilisls de datos

Comparaciones entre subgrupos 355

'JI'

:11'
1";

I'1/:::!

./;"

'!j,
!,:""'I,':'!I:",".,,.,.

se reuni acerca de la variable. Desde luego. esta


ventaja tiene un costo. pues el lector no puede reconstruir los datos originales a partir slo de las
medidas de tendencia central. Los resmenes de la

::==:::n~:':: r~:~~:=~~I=I~a;:I:~e ~!~s;~

sln es el rango. la distancia que separa el valor

'II' ms grande del ms pequeo. Asi. adems de re,,"o portar que nuestros sujetos tienen una edad media

1Ji,

'1;

lil,

"

i~:

lit

Ili
~'
');

de 15.87 aos. tambin indicaramos que SUS edl.ades se extienden de los 13 a los 19. Una med Ic on
un tanto ms elaborada de la dispersin es la desviacin est~dar. Vimos la lgica de esta medida en
el capitulo 8. cuando tratarnos el error estndar de
la distribucin de muestreo.
Hay muchas otrasmedidas'de la dispersin. Por
ejemplo. al entregar ias calificaciones de una prueba de inteligencia se puede determinar el rango IntercuarUl. la gama de calificaciones del 50 por clento central de los sujetos. el.segundo cuarto. etc. Si
el mejor cuarto tuvo calificaciones de 120 a 150 y el
peor de 60 a 90. sealaramos que el ranalgo e~~e
cuartlles es de 120 a 90. el 30. con una c Ifl caclOn
media de. digamos. 102.

,!i
,]j

;,

~i

Variables continuas y discretas

'i Los clculos anteriores no se prestan para todas


,I

l'

il":, '

las varables. Para entender por qu. debemos examinar dos clases de variables: continuas y cscre

taso La eq.ad es una variable de razn continua que


aumenta en forma constante en fracciones diminutas en lugar de saltar de una categoria a otra. como el gnero o el rango militar. que son variables
'J discretas. SI analizramos variables discretas -por
;\ eJ~mplo, una vartable nominal u ordinal-o no se',' rian aplicables algunas de las tcnicas que hemos
j'. explicado. En rigor. medias y medianas se deben
calcular slo para datos intervalares y de razn.
respectivamente (vase el capitulo 6). Por ejemplo.
51 ,la vartable fuera el gnero. serian apropiados y
tiles los dalos crudos (23 de los moloclclistas trasvesUs proscritos eran mujeres) o los porcentajes
(siete por ciento eran mujeres). Calcular el modo
seria un anlisis legitimo. aunque no muy revelador. pero medias, medianas y resmenes de dispersin serian inadecuados. A pesar de que los inves
tlgadores a veces aprenden algo de valor al infringir
estas reglas. hay que hacerlo con' precaucin.

:I

Ii

Comparacin entre detalles


y maneJabilidad
Al presentar datos univartados -y de otro tipo-.
uno estai restringido por dos objetivos contradictorios. Por ,un lado. hay que tratar de dar al lector
el mayor grado' de detalle sobre esos datos. Por el
otro. stos deben presentarse en forma manejable.
Como a menudo estos dos objetivos se contraponen. hay que buscar constantemente que se eqUIlibren. Una solucin prctica consiste en Informar
algn conjunto de datos en ms de una forma. Por
ejemplo. en el caso de la edad sealariamos la distribucin de las edades sin agrupar. adems de la
edad media y de la desviacin estndar.
Como se desprende de esta exposicin Introductoria del anlisis unlvariado,;.~e..la~a~t:;ria pa-,. ,:
rezca simple. puede ser complada. Las lecciones
de esta seccin sern Importantes cuando consideremos las comparaciones entre subgrupos y los
ana lisis blvarlados.

Comparaciones
entre subgrupos
Los anlisis univarlados describen las unidades de
anlisis del estudio y. si son una muestra extraida
de una poblacin mayor. nos permiten hacer inferencias descriptivas sobre esta ltima. Los anlisis
bivarlados y mulllvartados se destinan sobre todo
a explicar. Sin embargo. antes de ocuparnos de la
e_\plicacn debemos cOl1slderar el caso de la descripcin de subgrupos.
Muchas veces no es apropiado describir subconjuntos de casos. sujetos o entrevistados. Por ejemplo. la tabla 15.2 presenta los datos de los ingresos
de hombres y mujeres por separado. Adems. indica la proporcin entre la mediana de los Ingresos
de las mujeres y la mediana de los hombres. con lo
que se muestra que las trabajadoras ganan slo un
poco ms de la mitad que los hombres.
En algunas situaciones. el investigador presenta comparaciones entre subgrupos con meros nn~s
descriptivos; pero la mayoria de las veces el proposito de estas descripciones es comparativo; las mujeres ganan menos que los hombres. En este caso.
se supone que hay algo en ser mujer que da por
resultado obtener menores Ingresos. Hacemos la
misma suposicin cuando comparamos negros con
blancos. En estos casos. el anlisis se basa en una
premisa de causalidad: una vartable es la causa de
otra. como el sexo es la causa del ingreso.

Tabla 15.3
Proporcin entre los ingresos anuales
de las trabajadoras de tiempo completo
y los ingresos de los hombres. 1980-1993

Mediana de Ingresos anuales


sexo de empleados civiles
de tiempo completo. 1967-1977
Proporcin

Proporcin de la mediana
de los ingresos anuales de las
muj eres respecto a ia mediana
de los Ingresos anuales
de los hombres

entre

Mujeres

Hombres

ambos
Ingresos

$8.618

$1'1.626

.59

8.622

1'1.323

8.+19

14.175

.60
.60

8.565

14.578

.59

8.639

15.254

.57

8.55i

14,778

.58

8.369

14.06'1

.61

8.307

13.993

.59

8.227

13.976

.59

7.763

13.349

58

7.503

13,021

.58

1980
1985
1990
1991
1993

.70
.65

Fue~ Las cllras de 1980 y 1985 se basan en pagos por hora y se tomaron de Mlchael W. HOrrigan y James P. Markey. "Recent Galns in
Women's Earring: Bener Par or Longer Hours1". en Monlhly Labor R~
view Oullo de 1990): 1117, Las cllras de 1990 y 1991 se basan en ingresos anual.. y proceden del U.S, Bureau 01 the Census, serie CPR
P-60. nm. 180, Me"., Income o( Househo/ds. Fomi/ies. ond Person> in rile
Unitod SIOI..: /99/ (Washington, Govemment Printlng Office. 1992),
Los datos de 1993 provienen de U.S. Bureau 01 che Census. Stotistic:o/
AbslrOct o( Ihe Unitod Stotes. /993 (CD-ROM CD-SA9S. abril de
1996): tabla H2.

Fuente: Adaptado de US. Bureau 01 me Census, "Statisticaf Portrait 01


Women in me Unlted States: 1978", serie P23. nm. IOO.p. 73.

Cuando en 1978 la Oficina del Censo estadouni. dense public los datos que aparecen en la tabla
, ~5.2. reforz la legitimidad del reclamo creciente
por la discriminacin de las mujeres en la economa de aquel pas. Desde entonces. tanto las medidas politlcas como la Investigacin se han concentrad. en'el tema. pero la discrepancia entre lo que
ganan hombres y mujeres est lejos de resolverse.
Las esladistlcas ms recientes muestran algunos avances. pero de todos modos hay una diferencia notable. Mientras escribo esto. la trabajadora
,promedia de tiempo completo gana 66 centavos por
cada dlar que obtiene su contraparte masculina.
En la tabla 15.3 se anotan las proporciones recientes de los sueldos.
Antes de pasar a la lgica del anlisis causal bivariado. veamos otro ejemplo de comparaciones
entre subgrupos que nos permitir abordar algunas cuestiones sobre el formato de las tablas.

Categoras de respuestas "combinadas"


Los ejemplos de tablas para libros de texto- suelen
ser ms simples que lo que uno, lee en las publtca'ciones de las investigaciones o en los propios an-

,64
.66
.71

lisis de datos. as que 'en esta seccin y la siguiente nos ocuparemos de dos problemas comunes y
propondremos soluciones.
Para empezar. vayamos a los datos de la tabla
15.4. que se recopilaron durante un sondeo de opinin sobre la ONU que aplicaron el New York Times. CBS News y el Herald Tribune en varios paises en 1985. La pregunta anotada en la tabla se
refiere a las actitudes generales subre el desempeo de la ONU.
El problema es comparar el apoyo que brindan
a las labores de la ONU los ciudadanos de los cinco pases de la tabla 15.4. Al repasar la tabla. notar que hay demasiadas cifras y que no es fcil
hallar un patrn significativo.
Parte del problema de la tabla 15.4 se debe a los
porcentajes relativamente pequeos de los entrevistados que eligieron las dos categorias de respuesta de los extremos. los que dijeron que la ONU
funcionaba muy bien o muy mal. Seria tentador re
ducirse a la segunda linea de la tabla los que contestaron "bien". pero seria incorrecto. Si leemos Slo la segunda fila concluiriamos que Alemania
Occidental y Estados Unidos mostraron las actitudes ms positivas sobre el desempeo de la ONU

3$6

Capitulo 15

An~lisis de datos
Comparaciones entre subgrupos 357

Tabla 15.4
Actitudes hacia la Organizacin de las Naciones Unidas: "Cmo resuelve la ONU los problemas que encaral" ,,:.
Japn
Muy bien
Bien
Mal
Muy mal
No s

2%
'16
21
6
26

7%
39
28
9.
17

.. 2%

45
22

3
28
Fuento:"5-Natlon Survey Find Hope for U.N.... NewYorlc T""d. 26 de junio de 1985. p. 6.

1%
11
43

5
41

Alemania Occidental

46
27
13
10

Tabla 15.5
Combinacin de categorias extremas

Bien o mejor
Malo peor
No s

48%
27
26.

17

(46 por ciento). seguidos d~ cerca por Francia (45


por ciento!. con Inglaterra en una postura menos
positiva (39 por ciento) y Japn (11 por ciento) como el de opiniones mas negativas.
Este procedimiento es inadecuado porque ignora a todos los que dieron la respuesta ms positiva
"muy bien". En estas situaciones. hay que unir o
"combinar" los dos extremos del margen de vanacin. En este caso. se combinan "muy bien" con
"bien" y "muy mal" con "mal". Si usted tiene que
hacer lo mismo con sus propios datos. le conviene
sumar primero las frecuencias crudas y despus
calcular de nuevo los porcentajes de las categorias
combinadas. En cambio. en el anwisis de tablas pu.
blicadas (como la del ejemplo) basta sumar los por.
centaJes. como se indica en los resultados que se
muestran en la tabla 15.5.
Con las categoras combinadas de la tabla 15.5
podemos leer fcilmente los porcentajes nacionales
de quienes dijeron que el trabajo de la ONU es por
lo menos bueno. Ahora Estados Unidos liene la
opinin ms positiva: Alemania. Inglaterra y Francia son apenas ligeramente menos optimistas y casi no se distinguen. y Japn aparece aislado con su
e\'aluacion bastante pobre del desempeo de la
ONU. Aunque las conclusiones no diferirian en
gran medida de lo qu~ habriamos concluido de leer
slo la segunda linea de la tabla 15.4. ahora nota.
mos que el apoyo de Inglaterra es un tanto mayor.

28

'18
'11

de los "no s"

'lO
10

Aqu hay un riesgo del que quiero precaverlo..


Supongamos que usted lee apresuradamente la segunda fila de la tabla 15.4 y advierte que la evaluacin que hacen los ingleses del trabajo de la ONU
es menor que la de estadounidenses. alemanes y
franceses. Usted se sentma obligado a elucubrar una
explicacin del hecho y qUiz hasta formularia
una ingeniosa teoria psicohistHca sobre el ocaso
doloroso del una vez poderoso y solemne Imperio
britanico. Entonces. despus de que lance su "teora". alguien le seala que una lectura adecuada de
los datos mostrana que en realidad los ingleses no
tienen una opinin menos positiva que las otras
tres naciones. Dse cuenta de que no se trata de
un riesgo hipottico. sino de algo que pasa con freo
cuencia y que se puede e\1tar combinando las categorias de respuesta cuando sea conveniente.

El manejo de los "no s"


Las tablas 15.4 y 15.5 Ilustran OtTO problema co.
mn en el anlisis de los datos de una encuesta.
Es una buena idea darle a los entre\1stados la posibilidad de contestar "no s" o "sin opinin" cuando
se les pregunta lo que piensan sobre determinados
temas: pero qu se hace con estas respuestas al
analizar los datos?
Observe que en este caso hay muchas vanaciones en los porcentajes nacional~s de los que dicen
"no' s": de I O por ciento en Estados Unidos a 41

65%
35

Inglaterra

Francia

55%
45

65%
35

ciento en Japn. Los porcentajes Importantes


respuesta "no s" complican los resultados de
tablas. Por ejemplo. se Inclinan menos los
'jSlpOne!es a respaldar la obra de la ONU slmpleporque muchos no expresaron ninguna opl'nin?
'Veamos una forma sencilla de calcular de nuevo
los porcentajes con la exclusin de los "no s".
Observe III primera columna de porcentajes en
la tabla 15.5: las respuestas en Alemania Occldenta! a la pregunta sobre el desempeo de la ONU.
Advierta que 26 por ciento de los entrevistados dijeron que no sabian. Esto significa que todos los
que contestaron "bien" o "mal" tomados en conjunto representan slo 74 por ciento (lOO menos 26)
del total. SI dividimos el 48 por ciento de los que
respondieron "bien o mejor" entre .74 (la proporcin de los que dieron alguna opinin). podramos
decir que 65 por ciento de quienes "tuvieron una
opinin" pensaban que la ONU hacia un trabajo
bu ello o muy bueno (48%/.74 = 65%). La tabla
15.6 presenta todas las cifras con exclusion de los
"no s".
Advierta que estos nuevos datos ofrecen una interpretacin un poco diferente que las ta!:>las anteIiores. En concreto. ahora resulta que Francia y
Alemania tienen una evaluacin mas positiva de la
ONU. en tanto que Estados Unidos e Inglaterra estn un poco abajo. Japn es aun el ms bajo al res
pecto. pero ha pasado del 12 al 20 por ciento.
En este punto. con tres versiones .de los datos.
usted se preguntar cual es la correcta. La respuesta]epende de sus propsitos al analizar e
Interpretar sus datos. Por ejemplo. si no es esencial que usted distinga entre "muy bien" y "bien".
vale la pena combinarlos. porque facilitan la lectura de la tabla.
Es ms dificil determinar de modo abstracto si
es correcto incluir o excluir los "no s". Acaso sea

Japn

Estados Unidos
57%
4'1

20%
81

muy importante haber descubierto que un porcentaje tan grande de los Japoneses no tiene opinin.
por ejemplo cuando uno qUiere aveliguar si la gente conoce el trabajo de la ONU. Por otra parte. si
uno desea saber cmo votruia la gente sobre cierto
tema. convendria ms excluir los "no s" en la su
posicin de que no votaran o que dividlrian sus votos entre los dos lados.
Comoquiera que sea. la verdad que contienen su
datos es que un porcentaje contest "no s" y el
resto dividi su opinin en c4antas opciones hubiera. A veces conviene mostrar los datos en ambas
formas -con los "no s" y sin ellos-o para qe los
. lectores saquen sus propias conclusiones.

Descripciones numricas
en la investigacin cualitativa
Aunque este captulo atae principalmente a la investigacin cuantitativa. tenga presente que la ex
posicin tambin es pertinente para los estudios
cualitativos. Los resultados de los estudios cualitativos exhaustivos se verfican mediante pruebas
numricas. As!. por ejemplo. cuando David Sllverman quiso comparar los tratamientos contra el
cancer de pacientes de clinicas privadas con los del
Servicio Nacional de Salud de Inglaterra. escogi en
primer lugar los analisis exhaustivos de las relaciones entre mdicos y pacientes.
MI mtodo de analisis fue en buena medida
cualitativo 1... 1 Me servi de ell:traclos de lo dicho
por mdicos y pacientes y realic una breve
descripcin etnogrMlca del ambiente y de ciertos
datos conductuales. Adems. prepare una forma
de codificacin que me permiti cotejar varias
medidas crudas de las interacciones entre
doctores y enrermos.
ISILn;H.\L\'~.

1993: 1631

358

CaptUlo 15

ANlsis de datos

Los datos numericos de SlIverman no slo afinaron las impresiones que le dejaron sus observaciones cualitativas. sino que adems su comprensin
profunda de la situacin le permiti articular un
anlisis cuantitativo cada vez ms adecuado. 'En
esta larga cita podemos apreciar la Interaccin entre los planteamientos cualitativos y cuantitativos.
MI Impresin general fue que las consultas
privadas duraban considerablemente ms que las
de las cUnlcas del SNS. En efecto. cuando
examine los datos. stos mostraron que las
primeras duraban casi el doble que las segundas
(20 minutos frente a 111. y que la diferencia era
estadisUcamente significativa: Sin embargo.
.
. distingu una de las clnICas del SNS que. por
razones peculiares. daba consultas anormalmente
breves. Me pareci que una comparacin ms
justa de las consultas en ambos sectores deba
e.'Ccluir esta clnica y comprender slo los
exmenes de un solo mdico en los dos casos.
Esta submuestra de los casos revel que la
diferencia de tiempos entre el SNS y las clinlcas
privadas se redujo a un promedio de tres
minutos. Esta cifra an era estadisUcamente
significativa. aunque la signlficancla se redujo.
Por ltimo. Si comparaba slo a los casos nuevos
atendidos por el mismo doclor. los pacientes del
SNS tenian en promedio cuatro minutos ms de
consulta: 34 minutos. frente a los 30 de las
clinicas privadas.
ISILVERMAN. 1993: 163-164)

Este ejemplo demuestra asimismo el poder que


se gana en las ciencias sociales con una combinacin de planteamientos. La reunin de anlisis
cualitativos .v cuantitativos es en particular poderosa.

Anlisis' bivariado
A diferenCia del anlisis onivanado. las comparaciones entre subgrupos constituyen una clase de
anlisis blvarlado' porque concierne a dos vanabies. Como dijimos. el propsito del anlisis univariada es puramente descriptivo. El objetivo de las
comparaciones entre subgrupos tambien es descriptivo -en buena medida describir los grupos
por separado-. pero se aade el elemento de comparacin. En las ciencias sociales. casi todos los
anlisis bivariados suman otro elemento: las rela-

Anlisis bivariado

Tabla 15.7

Cad~

semana .

Menos frecuente

75
(901)

iOO%=

66
(1134)

Fuente: Encuesta Social General. Centro Nacional de InvestigaCin


la Opinin.

clones entre las propias variables. As. el anlisis


unlvarlado y las compara~lones entre subgrupos se
concentran en describir la gente (u otras unidades c;le an.llsls) que es objeto de estudio ..rriientras.
que el anlisis bivariado se. ocupa de las uariables.
Observe. pues. que cabe considerar la tabla 15.7
como un caso de comparacin entre subgrupos:
describe Independientemente la asistencia a la Iglesia de hombres y mujeres. segn el Informe de la
Encuesta Social General de 1990. La tabla muestra en forma comparativa y descriptiva que Ia,s mujeres del estudio van ms a la iglesia que los hombres.
La misma labia. tomada como un anlisis bivariada explicatioo. cuenla otra historia: indica que la
variable sexo tiene un efecto en la variable asistencia a la iglesia. Esta conducta se considera una variable depe~diente determinada en parte por la
variable independiente. el sexo. As. los anlisis bivariados explicativos comparten el "lenguaje de variables" que presentamos en el capitulo l. En un
cambio sutil de ngulo. ya no hablamos de hombres y mujeres como de subgrupos distintos. sino
del sexo como variable: una variable que influye en
otras. La lgica para Interpretar la tabla 15.7 ser
la misma que en la hiptesis del consuelo de Charles Glock. que expusimos en el capitulo 2:

l. Nuestras sociedades tratan an a las mujeres


como ciudadanas de segunda clase.
2. A quienes se niega' la gratificaCin de una
posicin en la sociedad secular. a veces acuden
a la religin como fuente alternativa de estatus.
3. Por tanto. las mujeres deben de ser ms
religiosas que los hombres.
Los datos de la tabla 15.7 C'onfirman este razonamiento. El 34 por ciento de las mujeres asistia a

Igiesla cada semana. en comparacin con el 25


ciento de los hombres.
Aadir la lgica de las relaciones causales enlre
tiene una Implicacin Importante en la
:J""JU'G~'V" y la lectura de las tablas de porcentaUno de los peores dilemas de los analistas nade datos es definir la "direccin apropiada de
porcentajes". Por ejemplo. en la tabla 15.7 divlel grupo de sujetos en dos subgrupos homy mujeres y describimos el comportamiento de
uno. Es el mtodo correcto para elaborar esta tabla.
Sin embargo. observe que habriamos podido elala tabla de otro modo. si bien inapropiado.
dividimos los sujetos en grados de aslsten- .
a la Iglesia y. luego describimos los subgrupos
acuerdo con el porcentaje de hombres y muje. res 'de cada uno. Como explicacin. este metodo no
tendrla sentido.
La tabla 15.7 seala que el sexo influir en la
. frecuencia con .que se asiste a la iglesia. De haber
aplicado el otro metodo de elaboracin. la tabla indicarla que la asistencia a la iglesia influye en que
uno sea hombre o mujer, lo que no tiene sentido: la
conducta no determina el sexo.
Un problema relaclonad Viene a complicar la Vi. da de los analistas noveles. Cmo se lee la tabla
de porcentajes? Es tenlador leer la tabla 15.7 de la
siguiente manera: "De las mujeres. slo 34 por
ciento va a la Iglesia cada semana. y 66 por ciento
dijo q\.le IQ hacia con menos frecuencia: por tanto.
ser mujer hace menos' probable que se asista a la
Iglesia con frecuencia". Sin embargo. esta no es
la forma correcta de leer la tabla. La conclusin de
que el sexo -como variable- tiene un efe~to en la .
asislencia a la iglesia debe depender de una comparacin entre hombres y mujeres. En concreto.
comparamos 34 con 25 por ciento y vemos que las
mujeres se inclinan ms que los hombres a ir cada .
semana l la Iglesia. Asi. la comparacin entre subgru'pos es esencial para leer las tablas bivariadas
explicativas.
Al elaborar y presentar la tabla 15.7 utilic una
convenci~ llamada porcentaje uertical. que significa
que uno suma 105 porcentajes por columnas para
obtener '100 por ciento. Esta clase de tablas se .Iee
por filas de izquierda a derecha .. En la fila Utulada
-cada semana". qu porcentaje de hombres 'asisle
con ~sa frecuencia? Qu porcentaje de mujeres?

359

La direccin de los porcentajes en las tablas es


arbitrario. y algunos Investigadores prefieren disponerlos en sentido horizontal. Organizaran la tabla 15.7 de modo que "hombres" y "mujeres" apa:
recieran en la columna de la Izquierda sealando
dos -filas. en tanto que "cada semana" y "ms frecuente" Indlcarlan las columnas en la parte superior. Las cifras de la tabla cambiaran en consecuencia y cada.fila de porcentajes sumara 100 por
ciento. En este caso. uno leerla la tabla por columnas de arriba abajo buscando de cualquier manera
el porcentaje de hombres y de mujeres que aslste~
frecuentemente, En ambas situaciones la lgica y
las conclusiones serian las mismas: slo cambia la
forma .
Por tanto. cuando lea las tablas de otros Llene
que averiguar en que direccin estn los porcentaJes. En general esto est anotado o se desprende de
la lgica de las variables que 'se anal1zan: sin embargo.como ltimo recurso. sume los porcentajes
de las columnas y las filas. Si las columnas suman
100 por ciento. la tabla est dispuesta en porcentaJe uertical: si son las filas, est dispuesta en pareen'taje horiZontal. Entonces. la regla es la siguiente:

l. Si la tabla est en porcentaje vertical. lea hacia


abajo.
2. Si est en porcentaje horizontal. lea a lo largo.

Obtencin de porcentajes
para las tablas
En la figura 15.3 se reVisa la lgica con la que ela~
boramos tablas de porcentajes de dos variables, .
Tomamos como variables el se.xo y las posturas CUlle la igualdad sexual.
.
Veamos otro ejemplo. Supongamos que nos interesa conocer un poco sobre las polticas editoriales
de los peridicos en cuanto a la legalizacin de la
mari~uana. Emprendemos un anlisis de contenidos de los editoriales que han tocado el tema durante cierto ao en una muestra de los diarios de
la nacin. Clasificamos cada editorial como favorable. neutral o desfavorable a la legalizacin de la
manguana. Tal vez queramos examinar la relacin
entre polilicas editoriales y las comunidades donde
se publican 105 peridicos. pues pensamos que los
_diarios rurales sern mas conservadores al respec-

360

Caplwlo 15

Anlisis de datos

Anlisis bivarlado

Figura 15.3
Obtencin de porcentajes para una tabla

15.3

A. Algunos hombres y mujeres que estn en favor (=) de la igualdad sexual o que estn en contra ("l.

..

..

X X

.=X

~ x, ~ , t ~ ~

~~
X~

..

X-

ft

~~

D. Se cuentan los sujetos de cada celda de la tabla .


Mujeres

Homb'res

Hombres

= =

= = = = =

= = = =

XXXXXX
.
..

B. Se separan hombres de mujeres (variable independiente) .


Mujeres

361

E. Qu porcentaje de mujeres estn


en favor de la igualdad?

..

.. .. ..

KXXX

F. Qu porcentaje de hombres estn


en favor de la igualdad?

BO%

60%

C. En cada grupo por sexo, se separan a los que estn en favor de la igualdad
de los que se oponen (variable dependiente).
G. Conclusiones
Mujeres

Hombres
Mientras que la mayorfa de los hombres y las mujeres
estn en favor de la igualdad sexual, stas la apoyan
ms que aqullos.
As, el gnero es una de las causas de las actitudes
hacia la igualdad sexual.

Favorecen
la igualdad
Se oponen
a la igualdad
Tolal

Mujeres

Hombres

BO%

60%

20

40

100%

100%

" "
lo que los urbanos, As, clasificamos cada peridico (y por ende cada editorial) de acuerdo con la po
blacin de la comunidad donde se publica.

La 'tabla 15.8 presenta unos datos hipotc>Ucos


que describen las politicas editoriales de peridiCOS
rurales y urbanos. Observe que la unidad de ami-

362

Capitulo 1S

An!lIsiS de datos

Introduccin al anlisis multivarlado 363

Tabla 15.8
Datos hipotticos de editoriales periodfstic:os sobre la
legalizacin de la mariguana
Polftic;a editorial
sobre la legallzaci6n
de la mariguana
Favorable
Neutral
Desfavorable
100% =

Tamao de la comunidad
Menos de
100000

Mde
100000

11%
29

32%

60

(127)

"O
28.
(438)

Hsls de este ejemplo son los editoriales. La tabla


15.8 nos indica que en nuestra muestra hubo 127
editoriales de peridicos publicados en comunidades de menos de 100 000 habitantes. (Nota: Elegimos este lmite para simplificar el ejemplo. No significa que ruraL se refiera a una comunidad de
menos de 100000 pobladores en ningn sentido
absoluto.) De stos. 11 po&. ciento (14 editoriales)
tuvo una postura favorable' a la legalizacin de la
mariguana. la de 29 por ciento fue nf:utral y la de
60 por ciento desfavorable. De los 438 editoriales
en la muestra de diarios publicados en comunidades de mas de 100000 residentes. 32 por ciento
(140 editOriales) mostr una postura favorable a la
legalizacin de la mariguana. 40 por ciento neutral
y 28 por ciento desfavorable.
Cuando comparamos las polticas editoriales de
peridicos rurales y urbanos en nuestro estudio
imaginario. descubrimos como esperbamos que
los rurales son menos favorables a que se legalice
la mariguana. Para determinar esto. observamos
que estuvo en favor un porcentaje mayor de editoriales urbanos (32 por ciento) que rurales (1 1 por
ciento). Asimismo. observamos que ms editoriales
rurales que urbanos se mostraron desfavorables
(60 frente a 28 por ciento). Advierta que esta tabla
supone que el tamao de la comunidad Influye en
sus polticas editoriales al respecto. y no que stas
influyen en aqul.

Elaboracin y lectura de tablas


-

Antes de introducir el anlisis multlVarlado. repasemos las pasos de la elaboracin de tablas bivariadas explicativas:
l. Los casos se dividen en grupos de acuerdo con
los atributos de la variable independiente.

2. Cada subgrupo se describe segn los


de la variable dependiente.
3. Por ltimo. la tabla se lee comparando los
subgrupos de la variable Independiente de
acuerdo con algn atributo de la Variable
dependiente.
Vamos a repetir el anlisis del sexo y la
ante la Igualdad sexual Siguiendo estos pasos.
las razones que ya sealamos. el se.ICo es la
ble Independiente y la postura ante la igualdad
xuaL la dependiente. As. procedemos como
l. Los casos se dividen en hombres y mujeres.
2. Cada subgrupo por gnero se describe segn
apruebe o no la Igualdad sexual.
3. Se comparan hombres y mujeres de acuerdo
con los porcentajes que estn en favor de la
Igualdad sexual.
En el ejemplo de las polticas editoriales acerca
de la legalizacin de la mariguana. el tamao de la .
comunidad es la variable independiente y la politica editorial del peridico es la dependiente. Elabo- .
rarlamos la tabla de esta manera:
l. Se dividen los editoriales en subgrupos de
acuerdo con el tamao de las comunidades
donde se publican los peridicos.
2. Se describe cada subgrupo de editoriales segn
los porcentajes favorables. neutrales o
desfavorables en cuanto a la legalizacin de la
mariguana.
3. Se comparan los dos subgrupos de acuerdo
con los porcentajes en favor de la legalizacin
de la mariguana.
Los anlisis bivartados tienen caracterlstlcamente un propsito causal expllcallvo. Estos dos
ejemplos hipotticos dependen de la naturaleza de.
la causalidad tal como la conciben los cientficos
sociales. En este punto. espero que el planteamiento un tanto simplificado de la causalidad en estos
ejemplos le ayudar a entender mejor la naturaleza compleja de la causalidad.

Formatos de tablas bivariadas


La clase de tablas que hemos examinado reciben el
nombre de fablas de contingencia: los valores de la
variable dependiente dependen de los valores de

variable Independiente. Estas tablas son .comuen las ciencias sociales. pero su formato no esestandarizado. En consecuencia. en la blbllograde la Investigacin se encuentran diversos
Mientras la tabla se lea e interprete con
:il<""'U4'''' no hay razones para luchar por su es tan,aa:nZ,,"'UIl. Sin embargo. se deben seguir varios 11.:Jl'.cu ... ~ ...... ~ en la presentacin de datos tabulados.
La tabla debe tener un encabezado o ttulo que
resuma lo que contiene.
El contenido original de las variables debe
presentarse con claridad (en la misma tabla. si
es pOSible. o en el texto. con una par.Urasls en
la tabla). Esta Informacin es especialmente
crucial cuando una variable procede de las
respuestas a una pregunta de opinin. pues el
significado de stas depender en buena
medida de la redaccin de la pregunta.
3. Deben Indicarse con claridad los atributos de
cada variable. Aunque haya que abreviar
categorias complicadas. su Significado debe
estar claro en la tabla. y. desde luego. en el
texto debe aparecer una descripcin completa.
4. Cuando en la tabla se anoten porcentajes. hay
que Il'Idlcar la base con la qu'e se calcularon.
Es redundante presentar todos los nmeros
crudos de cada categoria. puesto que es posible
reconstruirlos a partir de los porcentajes y las
bases. Adems. la presentacin de cifras y
porcentajes enreda la tabla y dificulta su
let'tura.
5. SI se omiten casos en la tabla por falta de
datos (por ejemplo. "no respondi"). hay que
indicar las cifras.

Introduccin al anlisis
multivariado
La lgica del anlisis mulliv;;!riado es el tema principal del Capitulo 16. Sin embargo. en este punto
ser til explicar brevemente la elaboracin de tao
blas multiuariadas: las que se preparan con ms de
dos variables.
Para elaborar tablas mullivariadas sobre la base
de una descripCin mas complicada de los subgrupos. seguimos en esencia los mismos pasos de las
tablas bivarladas. Sin embargo. en lugar de una

variable independiente y una dependiente. tenemos ms de una variable Independiente. En lugar


. de explicar la variable dependiente a partir de una
sola variable Independiente. tomamos ms para
buscar una explicacin.
Volvamos al ejemplo de la asistencia a la iglesia.
Supongamos que creemos que la edad tambin Influye en ese comportamiento: la hiptesis del consuelo de Glock sostiene que los ancianos son ms
religiosos que los jvenes. Como primer paso en la
elaboracin de la tabla. dlvidlriamos la muestra total en subgrupos basados simultneamente en amo
bas variables Independientes: hombres Jvenes.
ancianos. mujeres jvenes y ancianas. Entonces
describiramos los subgrupos de acuerdo con la variable dependiente y los compararlamos. La tabla
15.9. tomada de un anlisis de datos de la Encues
ta Social General de 1973. 1983 Y 1993. es el resultado.
Siguiendo la convencin que ya presentamos, la
tabla est dispuesta en porcentaje vertical. por lo
que se lee a lo largo. La Interpretacin de la tabla
permite varias conclusiones.
l. Entre hombres y mujeres, las personas de
mayor edad van a la Iglesia mas que los
jvenes. Entre las mujeres, 32 por ciento de las
que tienen menos de 40 aos y 48 por ciento
de las mayores asisten cada semana. Entre los
hombres. las cifras respecllvas son 24 y 33 por
ciento.
2. En cada grupo de edad. las mujeres asisten
con ms rrecuencia que los hombres. Entre los
entrevistados de menos de 40 aos. 32 por
ciento de las mujeres va cada semana. en
comparacin con 24 por ciento de los hombres.
Entre los mayores. 48 por ciento de las
mujeres y 33 por ciento de los hombres asisten
cada semana.
3. Como se miden' en la tabla. el sexo y la edad
tienen efectos equivalentes en la asistencia a
ceremoflias religiosas.
4. La edad y el sexo tienen efectos indcpendientes
en la asistencia a la iglesia. En el contexlo de
cierto atributo de una variable independiente,
otros atributos de la otra variable tambin
influirn en la conducta.
5. Del mismo modo. las dos variables tienen
. efectos acumulativos en la conduela. Las
ancianas asisten con mas frecuencia 1-18 por

11

!,~~"

364

Capitulo IS

Puntos principales 365

Anlisis de datos

:'.11

~.

;t

1.1

1':

Tabl 15.9

r1:

Tabla 15.10

Relacin multivariada:
asistencia a la iglesia, sexo y edad

Simplificacin de la tabla 15.9

f.r

(j,

"Con qu frecuencia asiste a ceremonias religiosasr'


Menos de 40
Hombres Mujeres
""as o menos
cada semana"
Con menos
frecuencia
100%

40 Ymayores
Hombres Mujeres

Hombres
Menos de 40

2""

32"

33%

48%

76
(325)

68
(383)

67
(323)

52
(4S2)

40 y mayores

+Ms o menos cada semana = "ms de una vez a la semana", "cada


semana" 't "casi cada semana".
Fuente: Muen...Ieatoria de entreylstados P'" ,. ESG en 1973,
1983 Y 1993.

ciento) y los hombres jvenes van menos a


menudo (24 por Ciento).
Varias de las tablas que presentamos en este capitulo son un tanto Ineficaces. Cuando la variable
dependiente. asistencia a le iglesia. es dicotmica
(dos atributos!. el hecho de conocer un atributo
permite al lector reconstruir el otro fcilmente. As.
si sabemos que 32 por ciento de las mujeres de menos de 40 aos va a la iglesIa cada semana. sabremos tamblen automaticamente que 68 por ciento
va con menos frecuencia: por tanto. es innecesario
anotar quienes van menos a menudo. Si aceptamos esto. la tabla 15.9 se presentaria con el formato de la tabla 15. 10.
En la tabla 15. 10, los porcentajes de quienes
'asisten a la iglesia aproXimadamente cada semana
se anotan en las celdas que representan las intersecciones de las dos variables IndependIentes. Las cifras entre paren tesis debajo de cada porcentaje
sealan el nmero de casos en que stos se basan.
As. por ejemplo. el lector sabe que hay 383 mujeres de menos de 40 aos en la muestra y que 32
por ciento de ellas va a la igleSia cada semana. Con
esto calculamos que 123 de las 383 asisten semanalmente y que las otras 260 (o 68 por cien tal lo
hacen con menos frecuencia. Esta nueva tabla se
lee con mas facilidad y no sacrifica los detalles.
Para considerar otro ejemplo de anallsis mulll"ariado. regresemos al tema del sexo y el Ingreso
qUf' estudiamos al principio. Como recordara: hay
IIn patrn antiguo f'n el que las trabajadoras ganan menos que los hombres. y se han propuesto
muchas explicaciones para dar cuenta de la dife
rencia.

antigedad laboral e ingreso (trabajadores de tiempo completo de 21 a 64 aos)

Porcentaje que asiste


aproximadamente cada semana

::

24
(325)
33
(323)

Mujeres

J2
(383)
48
(452)

Una de ellas reza que. a causa de la estructura


tradicional de la familia, las mUjeres como grupo
han participado menos en el mercado laboral y
muchas comienzan a trabajar fuera de casa despus de concluir ciertas tareas de crianza. Asi. las
mujeres como grupo tienen menos antigedad que
los hombres. factor ste que aumenta los ingresos.
En 1984. un estudio de la Oficina del Censo estadounidense revel que este agumento es parcialmenle cierto. como se muestra en la tabla 15.11.
La tabla 15.1 l Indica. primero que todo. que la
antigedad en el puesto influye en los ingresos.
Entre mujeres y hombres. quienes tienen mas aos
de labores ganan mas. Esto se aprecia leyendo las
dos primeras columnas.
La tabla tambien seala que las mujeres ganan
menos que los hombres independientemente de la
antigedad. Esto se ve comparando los sueldos
promedia en las mas de la tabla y en la proporcin
de los ingresos de las mlJjeres en relacin con los
hombres que se muestra en la ltima columna.
Este analisis muestra que los aos en el trabajo
son un determinante Importante de las ganancias.
pero no da una explicacin adecuada de que las
mujeres ganen menos que los hombres. De hecho.
vemos que mujeres con 10 aos o mas de labores
ganan sustancialmente menos (7.9 l dlares por
hora) que los hombres con menos de dos aos
(8,46 dlares por hora).
Estos datos Indican que la diferencia entre la
paga de hombres y mujeres no es meramente resultado de que aqueIlos tengan ms tiempo en el
trabajo. Sin embargo. hay otras explicaCiones plausibles de la diferencia: educacin. responsabilidades con los hijOS. etcetera.
Los investigadores que calcularon la tabla 15.1 I
lambien examinaron otras variables que cabria suponer que explican la diferencia entre los sUt'ldos

Aos de trabajo
con el patrn actual
Menos de dos aos
Dos a cuatro aos
Cinco a nueve aos
10 aos o ms

Ingreso promedio por hora (dlares)


Mujeres
Hombres
$ 8.46
$ 9.38
$10.42
. $12.38

$6.03
$6.78
$7.56
$7.91

Proporcin
mujeres/hombres
.71

.72
.73
.64

Bureau of che Census. Curren, Poputation Repares. serte P-70, nm. 10. Mole-Female Diffo,.n,es in Work Experience. O"upotion, ond
1984 (WashingtOn. U.S. Govemment Prlntlng OIflce. 1987): 4.

de hombres y mujeres sin argumentar discrimlna. cln sexual. Ademas de los aos con el empleador
actual. las varlables que examinaron son las si-

Aos en la ocupacin actual


Total de aos de experiencia laboral (cualquier
ocupacin)
Si por lo regular trabajan tiempo completo
Estado civil
J Tamao de la poblacin donde Viven
Si estiln sindicalizados
Tipo de ocupacin
Nmero de empleados en la compaia
Si es empresa pblica o privada
Si dej el trabajo anterior contra su voluntad
TIempo transcurrido entre el empleo actual y el
anterior
Grupo etnico
SI tienen alguna Incapacidad
Condicin de salud
Edad de los hijos
Si IIevaron un programa universltarlo ~n la
prepara toria
Nmero de' clases de matemticas. ciencias e
Idiomas en la prepara lona
SI asistieron a una preparatoria pblica o
pnvada
Nivel de escolaridad alcanzado
Porcentaje de mujeres en la ocupacin
Espec./.alidad universitaria
Todas las variables de la lisia pueden influir en
los Ingresos y. si las mujeres y los hombres difieren
al respecto. explicarian las diferencias de ganancias. Cuando tomaron en cuenta ladas estas varia-

bIes, los investigadores pudieron explicar 60 por


ciento de las discrepancias entre los ingresos de
hombres y mujeres. Entonces. el 40 por ciento restante es una funcin de otras variables razonables.
o de los prejuIcios.
Este ltimo ejemplo debe darle una Imagen mas
completa de los usos del anlisis mulUvariado. En
un nivel superficial. ahora conoce todo el proceso
del anlisis de datos. En este sentido. el capitulo
16 es un repaso en un nivel mucho mas pro~undo
del matenal que ya tratamos.

Puntos principales
El anallsis univariado comprende una sola
variable.
La totalidad de los datos reunidos sobre una
variable son. en esa forma. imposibles de
interpretar. La reduccin de los datos es el
proceso de resumir la informacin original para
hacerla mas manejable mientras que se
conservan en buena medida los detalles.
La distribucin de frecuencia muestra el
nmero de casos que tienen los atributos de la
variable considerada.
Los datos agmpados se obtienen mediante la
combinacin de los atnbutos de una variable.
Las medidas de tendencia central (media.
mediana y moda) reducen los datos a una
forma manejable. pero no proporcionan los
detalles de los datos Oriinales.
Las medidas de dispersin dan una indicacin
sumaria de la dislribucin de los casos
alrededor de una medida de tendf'ncia central.

366 Capitulo IS

Anlisis de datos

Para emprender una comparacin entre


subgrupos. (1) se dividen los casos en
los subgrupos apropiados. (2) se describe cada
subgrupo de acuerdo con cierta variable y (3)
se comparan las descripciones de los
subgrupos.
El anaJlsls blvariado no es ms que una
interpretacin diferente de las comparaciones
entre subgrupos: (1) se dividen los casos en
subgrupos de acuerdo con sus atributos en
alguna variable Independiente. (2) se des~ribe
cada subgrupo en trminos de una variable
dependiente. (3) se comparan las descripciones
de las variables dependientes de los subgrupos.
y (4) se Interpretan cualesquiera diferencias
observadas como una asociacin estadstica
entre las variables Independientes y
dependientes.
Para Interpretar correctamente las tablas de
porcentajes bivariados: (1) "porcentaje vertical"
y "lectura horizontal". o bien (2) "porcentaje
horizontal" y "lectura vertical" para hacer las
comparaciones entre subgrupos.
El anaJlsis multivarlado es un mtodo para
analizar las relaciones simultneas entre
diversas variables. y se aplica a la comprensin
cabal de las relaciones entre dos variables.
Si bien los temas expuestos en este captulo se
relacionan principalmente con la Investigacin
cuantitativa. su lgica y sus tcnicas tambin
son valiosas para los estudiosos que realizan
investigaciones cualitativas.

Preguntas y ejercicios
de repaso
Elabore e interprete una tabla de contingencia
con la siguiente informacin: 150 demcratas
favorecen un aumento del salario mnimo y 50
se oponen: 100 republicanos es tan en favor del
aumento y 300 en contra.
Con los datos de la tabla' siguiente. elabore e
interprete tablas que'muestren:
a. La relacin bivariada entre edad y actitud
hacia el aborto,
b. La relacin bivariada entre tendencia poliUca
)' actitud hacia 'el aborto.
e. La relacin multivariada que vincula la
edad. la lendencia politica y la actitud hacia
el aborto.

- i

Lecturas adicionales 367

Edad

Tendencia
polltica

Actitud
hacia
el aborto

Frecuencia

Joven
Joven
Joven
Joven
Mayor
Mayor
Mayor
Mayor

Uberal
Uberal
Conservador
Conservador
Uberal
Uberal
Consrvador
Conservador

En favor
En contra
En favor
En contra
En favor
En contra
En favor
En contra

90
10
60
40
60
40
20
80

Lecturas adicionales

3. Su cometido es elaborar una tabla de


porcentajes bivariados simple a partir de datos
de la Encuesta Social General. Puede hacerlo
en linea. sin tener los archivos de datos en su
poder. Comience en el Programa de Metodos de
Encuestas Asistidos por Computadora de la
Universidad de California en Berkeley:

Coleo Stephen. The Sociolagical Method.: An


lntroduction to the Science oJ SociOlogy. Bastan.
Houghton Mifflin. 1980. Legible Introduccin al
anlisis. Cale parte de la pregunta general
sobre qu es la Indagacin social clentifica y
luego ilustra con ejemplos comprensibles.
Davis. James. Elementary Suroey Analysis. '
Englewood Cllffs. N.J .. Prentlce-Hall. 1971.
Introduccin al anaJlsls extremadamente bien
escrita y razonada. Adems de cubrir las
materias de este capitulo 15. el libro de Davis
vale la pena leerse por su tratamiento de los
temas de medicin y estadsticas.
Labovltz. Sanrord. y Robert Hagedorn. lntroducti:m
to Social Research. Nueva York. McGraw-HiII.
1981. Otra til Introduccin al anlisis. Sobre
el fondo de intereses ms generales en la

Investigacin social clentifica. los autores


proporcionan una Introducclqn muy legible y
provechosa a los anlisIs elementales en su
captulo 6. Al igual que Cale y Davis. pasan a
la consideracin del anlisis multivarlado.
W~lsberg. Herbert F.. Central Tendency and
VariabUity. Newbury Park. Cal.. Sage. 1992.
Ofrece un examen ms exhaustivo de los
niveles de medIcin y las medIdas de
tendencia central.
Ziesel. Hans. Say lt with F1gures. Nueva York.
Harper and Row. 1957. Excelente exposicin de
la elaboracin de tablas y otros anlisis
elementales. Aunque ya con muchos aos. es
quiz la mejor presentacin disponible de un
tema especifico. Es eminentemente legible y
comprensible. y tiene muchos ejemplos
concretos.

.,

http://bravo.berkeley.edu/cglbin/hcsa?harc3
El primer paso es elegir dos variables que I~
gustara analizar. Quiz ya conozca el nombre
de algunas variables de la ESG. como ABANY.
CAPPUN. SEX o. GRASS. Tambin puede
localizar algunas variables con la opcin
"Browse Codebook".
Cuando haya encontrado dos variables. elija
la opcin "Run Crosslabulation". Ingrese los
nombres de las variables horizontal y vertical.
Indique que desea un porcentaje vertical y el
"Question Text".
Entregue a su profesor la labia que elabor.
4. Localice tres ejemplos publicados de "medidas
de tendencia central". Identifique el lipo de
medida que se calcul y decida si result
apropiada.

Proyecto de continuidad
Asuma que est llevando a cabo un estudio
cuantitativo de las actitudes hacia la igualdad
sexual. Elabore una tabla bivaJiada de
porcentajes e Interprtela. Una de las variables
debe ser un indicador de las actitudes hacia la
igualdad sexual y la otra debe representar una
causa de dichas actitudes.

l'

!!

'

este captulo...

Estadistica descriptiva
Reduccin de datos
Medidas de asociacin
'otras tcnicas multivariads
Anlisis de trayectortas
Anlisis de series temporales
Anlisis factorial

Estadistica Inferencia!
Inferencias univarladas
f.ruebas de signlficancia estadstica
La lgica de la signiflcancia estadstica
JI cuadrada
Puntos principales
Preguntas y ejercicios de repaso
Proyecto de continuidad
Lecturas adicionales
!R9.unme

Introduccin
Segn mis aos de experiencia, muchos estudiantes le temen a las estadistlcas, pues los hacen sentir
.

Unos payasos sin circo


Mas tontos que un zoquete de madera
Unas cuantas plumas sin pato
Pura espuma sin cerveza
Que le faltan botones a su control remoto
Unos frijoles sin su tortilla
Tan chiflados como un bate de ftbol
Con la agudeza de una bola de boliche
~ Como un peso de 96 centavos
Que 1'10 se entienden con los arrtblstas*

.-

Estadsticas sociales
Lo que aprender en este captulo
Aqu ab~rdaremos algunas estadsticas simples usadas con
Jrecuenc!~ e.n la investigacin social. Si siente aversin por
las E'slad!st!cas. se llevar una agradable sorpresa.

A muchas personas les atemoriza la Investigacin empirlca porque no se sienten cmodas con
las matemticas ni con la estadistlca. En efecto,
muchos informes estan llenos de calculas Inexplicados. La funcin de las estadisticas en la Investigacin social es muy Importante, pero tambin es
Importante que usted contemple tal funcin desde
el angulo adecuado.
La investigacin empirlca es, primero y antes
que nada, una operacin lgica, mas que matemalica."Las matematicas son meramente un lenguaje
cmodo y eficaz para realizar las operaciones lgi-

'Les agradezco a los abundantes colaboradores de las lisIas humoris!lcas en Internet.

cas Inherentes a un buen analisls de datos. La estadstica es la rama aplicada de las matematicas
especialmente apropiada para diversos analisls de
Investigaciones.
En este capitulo veremos dos clases de estadstica: la descriptiva y la inJerencial. La estadistica
descriptiva es un medio para describir los datos
en formas manejables. Por su parte. la estadstica
inferencia! nos asiste para sacar conclusiones sobre las observaciones; por lo comn. conclusiones
sobre una poblacin a partir del estudio de una
muestra tomada de ella.

,
'i

Estadstica descriptiva
Ya Indiqu que la estadistica descriptiva es un mtodo para presentar descripciones cuantitativas en
una forma manejable. Algunas veces queremos
describir variables nicas; otras. describir las asociaciones que vinculan una variable con otra. Veamos algunas formas de lograrlo.

Reduccin de datos
La investigacin cientfica suele requerir la recopilacin de grandes volmenes de datos. Supongamos que hemos entrevistado a 2000 personas a las
que les formulamos lOO preguntas (un esludio no
muy largo). Tendriamos un asombroso conJunlo de
200 000 respueslas. Nadie podria leer 200 000 respuestas y llegar a ninguna conclusin significati\'a
sobre ellas. As. muchos anlisis cienlificos requie'
369

1',

II
"

370

Capitulo 16

Estadsticas sociales

Esudlstica descriptiva 371

.1"-'
'.1

t~'

11, ren la reduccin de los datos de los detalles inabar-

16.1

!.

parcial de datos crudos

Al igual que la matriz de datos crudos de la


, cables a los compendios manejables.
bla 16.1. esta matriz ofrece ms informacin de
:''
Para iniciar nuestra exposicin. detengmonos
que uno puede comprender con facilidad. Sin
" brevemente en la matriz de datos crudos creada en
bargo .. si usted la estudia atentamente. ver qUe.
un proyecto de investigacin cuantitativa. La tabia
medida que el nivel educativo aumenta de
16.1 presenta una matrtz de datos parcial. Obserno" a "Posgrado". 10s prejuicios exhiben una
ve que cada ma representa a una persona (u otra
dencia general a disminuir: pero slo es
unidad de anlisis). cadll columna representa una
captar una impresin general. Ahora bien.
variable y cada celda es el atrtbuto codificado. o vaestadsticas descrtptlvas nos permiten resumir
lor. que tiene cada persona en cada vartable. La
ta matriz. En prinCipio, elegir la medida apropiada.
primera columna de la tabla 16.1 representa ei sedepende de la naturaleza de las dos vartables.
xo de cada persona. Digamos que "1" equivale 'a
Ahora nos dirigiremos a algunas de las Opciones
hombre y "2" a mujer. Esto significa que las persodisponibles
para resumir la asociacin entre dos
nas 1 y 2 son hombres. la persona 3 mujer. etcetera.
vartables. Cada medida de asociacin que expongaEn el caso de la edad. el "3" de la persona 1 sigmos se basa en el mismo modelo: la reduccin pronifica. por ejemplo. de 30 a 39 aflos. el "4" de la
porcional de error (RPE). Para ver cmo funciona el
persona 2. de 40 a 49 aflos. Como quiera que se
modelo. supongamos que yo le pido a usted que
haya codificado la edad (vease el capitulo 14), los
adMne los atributos de los entrevlstados en deternmeros codificados que se muestran en la tabla
minada variable: por ejemplo. si respondieron un
16. I descrtbirian a cada una de las personas repre'reactivo con si o no.
sentadas.
Para auxiliarlo, empecemos por suponer que usObserve que los datos ya estn reducidos en alguna medida para el momento en que se forman
ted conoce la distribucin general de las respueslas matrices de datos. Si la edad se codific como
tas del total de la muestra: digamos. que 60 por
dijimos, la respuesta especifica "33 aflos de edad"
ciento dijo si y 40 contest n'o. Cometera menos
ya se asign a la categoria "30 a 39~" Las personas
errores en el proceso'sl cOnjeturara siempre la resque respondieron a nuestra encuesta nos habrn
puesta modal [la ms rrecuente): s.
dado 60 o 70 edades distintas. pero las hemos reSegundo. supongamos que usted tambin conoducido a seis o siete categorias.
ce la relacin emprtca entre la primera vartable y
En el capitulo 15 estudiamos las formas de conalguna otra: digamos. el se!co. Entonces. cada vez
tinuar el compendio de datos univartados: medidas
que le pidiera que adivlne cundo un entrevlstado
de tendencia central como la moda. la mediana y
dijo si o no. le dir si se t.:ata de un hombre o una
la media y medidas de dispersin. como el rango. la
mujer. SI las dos variables se relacionan. debe codesvlacin estndar. etc. Tambien es posible resumeter menos errores la segunda vez. Por tanto. es
mir las asociaciones entre vartables.
pOSible calcular la RPE conociendo la relacin entre las dos variables: entre mayor sea la relacin.
mayor ser la reduccin del error.
_ Medidas de asociacin
Este modelo bsico de RPE se modifica ligeraEs posible representar la asociacin de cualquier
mente para dar cuenta de los diversos niveles de
par de variables en una matriz de datos. esta vez
medicin: nominal. ordinal o intervalar. En las sec- producida por la unin de las distribuciones de freciones siguientes consideraremos estos niveles y
cuencia de ambas vartables. La tabla 16.2 presenpresentaremos una medida de asociacin apropiata dicha matriz. Proporciona toda la Informacin
da para cada uno. Tenga presente que las tres menecesaria para determinar el canicter y la magnididas estudiadas son slo una seleccin arbltrarta
- tud de la relacin entre educacin y prejuicios.
entre muchas medidas pOSibles.
Por ejemplo. advlerta que 23 personas [1) no tienen educaCin. y (2) tuvleron una puntuacin alta
Variables nominales Si las dos vartables constaen prejuicios: 77 personas (1) tienen un posgrado.
ran de datos nominales (por ejemplo. el sexo. la afiy (2) recibieron una calificacin baja en prejuicios.
liacin religiosa. el grupo tnico). la medida apro-

Sexo

Edad

Escolaridad Ingresos

Tendencias
polfdcas

Afiliacin
religiosa

O
I

"

"2

.
.

Afiliacin
polidea

..

Ocupacin

Importancia
de la religi6n

"
I

Tabla 16.2
Datos crudos hipotticos sobre educacin y prejuicios
Nivel edueativo
Ninguno

Primaria

SecJPrep.

Universidad

Posgrado

23

H
21

156
123
95

67
102
164

23
77

Ii
6

12

piada seria lambda (A). Lambda se basa en nuestra


capacidad de conjeturar los valores de una de las
vartables: la RPE que se consigue mediante el conocimiento de los valores de otra vartable.
Imagine esta situacin. Yo le Informo que en una
sala se encuentran 100 personas y que quiero que
usted adivlne el sexo de cada una. Si la mitad son
h01ll,bres y la mitad mujeres, lo ms probable es
que usted acierte la mitad de las veces y se equivoque la otra. Pero supongamos que le dijera la
ocupacin de cada quien antes de que usted conjeturara sobre el sexo.
Que sexo presumira si le dijera que una persona maneja un camin? Probablemente opinar que
es hombre: aunque ahora muchas mujeres conducen camiones, la mayoria siguen siendo hombres.
Si le dijera que la siguiente. persona se dedica a la
enrermeria. quiz usted supondr que es mujer. de
acuerdo con la misma lgica. TodaVa cometera
, errores al adivlnar el sexo. pero es evldente que se
desemp~ara mejor que si no conociera la ocupacin. El grado en el que usted saliera mejor librado
na reduccin proporcional de error) sera un indicador de la asociacin entre el sexo y la ocupacin.
Tomemos otro ejemplo hipottico sencillo que
Ilustra la lgica y el mtodo de lambda. La tabla

Empleado
Desempleado
Total

16

Hombres

Mujeres

Toul

900
100
1000

200
800
1000

1.100
900
2000

16.3 presenta datos hipotticos que relacionan el


sexo y el empleo. En general. observamos que 1100
personas estn empleadas y 900 no. Si usted tuvlera que predecir si las personas tienen empleo o no,
conociendo slo la distribucin general de la variable. conJeturaria siempre "empleado". puesto que
tendra menos errores que si dijera siempre "desempleado. Sin embargo. esta estrategia arrojaria
900 errores en 2000 predicciones.
Supongamos que usted cuenta con los datos de
la tabla 16.3 y que conoce el sexo de cada persona
antes de predeCir los empleos. En tal caso. su estrategia camblarta. Con cada hombre diria "empleado y con cada mujer "desempleada". En estas
circunstancias. cometera 300 errores -los 100
hombres desempleados y las 200 mujeres emplea

J71

CapItUlo 16

Estadlstlcas socIales

das-o 600 errores menos que los que cometeria


sin conocer el sexo de las personas.
Por tanto. lambda representa la reduccin en los
errores como proporcin de 105 errores que se habrian cometido a partir de la dlstrtbucln general.
En este ejemplo hipotetico. lambda seria Igual a
.67: es decir. 600 errores menos divididos entre
900 errores totales basados en el empleo nicamente. De esta manera. lambda mide la asociacin
estadstica entre el sexo y el empleo.
,
Si el sexo y el empleo fueran estadsticamente
independientes. encontrariamos la misma dlstrtbucin de empleo entre hombres y mUjeres. En este caso. conocer el sexo no Influira en el nmero
de errores cometidos al predecir el empleo. y la
lambda resultante seria cero. Por otro lado. si todos los hombres estuvieran empleados y las mujeres desempleadas. conocer el sexo evitara los
errores al predecir el empleo. Usted cometeria
900 errores menos (de UJ1 total de 900). asi que
lambda seria Igual a 1.0: una asociacin estadstica perfecta.
Lambda es apenas una de varias medidas de
asociacin adecuadas para el anlsls de dos variables nominales. Consulte en cualquier libro de estadstica otras mediciones convenientes.
Variables ordinales Si las variables que se relacionan son ordinales (por ejemplo. la clase social .. Ia
religiOSidad. la enajenacin). la medicin apropiada
de la asociacin es gamma (r). Como lambda. gamma se funda en nuestra capacidad de conjeturar
valores de una variable conociendo los de otra. Sin
embargo. en lugar de adivinar valores exactos.
gamma se basa en la dispoSICin ordinal de los valores. En cualquier par de casos. uno presume que
su ordenamiento en una variable corresponder
(positiva o negativamente) con el ordenamiento de
la otra.
Digamos que tenemos un grupo de alumnos de
primaria. Seria razonable suponer que hay una re
lacin entre su edad y su estatura. Para probarlo.
comparariamos parejas de estudiantes: Samuel y
Maria. Samuel y Alfredo. Maria y Alfredo. etc. Despues. omlliriamos todos los pares de alumnos de la
misma edad o altura. Entonces. cJasificariamos los
pares restantes '(105 que difieren tanto en edad como en estatura) en dos categorias: aquella en la

estadistica descriptiva 373

Tabla 16.4
Datos hipotticos que relacionan la clase social
con los prejuicios

o\$C)CillCic,ntlS

gamma entre reactivos de diferenciacin semntica de la escala de santificacin


Honesto

til
Prejuicios
Escasos
Moderados
AltoS

Clase
baja
200
500
800

Clase
media

alta

400
900
300

700
400
100

.79

Superior

.88
.&1

.80
.71
.83

Amable

Amistoso

.90

.79

.83

.77

.68
.79 .

.72

.89
.78

Clido

.82

.73

.60
.88

.90
.90

Helena Znlnleckl lapita. "Widowhood Ind Husbond Sanctlflcation". en Joumol of Mamare ond rile Fomily (mayo d. 198 1): 439-'150.
que el nio de ms edad es tambin el ms
(parejas "iguales") y aquella en la que el nio .
ms edad es el mas bajo (parejas opuestas").
si Samuel es ms grande y alto que Maria.
riamos la pareja Samuel-Maria como "Igual". SI
muel fuera mayor pero mas baja que Maria. la
reja seria opuesta" (si tuvieran la misma edad o
misma estatura. la Ignoraramos).
Para determinar si la edad y la estatura
relacionadas. comparariamos el nmero de
iguales y el de opuestas. Si las parejas iguales
peraran a las opuestas. concluiramos que hay
relacin positiva entre las dos vaJiables: a
que una aumenta. la otra tambien crece. Si
ra mas opuestas que iguales. concluiriamos
hay una relacin negativa. SI hubiera la misma
cantidad de parejas iguales que de opuestas. conc!ulriamos que la edady la estatura no estn relacionadas. que son independientes una de la otra.
Veamos un ejemplo de las ciencias sociales para
Ilustrar los clculos simples de gamma. Digamos
que usted sospecha que la religin guarda una relacin positiva con el conservadurismo politico. SI la
persona A es ms religiosa que la persona 8. usted
conjetura que A es tambin mas conservadora que
B. Gamma es la proporcin de comparaciones pareadas que coinciden con este patrn.
La tabla 16.4 presenta los datos hipotticos que
relacionan la clase social y los prejuicios. El carnc
ter general de la relacin entre estas dos variables es
que. a medida que la clase social aumenta. los prejuicios disminuyen. Hay una asociacin negativa entre clase social y prejuicios.
Gamma se calcula a partir de dos canudades: (I) el
nmero de pares que tienen el mismo orden en las
dos variables y (2) el numero de pares que tienen el

orden opuesto en ambas. Los pares que tienen el


orden se calculan como Sigue. La frecuencia de cada celda de la tabla se multiplica por la
suma de todas las. celdas que aparecen debajo y a
la derecha de ella. y se suman todos estos productos. En la tabla 16.4. el nmero de pares con el
mismo orden seria 200(900 + 300 + 400 + 100) +
500(300 + 100) + 400(400 + 100) + 900{ 100) o
340000 + 200000 + 200000 + 90 000

=830 000.

Los pares con orden opuesto en las dos varla- .


bIes se calculan como sigue: la frecuencia de cada
celda de la tabla se multiplica por la suma de todas
las celdas que aparecen abajo y a la Izquierda de
ella. y se suman todos los productos. En la tabla
16.4. el nmero de pares con orden opuesto seria
7001500 + 800 + 900 + 300) + 4001800 + 300) +
400(500 + 800) + 900(800) o I 750 000 + 440000 +
520 000 + 720 000 = 3 430 000. Gamma se calcula

a partir de los pares del


opuesto como sigue:

~Ismo

orden y del orden

Observe que mientras que lambda varia de O a


l. gamma lo hace de -1 a +1. pasando por O. para
representar la direccin asi como la magnitud de la

asociacin. Como las varlal{les nominales no tienen una estructura ordinal. en tales relaciones no
tiene sentido hablar de direccin (una lambda neo
gatlva Indlcaria que uno comeli ms errores al
predeCir los valores de la primera, variable' conociendo los valores de la segunda que sin conocerlos, lo que no es lgicamente posible).
La tabla 16.5 es un ejemplo del uso de gamma
en la investigacin social contempornea. Para estudiar el grado al que las Viudas santificaban a sus
esposos fallecidos. Helena ZnanleckJ Lopata (1981)
aplic un cuestionario a una muestra probabilstica de 301 viudas. En parte. el cuestionarlo peda a
las entrevistadas que caracterizaran a sus difuntos
maridos de acuerdo con la siguiente escala de dife
renciacin semntica:
Caracterstica

gamma

Iguales - opuestos
Iguales + opuestos

En nuestro ejemplo. gamma es igual a 1830 000 + 3430000) o


- .61. El signo negativo en la respuesta muestra la
asociacl~m negativa que surgi en la inspeccin Inicial de la tabla. En este ejemplo hipottico. la clase
social y los prejuicios estn asociados negativamente. Las cifras de gamma indican que 61 por
ciento ms de los pares examinados tena un orden
opuesto que igual.
3430000) dividido entre (830000

Extremo
positivo
Bueno
til
Honesto
Superior
Amable
Amistoso
Clido

Extremo
negativo
2
2
2
2
2
2
2

"
"
"
"
"
4

5
5
5
5
5

6
6
6
6
6

6
5

7
7

7
7
7
7
7

Malo
Intil
Deshonesto
Inferior
Cruel
Hostil
Distante

Se pidi a las entre\1stadas que describieran a


sus maridos encerrando en un circulo un nmero
para cada par de caractersticas. Observe que la

37.. Capitulo 16

serie numrica que vincula cada par es una medicin ordinal.


A continuacin. Lopata quiso descubrir el grado
al que se relacionaban las mediciones. Convenientemente. eligi gamma como la medida de asociacin. La tabla 16.5 muestra cmo present los resultados de su Investigacin.
El formato presentado en la tabla 16.5 se denomina matriz de correlacin. Lopata calcul gamma'
~ara cada par de mediciones. Por ejemplo. ~ueno y
Utll estn relacionados por un gamma Igual a .79.
Las matrices son una forma conveniente de presentar las correlaciones entre diversas variables. y
usted las encontrara a menudo en la bibllografia de
la Investigacin. En este caso. vemos que todas las
variables se relacionan mucho. aunque el vinculo
de algunos pares es ms fuerte que el de otros.
Gamma es slo una de varias medidas de asociacin adecuadas para las variables ordinales.
Aqu tambin. un libro de Introduccin a la estadstica le ofrecer un tr.ftamlento ms exhaustivo
del tema.

r.

estadistica descriptiva 375

Esadlstlcas sociales

Variables intervalares o de razn SI se asocian variables intervalares o de razn (por ejemplo. edad. ingreso. promediO de calificaciones. etc.). una medida apropiada es la correlacin de producto momenio
de Pearson (rl. La derivacin y el clculo de esta
medida de asociacin es demasiado complicada y
queda fuera del alcance de este libro. por lo que slo haremos algunos comentarlos.
Al Igual que gamma y lambda. r se basa en conjeturar el valor de una variable conociendo otra.
Sin embargo. para variables continuas Intervalares
o de razn. no es probable que uno prediga su valor exacto. Pero. por otro lado. pronosticar slo la
dispOSICin ordinal de 105 valores de dos Variables
no aprovecharla el mayor volumen de Informacin
que comunica una variable intervalar o de razn.
En cierto sentido. r Indica que tanto puede uno
conjeturar el valor de una variable con el conocimiento del valor de otra.
Para entender la lgica de r. piense de qu manera presumitia 105 valores hlpotetlcos que adoptan ciertos casos de determinada Variable. Con las
Variables nominales vimos que uno puede siempre
suponer el valor de la moda. pero con los datos intervalares o de razn minimlzariamos los errores
conjeturando siempre el valor de la media de la va-

rlable. Aunque este ejercicio arroja pocas


ras perfectas o tal vez ninguna. el monto
errores se reduce al mnimo.
En el clcu.lo de lambda sealamos el
de errores que se cometen al indicar siempre
lar de la moda. En el caso de r. los errores se
segun la suma de las diferenCias al cuadrado
el valor real y la media Esta suma se llama
cin total
Para entender el concepto. debemos
marco de nuestro estudio. Veamos la
anAllsia de regresl6n y volvamos a la (,OIT"lo,."
en ese contexto.

Anlisis de regresin
En varios puntos del texto nos hemos referido a
frmula general para describir la asociacin
dos variables: y = f(XI. Esta frmula se lee y
una funcin de X .. lo que significa que los
de Y se e.'C)llican en trminos de las variaciones
los valores de X Para enunciarlo con ms
dlriamos que X causa y. de modo que el valor de
determina el valor de Y. El anlisis de regresin
un mtodo para determinar la funCin
que relaciona y con X. Hay varias formas de
sls de regresin. dependiendo de la complejidad de
las relaciones que se estudian. Comencemos con la',
ms simple.
Regresin lineal El modelo de regresin se aprecia
ms claramente en el caso de una asociacin lineal
perfecta entre dos variables. La figura 16. l es un
diagrama de dispersin que presenta en forma grfica los valores de X y Y que arroj un estudio hi.
pattico. Muestra que. en los cuatro casos de nues
tro estudio. los valores de X y r son idnticos en
cada uno. El caso con un val~r de l en X tambin
llene un valor de l en ): etc. Aqu. la relaCin en.
tre las dos variables se describe con la eCuacin
y =X: sta se llama ecuacin de regresin. Como los
cuatro puntos se encuentran sobre una reCIa. podemos sobreponer la linea a los puntos: se trata de
la linea de regresin.
Este modelo de regresin lineal tiene usos des
criptlvos importantes. La linea de regresin ofrece
una imagen grfica de la asociacin entre X y jo: y

16.1
simple de dispersin de los valores de X y Y

Valores de X

ecuacin de regresin es una forma eficaz de reEl modelo de regreSin tambin tiene un
de inferencia. En la medida en que Ia ecuacin
regresin describa correctamente la asociacin geentre las dos. variables. dicha ecuacin servpara predecir otros valores. Por ejemplo. si sa
que un caso nuevo tiene un valor de 3.5 en
X. podemos predecir el valor de 3.5 tambin en Y.
Desde luego. en la prctica rara vez se limitan
los estudios a cuatro variables. y las asociaciones
de stas casi nunca son tan claras como en la figura 16.1.
Se presenta un ejemplo un poco ms realista en
la figura 16.2. que muestra una relacin hipottica
entre la poblaCin y el ndice de delincuencia de
ciudades pequeas y medianas. Cada punto del
diagrama de dispersin representa una ciudad y su
ubicacin refleja la poblacin de la ciudad y su indice de delincuencia. Como en el ca'so de nue'stro
ejemplo anterior. los valores de Y (indic'es de delincuencia) corresponden a los de X (poblaciones). y si
aumentan los valores de X. tambin se Incremen
tan los de Y. Sin embargo. la asociacin no es tan
clara como en el caso de la figura 16. l.
En la figura 16.2 no podernos sobreponer una linea recta que ,pase por todos los puntos del diagra
ma de dispersin. pero si podemos trazar una linea
aproximada que muestre la mejor representacin
lineal de varios puntos. como hicimos en la grafica.

SI ha estudiado geometria. sabr que cualquier


linea recta puede representarse en una grfica con
una ecuacin de la forma Y a + bX. en la que X y
Y son 105 valores de las dos variables. En esta
ecuacin. a es Igual al valor de Y cuando X es Igual
a cero y b representa la pendiente de la linea. SI conocemos 105 valores de a y de b. podemos calcular
una estimacin de Y para cada valor de X.
El anlisis de regresin es una tcnica para establecer la ecuacin de regresin que representa la
linea geomtrica que ms se acerca a la distribucin
de los puntos. Esta ecuacin es ul tanto para fines descriptivos como de Inferencia. Primero. la
ecuacin de regresin proporciona una descripcin
matemtica de la relacin entre las variables. Segundo. nos permite inferir valores de Y si tenemos los
de X. SI regresamos a la figura 16.2. podramos estimar 105 ndices de delincuencia de las ciudades si
conociramos su poblacin.
Para mejorar las conjeturas. se traza una linea
de regreSin enunciada en la forma de una ecuacin de regresin que permita estimar los valores
de una variable a partir de los valores de 0u:a. La
forma general de esta ecuacin es Y' a - bIXI. en
la que a y b son los valores calculados. X algn valor de una variable y Y' el valor estimado de otra.
Los valores de a y b se calculan para mlnimi~ las
diferencias entre los valores reales de jo' y los estimados correspondientes (Y') basados en el valor conocido de X. La suma de las diferencias al cuadrado
entre los valores real y estimado de Y se denomina
variacin no explicada. porque representa los errores que an estn presentes aunque las estimaciones se basen en 105 valores conocidos de X.
La variacin e:q,licada es la diferencia entre la
variacin total y la no explicada. Al dividir la variacin explicada entre la variacin total se produce
una medida de la reduccin proporcional de error
equivalente a la cantidad semejante en el clculo
de lambda. En este caso. la cantidad es la correla
cin al cuadrado: r2 . As. si r =.7. entonces r 2 = .49.
lo que significa que s~ explica aproXimadamente la
mllad de la variacin. En la prctica. calculamos r
en lugar de r 2 puesto que la correlacin producto
momento lleva signo positiVO o bien negativo. dependiendo de la direccin de la relacin entre las
dos variables (al calcular r2 y extraer la raiz cuadrada se obtendr siempre una cantidad positiva).
Consulte en cualquier libro de estadistica el mto'

Y\f

~Ilr!.I"

376

Caplwlo 16

Estadlstlcas sociales
Estadistica descriptiva

rill Figura 16.2

l/JI
11"
lU

Diagrama de dispersin de los valores de dos variables con la linea de regresin aadida (hipottico)

r----------"7------------:..:=:.:~.:~::.:::~::::--_J

Iii

5000

11
I,

iJi

..Q
.g

Q)

,i,.i
I1

11 . 1

11"

tU

.t::

o
o

ji,

4000

8o
tU

'O

3000

15

.,9,

.!!!

"
c:
:"
c:

Q)

::l

2000

'O
Q)

'O
Q)

.9

de una. Asimismo, Yerg escogi represenba en la ecuacin. pero con el mismo


que ya explicamos. Por ltimo, la ecuacin
con un factor residual (e), que representa
cre'oancl.a en Y que no.es explicada por las vaX analizadas.
partir, pues, de esta ecuacIn, Yerg calcul los
de las b para mostrar las aportaciones rede las variables IndependIentes en la deterde las calificacIones finales del desempelos dIscpulos. TambIn calcul el coeficiente
mltlple como indIcador del grado
e las seis valiables predIcen las calificaciones
Esto sIgue la mIsma lgica del anlIsis de
Irr"U'~IUlJ blvariado sImple que ya estudiamos, y
lo regUlar se slmboltza con R mayscula. En
caso. R
.877, lo que Significa que 77 por
de la valianza (.877 2 = .77) en las callflcaciofinales se explica por las seis valiables actuan-

1000

'O

..5

Poblacin
do ~ara calcular r. aunque me imagino que la mayona .de los lectores que apliquen esta medicIn
tendran acceso a programas de computadora des[lOados a esta funcIn.

Aunque I~ exposIcin antelior le haya parecIdo


q.ue Uene mas estadstica de la que le gustaria la
\~da socIal es tan complicada que con frecuencI~ el
modelo de regresin !lneal Simple no representa
suficI~ntemente el estado de cosas. Como Vimos en
el capitulo 15. es posIble analizar ms de dos vanables co~ tablas de porcentajes. Conforme au~enta .el numero de Variables. estas tablas se vuel~ en mas complicadas y dlficiles de leer. En tales
_asos. el modelo de regresin es una alternativa
Jrovechosa.

~greSin mltiple Muy a menudo. los investigadores


, ~Iales des('ubren que una variable dependiente
u re el efecto simultneo de diversas Variables I _
lependlentes El
I
n
an Isls de regresin mltl'pl e
. d'
,rovee u
'al fu
n me 10 para examinar tales SituaCiones.
e el caso cuando Beverly Yerg (1981) se pro-

100000

p~so estudiar la eficacia de los maestros de educaclon fisica. _


Declar sus expectativas
en la forma d
e
U na ecuacion de regresill mltIple:
F= be + b,l + ~I + b:X2 + b,X3 + bsX. + e
F = Caltflcacln final del desempeo del

dISCpulo
1 = CaltIlcacln Inicial del desempeo del

dlscipulo
X, = Combinacin de prctica gUiada y de apoyo
.!12 = Compuesto de dominio del contenido del
maestro
X:t = Compuesto de realimentacin espectllca
sobre la tarea
X4 = Compuesto de presentacin clara y concisa
de la tarea
b = Peso de la regresin
e = Residuo
IAoAPrAOO DE YERG. 1981: 42)

Observe que en lugar 'de una sola variable X en


la regresin lineal hay varias X. asi como varias b

'el!resin parcial ImagIne lo que ocurlila sI le presatencin especial a la relacIn entre dos vacuando se mantiene constante una tercera
de prueba. Asi. podramos examInar el
de la educacin en los prejuIcios mantenlenla edad constante para poner a prueba el efecto
.tn'ler,erIOl,en'e de la educacin. Para ello. calculapor separado la relacin tabular entre educacin y prejuicios en cada grupo de edad.
Lds regresiones parciales se basan en este mls. mo modelo lgico. La ecuacin que resume la rela. cin entre variables se calcula sobre la base de las
variables de prueba que se mantienen constantes.
El resultado puede compararse con la relacin no
controlada entre las dos valiables para aclarar an
ms la relacin general.
Regresin curvilnea Hasta aqu hemos estudiado la
asociacin entre valiables representadas por una
linea recta. aunque en ms'de dos dimensiones.
El modelo de regresin es an ms general de lo
que imp~ica nuestra exposicin hasta este momento.
Si usted tiene conocimientos de geometlia. ya
sabe que las funciones curvas tambien se repre-.
sentan mediante ecuaciones. Por ejemplo. la ecuacin X 2 - \-'2 = 25 describe un circulo con radio

de 5_ Elevar las valiables a :otencias mayores que


1 tiene el efecto de producir curvas en lugar de rectas. y en la investigacIn empinca no hay razones
para suponer que la relacIn entre todo conjunto
de variables ser lineal. As, en algunos casos el
anlisIs de regreSIn curVilnea permite entender
mejor las relaciones que cualquIer modelo lineal.
Sin embargo. recuerde que las lineas de regresin cumplen dos propsitos. Describen un conJunto de observaciones empricas y ofrecen un modelo general para hacer Inferencias sobre la
relacin entre dos valiables en la poblacin total
que las observaciones representan. Una ecuacin
muy complicada producila una linea errtica que
pasalia realmente por todos los puntos. En este
sentido. descliblla a la perfeccIn las observaciones emplicas. No obstante. nada garantizara que
la linea predijera observaciones nuevas ni que representara en algn sentido, significativo la relacin entre las dos variables en general. As. tendria
poco o ningn valor para hacer inferencias.
Ya nos refelimos a la necesidad de equilibrar los
detalles y la utilidad de la reduccip de los datos.
En ltima Instancia. los Investigadores tratan de
ofrecer la representacin de sus datos ms fiel. y
tambin la ms Simple. Esta costumbre tambin
atae al anlisis de regresin. Hay que presentar
los datos de la manera ms simple (por eso las regreSiones lineales son las ms frecuentes) y que
descliba mejor los datos reales. El anlisis de regreSIn curVilnea aade otra opcin a los investigadores en este respecto. pero no resuelve todos
los problemas. Nada puede hacerlo.
Precauciones en el anlisis de regresin El uso de
anlisis de regreSin para hacer inferencias estadisticas se basa en las mismas premisas del anlisIs correlaclonal: muestreo aleatolio simple. ausencia de errores no atribuibles al muestreo y
datos Intervalares continuos. Como la Investigacin social cientfica rara vez satisface por completo estas premisas. usted debe tener cuidado al evaluar los resultados de los anlisis de regresin.
Asimismo. las lineas de regresin -rectas o curvas- pueden ser tiles para hacer inrerpolaciones
(para estimar los casos que se encuontran entre los
observados). pero son menos fiables para hacer ex
[rapolaciones (para estimar 105 casos que quedan

! . 378 Capitulo I6

Esadlsticas sociales

OtraS tcnicas multivariadas 379

Los tres mtodos que examinaremos son el ande trayectorias. el anlisis de series temporales
anlisis factorial. per' tenga presente que son
cuantas de las numerosas tcnicas
_..,."".."""." qlle utll!zan los cientficos sociales.
observe que los niveles de medicin estl\ en
escala ordinal.
SI usted-qUiere utilizar una variable de nivel
Intervalar o de razn en una tatila cruzada.
.
primero debe recodificarla como variable de nivel'
ordinal.

,"."

dVierta que esta tabla est dispuesta con


las variables dependientes en las filas y las
Independientes en las columnas. que es
como se suelen organizar las tablas. Adems.

Variable independiente
Nominal

Ordinal
Variable
dependiente

Intervalar/de raz6n

Nominal

Ordinal

Tablas cruzadas
Ji cuadrada
Lambda
7bblas cruzados
Ji cuadrada
Lambda

Tablas cruzadas
Ji cuadrada
Lambda
Tablos cruzados
Ji cuadrada
Lambda
Gamma
Tau de Kendall
d de Sommers

Medias
Prueba r
ANOVA

Medios

fuera del margen de observaCin}. Esta limitacin


de las extrapolaciones es Importante de dos maneras. Primera. es posible que uno se tope con ecuaciones de regreSin que Implican predicciones ilgicas. Por ejemplo. una ecuacin que vincula la
poblacin y la delincuencia podra Indicar que los
- pueblos pequeos con. digamos. 1000 habitantes.
- deberan tener 123 delitos al ao. Esta falla en la
capaCidad de prediccin no descalifica la ecuaCin.
pero revela que su aplicabilidad se limita a cierto
_ intervalo demogrfico. Segunda. a veces los Investigadores sobrepasan este lmite. hacen InferenCias
- fuera de su margen de observaCin y usted hara
bien en criticarlos por eJlo.
En las secciones anteriores le presentamos alsunas tcnicas para medir asociaciones entre va-Iables del mismo nivel de medicin. El asunto se
~ompllca un poco ms cuando las dos variables reJresentan diferentes niveles de medicin. Aunque
10 desarrollaremos el tema en este libro. le ofrezco

Prueba t
ANOVA

Intervalar/de raz6n

Corre/adn
r de Pearson
Regresi6n (R)

un recuadro escrito por Peter Nardl como recurso


til por si alguna vez tiene' que abordar tales situaciones.
Si usted quiere utilizar una variable de nivel Intervalar o de razn en una tabla cruzada. primero
debe recodificarla como variable de nivel ordinal.

Otras tcnicas multivariadas


En su mayor parte. este libro se ha concentrado en
formas ms bien rudimentarias de manipulaCin
de datos. como tablas de contlngencla y porcenlajes. En esta seccin emprenderemos un tour gastronmico de otras tres tcnicas multivarladas que
emplean los cientficos sociales. No se preocupe
por aprender a aplicarlas. Simplemente quiero que
conozca lo suficiente de ellas para que no est completamente perdido si se las encuentra en un infor- .
me de investigacin.

,.anIRII.SIS

de trayectorias

aniUais de trayectorias es un modelo causal


comprender las relaciones entre variables.
se basa en el anlisis de regresin. ofrece
grfica ms til de las relaciones entre dlvariables que otros medios. El anlisis de
' ....""''''t'n..''' asume que los valores de una variable estn causados por los valores de otra. asi que es
esencial distinguir la variable independiente de la
dependiente. Desde luego. este requisito no es exclusivo del anlisis de trayectorias. pero ste ofre, ce una forma nica de presentar los resultados ex.pllcaUvos para su interpretacin.
Aparte de la diagramacln de una red de relaciones entre variables. el anlisis de trayectorias tambin muestra la fuerza de tales relaciones. Esta
fuerza se calcula a partir de un anlisis de regresin que arroja cifras anlogas a las relaciones parciales del modelo de elaboracin. Estos coefICientes
de trayectoria. como se denominan. representan la
fuerza de las relaciones entre pares de variables.
mientras se mantienen constantes los efectos de
todas las otras variables del modelo.
Por ejemplo. el anlisis de la figura 16.3 se concentra en las causas religiosas del antisemitismo
entre'los cristianos. Las variables del diagrama
son. de Izquierda a derecha. (1) la ortodoxia. o el
grado al que los sujetos aceptan las creencias convencionales sobre 0105. Jess. los milagros bblicos. etc.; (2) el particularismo. la convicclQn de que
la religin de uno es la "verdadera fe"; (3) la aceptacin de la Idea de que los judos crucificaron a
Jess; (4) la hostilidad religiosa hacia los Judos
contemporneos. como pensar que Dios los castiga
o que sufrirn una maldicin si no se convierten al
cristinismo; y (5) el antisemitismo secular. como
creer que los Judos cometen fraudes en sus negocios. son desleales con la patria. etctera.
Para e':npezar. los Investigadores que realizaron
este anlisis postularon que el antisemitismo secular se produca por un desplazamiento a travs de
las cinco variables: la ortodoxia causaba el pariicularismo. el cual provocaba la Idea de que los judos
crucificaron a Jess. la cual produca la hostilidad
religiosa contra los Judos contemporneos. la cual.

al fin. daba por resultado el antisemitismo secular.


El diagrama de trayectorias cuenta otra historia:
Por ejemplo. los investigadores descubrieron que la
creencia en el papel histrico de los Judios como
cruclficadores de Jess no pareca importar en el
prQceso. Y. aunque el particularismo forma parte
de un proceso que da por resultado el antisemitismo secular. el diagrama tambin muestra que ste
se debe ms directamente a la ortodoxia y a la hostlldad religiosa. La ortodoxia produce hostilidad religiosa. Incluso sin particularismo. y la hostilidad
religiosa genera hostilidad secular en cualquier caso.
Viene a cuento un ltimo comentario acerca del
anlisis de trayectorias. Aunque es un excelente
medio para manejar cadenas causales complejas y
redes de variables. usted debe tener presente que
el anlisis de trayectolias en s mismo no indica el
orden causal de las variables. ni el diagrama de
trayectorias se genera por computadora. Los Investigadores decidieron la estructura de las relaciones
entre las variables y aplicaron el anlisis computarizado slo para calcular los coeficientes de trayectoria que corresponden a tal estructura.

Anlisis de series temporales


Las diversas formas del anllsis de regreSin se
emplean a menudo para examinar datos de series
temporales que representan cambios de una o ms
variables con el paso del tiempo. Como de seguro
sabe. los ndices de delincuencia en las ciudades
grandes han aumentado con los aos. Un anlisis
de series temporales de los ndices de delincuencia
expresaria la tendencia de largo plazo en un formalo de regresin y ofreceria una forma de poner a
prueba las explicaciones de esa tendencia como el
crecimiento demogrfico o las fluctuaciones econmicas y permltlria pronosticar los ndices de delincuencia futuros.
Como ejemplo sencillo. la figura 16.4' es una
grfica de los ndices de robos con el paso del tiempo en una ciudad hipottica. Cada punto de la grfica representa el nmero de robos denunciados a
la polica durante el ao indicado.
Supngamos que creemos que los robos son en
parie funcin del exceso poblacionaL Tal vez usted
razonaria que el hacinamiento produce estrs y
frustracin. lo que da por resultado un aumento de
los delitos de todas clases. SI recordamos nuestro
estudl.o del anlisis de regreSin. creariamos una
ecuacin de regresin que representara la relacin
entre los robos y la densidad demogrfica con las

380

Capitulo 16

Estadlstlcas sociales
OtraS tcnicas multlvarladas 381

Figura 16.3

1~4

Diagramacin de las fuentes religiosas del antisemitismo

de robo con el tiempo en una ciudad hipottica

."..".-

....

---- ----

-.03

--------7
Linea de regresin
basada en la densidad
demogrfica

.27

..

, .-

1
.- .
..
..
/'

./

./

./

./

./

,,"

./

","

./

./

./

./

./

./

., .
, .-

r>/
. ./

./

_Indice real de robos

./

,;
1950

, " .......
1960

1970

1980

1990

Ao

Fuente: Rodney Stark. Bruee D. Foster. Charles y. Gloek y Harold E. Quinloy. v.\!ywont Shepllents -P,ejudiee and /he P"'te.tant CI.'gr. Copyright
1971 por la liga Antidlfamatoria d. B'nai Brlth. Reimpreso con permiso d. Harper and Row. Publi,hers. Inc.

cifras reales de cada variable y los aos como unidad de amilisls. Luego de obtener la ecuacin de
regresin de mejor ajuste. calculariamos el ndice
de robos de cada ao basados en la densidad demogrfica del periodo respectivo. En aras de la
Simplicidad. supongamos que el tamao de la poblacin (y por tanto su denSidad) se ha incremenlado constantemente. Esto nos llevaria a predecir
un aumento tambin constante en 105 ndices de
robos. Estas estimaciones de regresin se representan con la linea punteada de la figura 16.4_
A menudo. las relaciones en las series temporales son ms complicadas de lo que revela este
ejemplo simple. En primer lugar. puede haber ms
de una Variable causal. Por ejemplo. qUiZ encontremos que los indices de desempleo llenen tam-

bin un efecto fuerte en los robos. Entonces. formularamos una ecuacin para predecir los robos sobre la base de ambas varables causales. Como resultado. las predicciones no se encontraran en
una linea recta Simple.
Mientras que en el primer modelo la densidad
demogrfica aumentaba constantemente. el desempleo aumenta y disminuye. En consecuencia.
nuestras predicciones de los indlces de robo subiran y bajaran.
Al profundizar en las relaciones entre los indices
de robos y desempleo. razonaramos que la gente
no empieza a robar en cuanto se queda sin empleo.
Habitualmente comienza por agotar sus ahorros.
pedir prestado a 105 ami~os y no dejar de esperar
un trabajo. El robo sera el ltimo reclIrso.

El anlisis de regresin de desfase temporal se~


vila para abordar este caso ms co~pllcado. AsI.
crearamos una ecuacin de regresion que prediJera ~l indlce de robos de cierto ao basados. en
parte. en el indlce de desempleo del ao anterior o
quiz en el promedio de dos aos. Las posibilidades
son Interminables.
SI usted lo medita. es probable que dc:more algn tiempo el efecto de muchas vara bies causales.
Muchos de los paises mas pobres del mundo sobreviven haciendo corresponder sus elevados ndices
de mortalida.d con indlces de natalidad Igualmente
altos. Ms an. se ha observado una y otra vez
que cuando se reduce en forma radical el ndice de
mortalidad de una sociedad por ejemplo. mediante
la mejora de cuidados medicas. sistemas de sanidad pbtica y sistemas agricolas. sus 'ndlces de
natalidad descienden un tiempo des pues. pero con
un periodo intermedio de crecimiento demogrfico
acelerado. O. para tomar un ejemplo muy diferente. es probable que al aplicar medidas energicas
para reducir la velocidad en las carreter~~ disminuya la velocidad promedio de los automovdes; sm

embargo. la relacin causal involucra sin duda una


demora -dias. semanas o quiz meses- para que
los conductores se den cuenta de la seriedad de las
medidas.
En todos estos casos. las ecuaciones de regresin generadas pueden adoptar muchas formas.
ComoqUiera que sea. el criterio para juzgar su'
acierto o error es la medida en que el Investigador
puede dar cuenta de los valores reales que observa
en la variable dependiente.

Anlisis factorial
El an.Uaia factorial es un planteamiento del anlisis mulUvariado distinto al de regresin. Sus bases
estadsticas son demasiado complicadas y diferentes de la exposicin anterior como para aconsejar
un estudio general aqui.
El anlisis factorial sirve para descubrir patrones entre las variaciones de 'los valores de diversas
variables. En esencia. esto se consigue mediante la
generacin de dimensiones artificiales (factores)

382

Capitulo 16

OtraS tcnicas multivariadas 383

Estadsticas sociales

que se correlacionan mucho COI) algunas de las vaVeamos un ejemplo de la aplicacin del
I1ables reales y que son Independientes unas de
factorial. Muchos Investigadores sociales han
otras. Hay que usar una computadora para llevar
diado el problema de la delincuencia. Ahora
a cabo esta complicada operacin.
cuando uno profundiza en el problema
Supongamos que un archivo de datos contiene
que hay muchas clases de delincuentes. En
varios Indicadores de los prejuicios de los sujetos.
encuesta de estudiantes de secundarla en un
Cada reactivo debe dar alguna Indicacin de los . queo poblado de Wyoming. Moms
prejuicios. pero ninguno una Indicacin perfecta.
(1980) se propuso crear una tlpologia de la
Adems. todos estos reactivos deben estar muy
cuencia. Su cuestionario peda a los ..",rll'"o _,
correlacionados empirlcamente. En el anlisis facque dijeran si habian cometido una variedad de
torial de los datos. el Investigador crearla un~ ditos delictivos. Entonces. someti las
mensin artificial muy correlacionada con cada
un anlisis factorial. Los resultados se
en la tabla 16.6.
uno de los reactivos que mlden los prejuicios. Cada sujeto recibirla un valor en esa dimensin artiComo se aprecia en la tabla. a la izquierda
ficial. un valor que sera un buen Indicador de los
anotados diversos actos delictivos. Las cifras que.
atributos observados en cada reactivo.
aparecen en el conjunto de la tabla son las cargas
Supongamos ahora que el mismo estudio prode los cuatro factores elaborados en el anlisis.
porcionara varios indicadores de la capacidad para
Observar que Forslund ha rotulado las dimensio~
las matemticas de los sujetos. Es probable que el
nes. Yo trac unas llaves en las cifras de cada factor
anlisis factorial tambin generara una dimensin
que lo llevaron a la eleccin de esos rtulos. Forslund
resume los resultados como Sigue:
artificial muy correlaclonada.con cada uno de tales
reactivos.
En el toLal de la mestra son evidentes cuatro
La salida de un programa de anlisis factorial
patrones bastante claros de actos delictivos. En
consiste en columnas que representan los factores
orden de cantidad de varianza explicada. los'
(dimensiones artificiales) generados a partir de
rotul: 1) Delitos contra la propiedad. que
las relaciones observadas entre las variables ms las
Incluyen vandalismo y robo: 2) Incorregibilidad: 3) :
correlaciones entre cada variable y factor. llamaDrogas/vagabundeo: y 4) Reyertas. Es Interesante .
das cargas factoriales.
y quiz sorprendente ver que el vandalismo y el
En el ejemplo anterior es probable que un facrobo aparecen en el mismo factor. Pareceria que
tor represente ms o menos a los prejuicios y que
los alumnos de secundaria que cometen delitos
otro represente ms o menos la capacidad para las
contra la propiedad tambin participan en actos
de vandalismo y robos. Tambin es interesante
matemticas. Los reactivos de datos que miden los
observar que las drogas. 'el alcohol y el
prejUicios tendran una carga ms elevada en este
vagabundeo se encuentran en el mismo factor.
factor (estaran ms correlaCionados) y menos car(1980: 4)
ga en el factor de la capacidad para las matemticas. Los reactivos de datos que miden la capacidad
Luego de determinar este patrn general. Forspara las matemticas mostraran el patrn opuesto.
lund repUl el anlisis factorial en forma separada
Sin embargo. en la prctica. el anlisis factorial
para nios y nias. En ambos casos surgieron
no procede de esta manera. sino que se introducen
esencialmente los mismos patrones.
las variables en el programa y la salida se compoCreo que este ejemplo muestra que el anlisis
ne de una serie de factores con la carga apropiada.
factorial es un mtodo eficaz para descubrir los pa.
Entonces. uno debe determinar el significado de
trones predominantes entre un nmero grande de
cada factor sobre la base de las variables que tenvariables. En lugar de que usted y el Invesllgador
gan ms carga en l. No obstante. la generacin de
se vean obligados a comparar Incontables correlafactores no remite al significado de las variables.
ciones simples. parCiales y mltiples. pueden rea_ sino slo a las asociaciones empiricas. Se toman en
lizar un analisls factorial para cumplir con esta
cuenta dos criterios: (1) un factor debe explicar
tarea. Dicho sea de paso. se trata de un buen ejemuna porcin relativamenle grande de la varianza
plo del uso provechoso de las computadoras.
que se encuentra en el estudio de las variables. y
El anlisis factorial tambin presenta los datos
(2) cada factor debe ser mas o menos independienen una forma que puedan interpretar el lector o el
te de 105 demas.
investigador. En cada factor. el lector descubre f-

16.6
factorial: actos delictivos. blancos
Delitos contn la
propiedad Factor I
faros callejeros. etc.
ventanas
bardas. tendederos. etc.
cosas de poca monta
el aire de neumticos
cosas de vaior
huevos. basura. etc.
cosas sin valor
cosas de pupitres. etc.. en la escuela
un auto sin permiso del duello
algo
.Desobedecer a los padres
Marcar pupitres. paredes. etc.
Decir cosas crueles para vengarse
Desobedecer los maestros directivos

.669
.637
.621
.616
.587

.126
.093
.186
.187

.5~8

-.017
.339
.393
.232
.172
.237
.6<12
.550
.537

.526
.~86
.~6<1

.<161
.~51

Fumar mariguana
Consumir otras drogas por diversi6n
Falsllicar la firma de un permiso escolar
Seber alcohol en ausencia de los padres
Irse de pinta (hacer novillos)
Golpear a alguien durante una discusi6n
Pelear: golpear o luchar

.05<1
.236
.13-4
.2-40
.232
.373
.05<1
.137
.2-46
.0<19
.101
.309
.2<12

Porcentaje de varianza

67.2

Desafiar a los padres


Hacer llamadas telef6nicas an6nimas

Incorregibilidad
Factor 11

.2~3

.0497
A58
.-4-46
.06-4
.016
.2<19
.247
.252
.088
.266
13.<1

Drogas/vagabundeo
Factor III
.119
.077
.186
.233
.05-4
.276
-.023
.1-43
-.002
.080
.071
.209
- .061
.0-45
.223
.305
.029
.755

~, 1

.395
.358
.319
.181
.070

ReyertaS
Factor IV
.167
.215
.186
.068
.156
.034
.266
.077
.027
.0<10
.250
.039
.021
.100
.195
.058
.135
-.028
.00<1
.189
.175
.181

10.9

.8<131
.602
8.<1

e Inyolvement:An Em 'rical Typology" trabajO presentado en la reunin anual de l.


Fuente: Horris A. Fonlund. "Pattem. of Oelinqueln y L thb'd Albert!" 8 de febrero d~ 1980. La tabla esti .daptada de la pgina 10.
Asoai.cln Occidental de Socl610gos y Antrop ogo.. e n ge.

cUmente las variables que ms lo cargan. con lo


que detecta los agrupamientos de stas .. o ~ien I~s
factores de determinada variable que es tan mas
cargados o no.
Pero el an8.llsis factorial tiene tambin sus desventajas. Primera. como sealamos. los factores se
generan sin atender a ningn significado sustancial. A menudo.. los investigadores desc1:ibren factores que producen cargas muy elevadas en un grupo de variables dispares. Por ejemplo. pueden
descu(;hr que los prejuicios y la religiosidad llenen
cargas muy poSIl\vas en determinado factor. en
tanto que la educacin posee una carga Igual pero
negativa. Desde luego que las tres variables estn
muy relacionadas. pero. qu representa el factor?
Tambin es muy frecuente que los investigadores
inexpertos nombren estos factores -falta de educa-

cln rellgloso-prejuicistica". o algo Igual de Insensato.


Segunda. se suele criticar al anlisis factorial
sobre bases filosficas. Recuerde nuestra aseveracin de que las hiptesiS. para ser legitimas. deben
ser refutables. SI el investigador no puede especificar las circunstancias que rebatiran su hiptesis.
sta es una lautologia o bien es inservible. En cierto
sentido. el anlisis factorial tiene este defecto. Cualesquiera que sean los datos de inicio. el anlisi~
arrojar una solucin en la forma de factores. ASI.
si el investigador pregunta" hay patrones enlre
estas vartablesT. la respuesta ser siempre "si".
Tambin hay que tener en cuenta esle hecho al
evaluar los resultados del anlisis factorial. La
generacin de factores no garantiza de ninguna
~anera su significado.

38<4

CapItulo' 6

Estadlsticas sociales
Estlldistlca Inferencia' 385'

MI opinin personal sobre el anlisis factolial es


la misma que sobre otros modos complicados de
anlisis. Puede ser una herramienta extremadamente til para ellnvestlgador de las ciencias sociales. y hay que fomentar su uso siempre que auxilie a los estudiosos para comprender un conjunto
de datos. Sin embargo. como en todos los casos.
nunca olvide que estas herramientas no son ms
que eso. y no soluciones mgicas.
Asi completamos nuestra exposicin de o~
tcnicas analitlcas que emplean los cientficos sociales. Slo rascamos en la superficie de cada una
y hay muchas otras tcnicas que no tocamos en
absoluto. MI intencin ha sido darle una introduccin a las tcnicas que. si quiere. estudiar despus
a fondo. y famlllalizarlo con elJas para el caso de
que se las encuentre al leer las Investlgaciones
de otros colegas.

Estadstica inferencia!
Muchos de los proyectos de investigacin social
cientfica. si no es que todos. comprenden el examen de los datos recopilados en una muestra tomada de una poblacin mayor. Se entrevista a una
muestra de personas en una encuesta; se codifica
y analiza una muestra de un registro de divorcios;
se examina mediante un anlisis de contenidos
una muestra de peridicos. Nunca o casi nunca est~dlan los investigadores una muestra para deSCriJI.rla per se: en la mayor parte de los casos. el proJoslto ltimo es elaborar afirmaciones sobre la
)oblacln mayor de la que tomaron la muestra. Por
anta. a menudo usted querr interpretar los halazgos muestrales univariados y multlVariados cono la base para hacer injerencias acerca de alguna
)Oblacin.
En esta seccin examinaremos las medidas esa~istlcas con las que se hacen tales Inferencias.
SI como sus fundamentos lgicos. Comenzaremos
on los datos univaliados y pasaremos entonces a
>s mulliValiados.

1 ferencias

univariadas

las primeras secciones del capitulo 15 tratamos


~ los mtodos para presentar datos univarlados.
~da m d' ..
e IClon sumaria pretendia ser un metodo
11

de desclipcin de la muestra en estudio. Ahora


plearemos tales mediciones para hacer
nes ms generales sobre la poblacin. En
seccin abordamos dos medidas unlvaliadas:
centaJes y medias.
SISO por ciento de la muestra de personas
que se habia resfriado el ao pasado. 50 por
to es ta~hln nuestra mejor estimacin sobre
proporclon de resfriados en la poblaCin total
la que extrajimos la muestra (desde luego. esta
timacln supone una muestra aleatoria
Sin embargo. es poco probable que eX(lcl,Clmenlr",
por ciento de la poblacin haya padecido
durante el ao; pero si seguimos un diseo
muestreo riguroso para la seleccin alp.atolia.
.
mos capaces de estimar el margen de error esperado cuando los resultados de la muestra se aplican '
a la poblacin.
En el capitulo 8 (sobre la teoria del muestreo)
cubrimos los procedimientos para realJzar tales estimaciones. por lo que aqui slo los repasaremos.
En el caso de un porcentaje. la cantidad
pxq

. n

en la que p es el porcentaje. q es igual a I - P y n es


el tamao de la muestra. se denomina error estndar. Como anotamos en el capitulo 8. esta cantidad
es muy Importante para estimar el error de muestreo. POdriamos tener 68 por ciento de confianza en
que la cifra de la poblacin cae entre mas o menos
un error estndar de la cifra de la muestra: lenem~s 95 por ciento de confianza en que cae entre
mas o menos dos errores estndar. y tenemos 99.9
por ciento de confianza de que cae en tre ms o menos tres errores estndar.
Por tanto. cualquier aseveracin sobre el error
de muestreo debe tener dos componentes esenciales: el niL'el de corYianza (por ejemplo. 95 por ciento) y el interualo de cOl1Jlanza (por ejemplo. 2.5 por
cientol. Si 50 por ciento de la muestra de 1600 personas afirm que padeci un resfriado durante el
ao. diriamos que tenemos 95 por ciento de confianza en que la cifra de la poblaCin estar entre
47.5 y 52.5 por ciento.
AdVierta en este ejemplo que hemos pasado de
la Simple descripcin de la muestra al reino de las
estimaciones (inferencias) sobre la poblaCin mayor. Al hacerlo, debemos tener varias precauciones.

la muestra debe provenir de la poblasobre la cual hacemos las Inferencias. Una


tomada del directorio telefnico no puede
legtimamente la base para hacer Inferencias
la poblacin de una ciudad.
Segunda. la estadistica Inferenclal supone un
aleatolio simple. que casi nunca es el calas muestras de encuestas. La estadistica
un muesireo con reemplazo. lo que casi
se hace; pero no es un problema serlo. Aunse apUca el muestreo sistemtico con ms freque el aleatorio. tampoco presenta problegraves si se realiza correctamente. Por su
. es evidente que el muestreo estratificado. comejora la representatlvidad. no tiene probleEn cambio. el muestreo por agrupamlp.ntos si
problemas. pues es posible que las es'tlmaclones del error de muestreo sean demasiado pe. queas. Es del todo evidente que tomar una muestra en la esquina de la calle no garantiza la
aplicacin de la estadstica inferenclal. Esta tcnica de error estndar de muestreo asume tambin
un indice de terminacin de 100 por ciento. Este
problema empeora a medida que disminuye el ndice de terminacin.
Tercera. la estadstica Inferencial comprende slo los errores de muestreo. no los de otra clase. Asi.
aunque acertemos al explicar que entre 47.5 y 52.5
por ciento de la poblacin (95 por ciento de confianza) dina que padeci resfliados el ao pasado.
no podriamos conjeturar con tanta confianza el
porcentaje de quienes realmente enfermaron. Como ~s probable que los errores que no son de
muestreo sean mas grandes que los errores de muestreo en un diseo de muestra respetable. tenemos
que ser especialmente cuidadosos al generalizar
sobre la poblacin a partir de los resultados de la
muestra.

Pruebas de significancia estadstica


No hay una respuesta cientfica a la pregunta sobre si determinada asociacin entre dos valiables
es significativa. fuerte. importante. Interesante o
digna de Informarla. Quiz la prueba ltima de su
signific;mcla radique en la capacidad del investigador de convencer a su audiencia (presente.y futura) de esa signlficancia. Al mismo tiempo. hay un
campo de la estadistica inferencial dedicado a
prestar ayw;la al respecto. las llamadas pruebas
paramerricas de significancia. Como su nombre lo
indica. la estadistica paramtrica es aquella que ha-

ce ciertas suposiCiones sobre los parametros que


descliben la poblacin de la cual se eligi la muestra.
Aunque las pruebas de significanica estadfstica
aparecen mucho en la bibliografia de la Investi~a
cln social. su lgica es mas ben sutil y a menudo
se t:ntiende mal. Las pruebas de signlflcancla se
basan en la misma lgica del muestreo que expusimos en otra parte del libro. Para compren~erla.
volvamos un momento al concepto de error de
muestreo en cuanto a los datos univarlados.
Recuerde que normalmente un estadstico
muestral ofrece la mejor estimacin nica del parametro poblacional correspondiente. pero que el
estadstico y el parmetro rara vez coinciden exactamente. Asi. Informamos la probabilidad de que
un parmetro quede dentro de cierto margen {intervalo de confianza}. El grado de Incertidumbre
dentro del margen se debe al error normal de
muestreo. Desde luego. el corolario de este enunciado es que es improbable que el para metro quede
fuera del margen especificada slo como resultado
del error de muestreo. Asi. si estimamos que un
parmetro (99.9 por ciento de confianza) se encuentra entre 45 y 55 por ciento. decimos por Implicacin que es extremadamente improbable que el
parmetro sea en realidad. por ejemplo. 90 por
ciento. si nuestro error de estimacin slo se debe
al normal de muestreo. Esta es la lgica bsica de
las pruebas de significancla.

La lgica de la significancia estadstica


Me parece que puedo ilustrar mejor esta lgica de
la signiflcancia estadfstica con una serie de diagramas que representen la seleccin de las muestras de una poblacin. Estos son los elementos de
la lgica que ilustraremos:
l. SuposiCiones sobre la independencia de dos
variable!:. en la poblacin de estudio.
2. SuposiCiones sobre la representalividad de las
muestras elegidas mediante procedimientos
convencionales de muestreo pr~babilistiCO.
3. La distribucin conjunta observada de los
elementos de la muestra en terminos de las
dos variables.
La figura 16.5 representa una poblacin hipotelica de 256 personas. la mitad mujeres y la mitad
hombres. El diagrama tambin indica la opinin de
cada quien sobre que las mujeres gocen de los mismos derechos que los hombres. En el diagrama. las

Estadistica Inferencial 387

386 Capitulo 16

Esddlsticas sociales

16.6

Figura 16.5
Poblacin hipottica de hombres y mujeres que favorecen o se oponen a la igualdad sexual

Favorecen
en la igualdad

~ ~

S! ~ ~ ~ S!
S! S! ~ S! S!
S! S! S! S! S!
~ S! ~ S! S!
~ '? ~ '? S!
11 '? '? '? '?

'? 2 2 2
! ! ! !
, t t ,
! ! ! !

Se oponen
a la igualdad

, ! !
! ! !
!
, t ,
! ! !

,,

Mujeres
Favorecen
en la igualdad

Se oponen
a la igualdad

50 k
0

50%

100%

,
,
!

oooooloo

S! ~ S! 000000&0
S! S! ~ 00000000
S! S! S! o o o o o o o o

~ '? ~
'? '? '?
S! '? S!
2 2 '? 2
! ! , !
, , ! !
, , ! !
, ! ! !
! ! , ,
! , ! !
! , ! !
! ! ! ,

Favorecen
la igualdad

..-.......
........-~

_ ~__ ~

50%

100%

personas que favorecen la Igualdad tienen crculos


en blanco. mientras que los circulos sombreados
pertenecen a quienes se oponen.
La pregunta que tnvesugaremos es Si hay alguna relacin entre el sexo y las opiniones sobre la
Igualdad de hombres y mujeres. En concreto. veremos si las mujeres se Inclinan ms que los hombres a favorecer la igualdad. puesto que es de creer
que. serian las ms beneficiadas. Dedique un momento a estudiar la figura 16.5 ya ver cul es la
respuesta a nuestra pregunta.

~ ~ ~ ~
~ ~ ~

S! S!"S! S!

~
~

S! S! ~
~ S! ~
S! S! S!
S! ~ S!

t
t
t
,

!
!
!
!

'?

Mujeres en favor de la igualdad

<5

Hombres en favor de la igualdad


Mujeres en contra de la igualdad
Hombres en contra de la igualdad

La ilustracin de la figura Indica que no hay una

relacin entre el sexo y las actitudes hacia la Igualdad. Exactamente la mitad de cada grupo favorece
la igualdad y la otra mitad se opone. Recuerde
nuestra exposicin de la reduccin proporcional de
error. En este caso. conocer el sexo de una persona no disminuira 105 "errores" que cometeramos
al conjeturar cul es su actitud hacia la Igualdad.
La tabla en la parte Infenor de la figura 16.5 nos da
una Imagen tabulada de lo que se observa en el
diagrama.

2 2
~ S!
S! S!
S! ~
! !
, !
t !
! !

~ ~

2 2 o 15 o o
S! S! 15 o
S! 2 15 15 o o
~ ~ 15 o o o

! !
! !
! !
!

.
.
.-..-....-...---..~ ~ ~ ~

! !
! !
! t

! ! ! , ! ! t !
! , ! ! ! ! ! !

Leyenda

~ ~

ooo
oo oo oo
o o o o o o 15 o
15 15 15 o o 15 o o
oooo
15 o o o
oooo
15 o o o

~ ~ ~ ~ 0'0

! !
, ! ! , ! ! t ,
! , !
! ! t !

l ll.e.
.. 1 1 1
1 1 1 e

50%

Se oponen
a la igualdad

_ 1

Hombres

~ ~ ~
~ ~ ~

ooooe ooo
ooooeooo
oooeoeoo
15 o o o o o o o

Hombres

Mujeres

Hombres

Mujeres
~ ~

representativa

~ ~

~ ~

~ ~

Mujeres

Hombres

Favorecen la igualdad

50%

50%

Se oponen a la igualdad

50%

50%

100%

100%

i _

Muestra

La figura 16.6 representa la seleccin de una


muestra de un cuarto de la poblacin hipottica.
En trminos del diagrama. la eleccin de un cuadrado.del centro de la poblacin arroja una muestra representativa. Observe que nuestra muestra
contiene 16 personas de cada grupo: la mitad son
hombres Y la mitad mujeres: la mitad de cada sexo
est en favor de la Igualdad y la otra mitad se opone,
La muestra elegida en la figura 16.6 nos permlUra sacar conclusiones precisas sobre la relacin

entre sexo e Igualdad en la poblacin mayor. SIgUiendo la lgica del muestreo que estudiamos en
el capitulo 8. observaramos que no hay ninguna
relacin entre el sexo y la Igualdad en la muestra:
as. concluiramos que. del mismo modo. no hay
una relacin en la poblaCin total. puesto que se
supone que elegimos la muestra de acuerdo con las
reglas convencionales del muestreo.
Desde luego. las muestras reales rara vez son
reflejos perfectos de las poblaciones de las que pro-

Estadistica inferenciar l89

l88

Capitulo 16

Estadlstlcas sociales

16.8

Figura 16.7

representativa de una poblacin en la que las variables se relacionan

i Muestra no representativa

Hombres

Mujeres
Hombres

Mujeres

!2 !2 ~ ~
~ 2 ~ ~
~ 2 !2 ~
!2 !2 ~ 2
!2 2 2 ~

Favorecen
la igualdad

2
!2

!
!
!
!
!
!

2
2
2
2

!2 ~
2 2
!2 2
2 2
2 2 ~
2 2 2

! , ,
! , ,

!
!
!
!
.! ! ! , !
! ! ! ! !

Se oponen
a la igualdad

2
2
2
2
2
2

222
222
!2 2 2
! ! !
! ! !
! ! !
, ! !
, ! !
! , !

oo
oo

ct
ct

o
o

,,

2 !2 2
2 2 !2

2
2
2
2

oooodooo

2 2
2 2
!2 2 2
222
!2 2 2
2 !2 2
2 2 2
222
! ! !
! ! ,
! ! ,
!

00000000

,o o o o o o o o
oooooooo
oooooooo

Favorecen
la igualdad

00000000

o o o ct
oooo


,
!
!
!
!
!

!
!
!
!
!
!

,
,
,
!
! i i i
! i

i i i
i i i i

2 2 2 2 2
2 2 !2 2 !2
2
!2

! ! , ! ! ! ! !
! ! .! , ! ! ! !

Mujeres

Hombres

75%

25%

Favorecen la igualdad

..

2
2
2
2
2
2
! ! !
! ! !

2
2
2
2
2
2

2
2
2
2
2
2

2
2
2
2
2
2

o el 00
o o el el
e



,
!

oQoooooo
oooooooo
ooo oo ooo
ooo oo ooo
oooo
oooo

2
2
2
2
!
,
, ! , ! ! i i i
! ! e e e i

,,,,,

Se oponen
a la igualdad

!2 2 2 2 2 2 2
2 !2 !2 !2 2 2 2

i i
i
i i i
i e i
e e e

ee
e
e ieee

Mujeres

Hombres

75%

25%

25%

75%

100%

100%

Favorecen la igualdad

Se oponen a la igualdad

Muestra
Se oponen a la igualdad

25%

75%

100%

100%

hubiramos elegido esta muestra de una poblacin


en la que las dos variables no se relacionaran. el
anlisis de la muestra nos habra confundido mise-

Muestra

enen. No sera Inusual que hubiramos elegido.


gamos. uno o dos hombres ms que se oponen a
igualdad sexual y un par de mujeres que estn
1 lavor. aun cuando en la poblaCin 110 hubiera
nguna relacin entre las dos \'ariubles. Estas va'.ciones menores forman parle integrallle del
uestreo probabilisliCo. cuma \imos en el captulo 8.

En cambiO. la n~urn 16.7 representa una muestra que falla en el c-ometldo de rellejar a la poblacin mayor. Observe que se eligieron demasiadas
mujeres defensoras y demasiados hombres opOSilores. Como se lTluestra en la tabla. Ires cuartos de
las mujeres de la Illuestra apoyan lil gualdild. pera apenas un cuarto de los hombres lo har-en. Si

rablemente.
Como recordar. no es de creer que una mues
tra pro~abilstlca bien LOmada sea tan imprecisa
C0ll10 la que se aprecia en la figura 16.7. De hecho.
si en la realidad eligiramos una muestra que nos
diera estos resultados. buscaramos Ol,d explicacin. como lo Ilustra la figura 16.8.
Observe que la mueslra elegida en la figura 1f5.8
tambin Indica una relacin ruerle entre 1"1 se,xo y

la Igualdad. mas esta vez la razn es muy distinta.


Elegimos una muestra perfectamente representativa. pero vemos que en efecto hay una acusada relacin entre las dos variables en el conjunto de la
poblacin. En esta ltima figura. las mujeres se inclinan ms que los hombres respaldar la Igualdad: as ocurre en la poblacin y la muestra lo reJleja.
Desde luego. en la prclica nunca sabemos lo
que sucede con la poblacin IOtal: por eso elegimos
mueSlras. As. si elegimos una muestra Y descubrimos la fuerte relarin presentada en las nguras

390 Capitulo 16

Esadlstfcas sociales
Estadistica inferencial 391

16.7 Y 16.8. tenemos que decidir si este hallazgo


babilldades de obtener la asociaCin
refleja con exactitud a la poblacin o es simpleresultado del error de muestreo son
mente producto de un error de muestreo.
l/looy 1/l000.
Por tanto. la lgica .fundamental de las pruebas
de slgnlflcancla estadstica es sta: enfrentados a
flcanCia estadistica siguen nOrmalmente
una discrepancia entre la independencia supuesta
dos patrones. Algunos espeCillcan de
de las variables de una poblacin y la dlsfrtbucln
observada de los elementos de la muestra. la explt- . nivel de signiflcancla que considerarn
Si cualquier asoct8.Cin medida es estadstic~
camos en una de dos formas: (I) la atribuimos a
significativa a ese nivel. deCidirn que
una muestra no representativa. o bien (2) rechazauna asociacin genuina entre las dos
mos la suposicin de Independencia. La lgica y la
otras palabras. estn dispuestos a descartar
estadstica asociadas a los mtodos de mueslreo
sibil1dad de que resulte slo del error de
probabllistlco ofrecen lineamientos sobre las proOtros investigadores prefieren informar el
babilidades de ocurrencia de los diversos grados de
de slgnillcancla especifico de cada
falta de representatiVidad {expresados como error
omitir las convenciones de .05 . 01 Y .001.
de muestreo}. Para decirlo de manera ms simple.
gar
de deCir que cierta asociacin es '''~~,u:n,.lUV
hay una probabilidad elevada de un grado pequeun nivel de .05. reportaran la signiftcancia a un
o de falta de representatlvidad y una probabilidad
vel de .023. con lo que Indican que las n"'h"hl'll,
baja de un grado mayor de la misma falta.
des de que sea el resultado de un error de
Por tanto. la signljicancia estadstica de una retreo son de 23 de cada 1000.
lacin observada en un conjunto de datos mueStrales se expresa siempre en trminos de probabilidades. Slgniflcancia al nivel de .05 (p = S .05) quiere
Ji cuadrada
decir que la probabilidad de que una relacin tan
fuerte como la observada sea atribuible slo al
error de muestreo es de no ms de cinco en 100.
tadstica que se emplea a menudo en las
Para deCirlo de otra manera. si dos vaJiables de
sociales. Se basa en la hiptesis nula: la su
una poblaCin son Independientes y se toman 100
de que no existe una relaCin entre las dos variamuestras probabilsticas de esa poblacin. no ms
bles eri la poblacin total. Dada la distribucin observada de los valores de dos VaJiables, calculamos
de cinco de stas darn una relacin tan fuerte como la observada.
la distribucin COnjunta que esperariamos si no es.
tuvieran relacionadas. El resultado de esta operaHay. pues. un corolaJio a los intervalos de concin es un conjunto de frecuencias esperadas en
fianza en las pruebas de signtflcancla estadstica.
todas las'celdas de la tabla de contingencia; A conque representa la probabilidad de que las asociaciones
tinuacin comparamos esta distribucin esperada
medidas se deban slo al error de muestreo. Esto
con la distribUCin de los casos que encontramos
se denomina nivel de aigniflcancia. Como los inen los datos de la muestra, y determinamos la protervalos de confianza. los niveles de signlflcancia se
babilidad de que la dlscrepancia'descubierta se dedertvan de un modelo lgico en el que se toman vaba
slo a un error de muestreo. Un ejemplo ilustra.
rias muestras de determinada poblacin. En este
r el procedimiento.
caso. suponemos que no hay ninguna asociacin
Supongamos que nos Interesa conoceT'la pOSible
entre las variables de la poblaCin. y entonces nos
relacin entre la asistencia a cierta Iglesia y el sexo
preguntamos qu proporcin de las muestras tode los feligreses. Para probar esta relacin. elegimadas produciran asociaciones por lo menos tan
mos al azar una muestra de 100 asistentes. Encongralldes como las que medimos en 105 datos emptramos que nuestra muestra se compone de 40
ricos. En los informes de investigaCin se acostumhombres y 60 mujeres. y que 70 por ciento dijo que
bra emplear tres niveles de slgnificancia: .05, .01 Y
fue la igleSia la semana pasada, mientras que el
. 001. que significan. respectivamente. que las prorestante 30 por ciento no asisti .

Tabla 16.7
Ilustracin hipottica de ji cuadrada
,. Frecuencias esperadas por celda

Total

'12
18
60

70
30
100

Hombres

Mujeres

Total

20
20
'10

SO

70
30
100

Hombres

Mujeres

2.29
5.33

1.52
3.56

28
12 '.
'ID

11. Frecuencias observadas por celda


Asisti a la iglesia
No asisti a la iglesia
Total
111. (Observadas - Esperadas}2 + Esperadas
Asistl6 a la iglesia
No asisti a la 'iglesia

, De no haber relacin entre el sexo y la

Mujeres

Hombres

Asistl6 a la iglesia
No asistl6 a la iglesia
Total

asiste~-

I 'glesia, 70 por ciento de los hombres habna


aa alaI Iglesia la semana ante rI or Y 30 por
. ciento
lo habra hecho. Por su parte. las mUjeres haasistido en la misma proporcin. La tabla
(parte 1) Indica que. de acuerdo con este mo, 28 hombres y 42 mujeres habran ~do a la
y 12 hombres y 18 mujeres se habnan abs,: La parte 11 de la tabla 16.7 presenta la asisten:cla observada de la muestra hipottica de 100 fell,,
Advierta que 20 hombres dijeron que fue,'ron
'
a la iglesia la semana an t e fior y los otros 20
I
'
no Entre
las mujeres de Ia mu eStra . 50 fueron a a
,iglesia
,'
y 10 no. Al comparar las frecuencias esperactas y observadas (partes I y 11). notamos que mehombres de los esperados asistieron a la iglenos al tiempo que mas
. mujeres d e las 'esperadas
sia,
asistieron.
d cel
JI cuadrada se calcula como sigue. En ca a
da de las tablas, el investigador (I) resta la .freeuencia esperada de la observada. (2) eleva al cuadrado.
el resultado y (3) diVide el cuadrado de la d~fe:e~
cia entre la frecuencia esperada. Este procedlm e to se repite con cada celda de las tablas y se suman
los resultados (la parte III de la tabla 16.7 presenta 1'05 clculos de cada celda). La suma final es el
valor de JI cuadrada: en este ejemplo. 12.70. ,
E~ta cifra es la discrepancia general entre la dis
tribucin conjunta observada en la mues~ y la
dlsU1bucin que esperaJiamos si las dos vanables

10
60

X2

=12.70

P < .001

no estuvieran relacionadas. Desde luego. el mero


. no prueba queI
descubrimiento de una dtscrepancla
las dos variables estn relacionadas, puesto que. e
error no rmal de muestreo produce discrepancIas
bl l'
aunque no exista ninguna relacin en la po ac o~
total Sin embargo, la magnitud del,valor de JI cua
drad~ nos permite estimar la probabilidad de que
haya ocurrido.
G dos de libertad Para determinar la signlflcancla
ra
estadstica
de la relacin ob serva da , debemos tomar un conjunto estndar de valores de JI cua~a
da Esto requiere el clculo de los grados de li
ta~ los cuales se refieren a las posibilidades e
aJi'aCin dentro del modelo estadstico. Supongavmas que lo reto a que encuentre tres num
. eros cuya media sea 11. Las soluciones del problema son
Infinitas: (11. 11.11). (JO. 11, 12), (-11. 11. 33).
etc. Ahora supongamos que 1e pi'd o que uno de .los
nmeros sea 7. Todavia seran infinitas las pOSibilidades de os otros dos nmeros.
. eros tiene. que ser
SI le digo que uno de Ios num
,
7 Y otro 10 el tercero slo podra ser una unlca CI,
.
ros es l 1. su
fra. Si el promedio
de los tres nume
.
suma debe ser 33. SI ya sumamos 17. el tercer'numero debe ser 16. En esta situacin. declIT~os que
hay dos grados de libertad. Dos de los numeros
pueden ser los que queramos: pero. u~a vez qu~
los especificamos. el tercer nmero esta determl

e.

nado.
I
edla
Ms en general. cuando examinamos a m
de N, vemos que los grados de libertad son N - l.

392

Capftulo f 6

Estadfstlcas sociales

As. en el caso de la media de 23 cifras. podramos


elegir 22 como queramos. pero la vlgesimotercera
estar determinada.
Una lgica similar se aplica a las tablas blvariadas. como las analizadas con JI cuadrada. Tomemos una tabla que indique las relaciones entre dos
variables dicotmicas; se..xo (hombre/muJer) yactltud hacia el aborto (aprobacin/oposicin). Obser- .
ve que la tabla da las frecuencias marginales de las
dos variables.

libertad y muestreo aleatorio de una poblacin


la que no haya relacin entre las dos Variables.
por ciento de las veces esperaramos una Ji
da de por lo menos 2.7. Asi. si elegimos 100
tras de dicha poblacin. esperaramos que unas
arrojaran 'valores de JI cuadrada Iguales o
que 2.7. Adems. esperaramos valores de JI
drada de por lo menos 6.6 en slo el uno por
to de las muestras. y valores de 7.9 en apenas
mitad de uno por ciento (.005). Entre mayor sea
valor de Ji cuadrada. menos probable es que
Actitud hacia el aborto
Hombres Mujeres
Total
atribuya nicamente al error de muestreo.
En nuestro ejemplo. el valor calculado de JI
Aprobaci6n
500
drada
es de 12.70. SI no hubiera ninguna
Oposici6n
sao
entre el sexo y la asistencia a la Iglesia en la
Total
500
500
1000
cln de feligreses. y si hubiramos elegido y
diado muchas muestras. esperariamos una JI
A pesar de que por conveniencia redondeamos. drada de esta magnitud en menos de 1/10 del
las cifras de este ejemplo hipottico. observe que
por ciento (.0011 de las muestras. As. la UllJU.'UIIIhay numerosas posibilidades para las frecuencias
dad de obtener una Ji cuadrada de esta mlgnHua
de las celdas. Por ejemplo. po~ra ocunir que la toes de menos de .001. si nos valimos del mues
talidad de los 500 hombres aprobaran el aborto y
aleatorio y no hay ninguna relacin en la poblalas 500 mujeres se opusieran. o bien sucediera al
cin. Informamos de este descubrimiento diciendo
contrario. O tambin podria haber 250 casos en
que la relacin es estadlsticamente signljleatiua
~ada celda. AdVierta que hay muchas otras posibiniuel de .001. Como es tan poco probable que la
lidades.
lacin observada sea slo el resultado del error de
Entonces. la pregunta es; cuntas celdas podemuestreo. nos Inclinaremos a rechazar la hiptesis
nos llenar al gusto antes de que el resto quede denula y a suponer que hay una relacin entre las
erminado por las frecuencias marginales? La resdos vaJiables en la poblacin de feligreses.
lUesta es; slo una. Por ejemplo. si sabemos que
Casi todas las medidas de asociacin se pueden
100 hombres aprueban el aborto. entonces 200 deprobar de la misma manera en busca de su signllen desaprobarlo y la distribucin tendra que ser
ficancla estadstica. Las tablas estndar de valores
a opuesta entre las mujeres.
nos permiten determinar si cierta asociacin es
En este caso. pues. decimos que la tabla tiene
estadisticamente significativa y a qu nivel. CualLn grado de libertad. Ahora dedique unos minutos
quier libro comn de estadstica da las instruccioelaborar una tabla de tres por tres. Supongamos
nes para el uso de tales tablas. as que no insistiue usted conoce las frecuencias marginales de caremos aqu en el tema.
a variable y veamos si puede determinar cuntos
radas de libertad tiene.
Algunos comentarios de advertencia Las pruebas de
Para Ji cuadrada. los grados de libertad se calcuLO como sigue; el numero de filas en la tabla de
significancia estadistlca proporcionan una vara obecuencias observadas menos I se multiplica por
jetiva para estimar la signlflcancla de las asociaCionumero de columnas menos l. lo que podemos
nes entre variables. Nos permiten descartar asociacribir como (r- IJle- JI. Entonces. en una tabla
ciones que no representen relaciones genuinas en
~ tres por tres hay ellalro grados de libertad.
la poblacin que estudiamos. Sin embargo. el inEn el ~jemplo del se..xo y la asistencia a la iglesia
vestigador que aprovecha o lee informes de pruenemas dos filas y dos columnas (se descartan las
bas de sitl1ificancia debe tener presentes varios pe~ lOlales). asi que hay slo un grado de libertad.
ligros en ~:I intt'rpretacin. .
acudimos a una tabla de valores de ji cuadrada
Primero. hemos esludiado pruebas de signljlcan'
~ase el apndice F'l. vemos que para un grado de
cia estadlstica: no hay pruebas obje-tl\"as de signifi-

Estadistica inferenclal 393

real. As. acaso estemos convencidos legtimamente de que cierta asociacin no se debe al
',error de muestreo. pero estamos en la posicin de
a1lrmar sin temor a contradelrnos que dos variables se relacionan apenas en forma ligera. Recuerde que el error de muestreo est en funcin Inversa del tamao de la muestra; mientras mayor sea
la muestra. menor es el error esperado. Asi. una
correlacin de. digamos .. 1. bien podra ser significativa [a cierto nivel) si surge de una muestra grande. en tanto que la misma correlacin entre las
mismas dos variables no sera' significativa si apareciera en una muestra ms pequea. Desde luego.
esto llene un sentido perfecto si uno comprende la
lgica bsica de las pruebas de slgnlf1canc1a; en
la muestra grande hay menos probabilidades de que la
correlacin sea un mero producto del error de muestreo. Sin embargo. en ambas muestras podra representar una correlacin esencialmente de cero.
La distincin entre slgnlficancla estadstica y
real se aprecia mejor en los casos en los que hay
una certeza absoluta de que las diferencias observadas no se deben al error de muestreo. Tal sera
el caso si observamos una poblacin completa. Supongamos que somos capaces de conocer las edades de todos los funcionarios pblicos del pas y las
de todos los funcionarios de Rusia. Para facilitar el
argumento. supongamos tambin que la edad promedio de los funcionarios de nuestro pas es de 45
aos y. digamos. de 46 entre los rusos. Como tendriamos las edades de todos los funcionarios. no
tendl'iamos el problema del error de muestreo .. Sabemos con certeza que 105 funcionarios rusos son
mayor~s que sus contrapartes nacionales, Al mismo tiempo. diriamos que la diferencia no tiene signlflcancla real. De hecho. concluiriamos que en
esencia tienen la misma edad.
.
Segundo. y no se deje confundir por este eJemplo hipottico. no calcule la signlflcancia estadsU:
ca de las relaciones observadas en datos reunidos
de poblaciones completas. Recuerde que las pruebas de significancia estadistica miden la probabilidad de que las relaciones entre las variables sean
slo un producto del error de muestreo: si no hay
muestre~. no hay error de muestreo.
Tt'rcero. las pnlebas de significancla se basan
en las mismas premisas del muestreo que usamos
para calcular los intervalos de confianza. En la medida en que el diseo real de muestreo no cumple
con estas premisas. las pruebas de significancia no
son estrictamente legitimas.

SI bien aqui examlnamos'la s.lgnlficancla estadstica en la forma deJi cuadrada. hay otras medidas comunes entre los clentificos sociales. El anlisis de Varianza y las pruebas t son ejemplos con
los que se puede topar en sus estudios.
" Al Igual que en la mayora de los temas que tratamos en este libro. tengo prejUicios personales.
En este caso. son en contra de las pruebas de signlflcancla. No objeto la lgica estadistica de las
pruebas. puesto que est bien fundada. En cambio. me preocupa que esas pruebas confundan en
lugar de arrojar luces. Mis principales reservas son
las siguientes:
l. Las pruebas de slgnlficancla hacen

suposiCiones de muestreo que casi nunca


cumplen los diseos reales.
2. Dependen de la ausencia de errores que no
sean de muestreo. una S\lposicin
cuestionable en la mayora de las mediciones
empricas reales.
3. En la practica. se aplican con mucha
frecuencia a medidas de asociaci~n calculadas
infringiendo los supuestos de las propias
mediciones (por ejemplo. corrt:laciones de
producto-momento calculadas a partir de datos
ordinalesl.
4. La slgnlflcancla estadistica se confunde
fcilmente con la "fuerza de la asociacin" o la
signlflcancla real.
Un estudio reciente (Sterling el al. 19951 que
examina las normas de publicacin de nueve revistas de pSicologa y tres de medicina subraya las
preocupaciones que acabo de expresar. Como descubrieron los investigadores. las revistas eran reacias a publicar arlicLllos que no Incluyeran correlaciones estadsticamente significativas entre las
variables. Los investigadores citan este pasaje de
una carta de rechazo;
Por desgracia. no estamos en posiCion de publicar
este manuscrito. El trabajo esta muy bien escrito
y el estudio bien documentado. Sin embargo. los
resultados negativos se traducen en una
aponarion minlma al campo. Lo estimulamos a
continuar con su trabajo en el area y estaremos
encantados de considerar los nue"os manuscritoS
que prepare en el ruturo.
ISTERLI~C

I:r ,\L . I D95: 109)

39" Caplwlo 16

Estadlsdcas sociales

Supongamos que un investlgador realiza un estudio de excelencia cientfica para determinar si X


causa y. Los resultados Indican que no hay ninguna correlacin estadstlcamente signlficatlva. Es
bueno saberlo. SI nos interesan las causas del cancero la guerra o la delincuencia juvenil. es bueno
saber que un factor posible en realidad no es una
causa. Este conocimiento liberarla a los Investlgadores para buscar las causas en otra parte.
Sin embargo. como vemos. las publicaciones
bien podrian rechazar tal estudio. Por tanto. otros
investigadores seguirn averiguando si X causa y
sin saber que. estudios anteriores no encontraron
ninguna relacin causal. Con ello se desperdlclarian muchos estudios. ninguno de los cuales veria
su publicacin y cerrara el anllllis de X como causa de Y.
Ahora bien. gracias a le:> que aprendimos sobre
las probabilidades. usted comprende que si se realizan suficientes estudios. al cabo uno medir una
correlacin estadsticamente signlllcativa entre X y
Y. De no existir absolutamente ninguna relaCin
entre las dos variables. esperariamos una correlacin signlficatlva al nivel de .05. CInco veces de cada 100. puesto que tal es 10 que Significa el nivel de
slgnlficancla de .05. Por ende. si se realizaron 100
estudios. podemos esperar que cinco Indiquen una
relacin causal donde en realidad no hay ninguna.
r esos cinco estudios seran publicados.
Asi. hay muchos problemas serios relaCionados
:on la excesiva confianza en las pruebas de slgnlfi:ancla estadstica. Al mismo tiempo -y quiz de
nanera paradjlca-. yo postularia que las pruelas de slgnificancla son un bien apreciable para el
nvestlgador: herramientas t1les para comprender
:lS datos. Aunque muchos de mis comentarios reelan una postura muy conservadora ante las
'ruebas de signlficancla -que usted debe emlearlas slo cuando satisfagan todas las suposliones-o mi punto de vista general es el contrario.
Lo alienlo a utilizar cualqUier tcnica estadstica
-cualqUier medida de asociacin o cualqUier pruea de significancia- con cualquier conjunto de da)S si eso le sirve para comprenderlos. SI el clculo
e correlaciones de producto-momento entre variaies nominales y la prueba de slgnlllcancia estads:a en el contexto del muestreo no controlado sa;facen este criterio. entonces estoy en favor de
itas actividades. Todo se vale. si en ltima Instan-

Puntos principales 395

cla lleva a la comprensin de los datos y del


do social que se estudia.
Sin embargo. el precio de esta libertad
la renuncia a las Interpretaciones eS'taclisltlc<lS'
trictas. Us~ no ser capaz de fundar la
cla ltima de sus descubrimientos solamente
una correlacin Significativa a un nivel de
Cualquiera que sea la via del descubrimiento. a
de cuentas hay qUe-presentar los datos empricos
manera legitima y hay que sustentar JO~:lCalII1.,n:
su Importancia.

Puntos principales
La estadstica deSCriptiva sirve para resumir
los datos que se estudian. Algunas estadsticas
descriptivas resumen la distribucin de los
atributos de una sola Variable; otras. las
asociaciones entre variables.
Las estadsticas descriptivas que resumen las
relaciones entre Variables se denominan
medidas de asociacin.
La estadistica inferenclal sirve para estimar el
grado de generalizacin a una poblacin mayor
de los hallazgos consegUidos mediante el
amillsls de una muestra tomada de ella.
Algunas esladistlcas inferenciales estiman las
caracteristicas de una sola Variable de la
poblaCin: otras -las pruebas de signiflcancla
estadistica- estiman las relaciones entre
variables de la poblacin:
Muchas medidas de asociacin se basan en un
modelo de reduccin proporcional del error
(RPEI. Este modelo parte de la comparacin de
(1) el nmero de errores que cometeramos al
tratar de conjeturar los atributos de cierta
variable en cada uno de los casos bajo estudio
-si no sabemos nada salvo la distribucin de
esos atributos-o y (2) el nmero de errores que
cometeriamos si conociramos la distribucin
conjunta general y se nos dijera en cada caso
el atributo de una variable cuando se nos
pidiera conjeturar el atributo de otra.
Lambda (A) es una medida apropiada de
asociacin para el analisis de dos Variables
nominales. Tambin brnda una ilustracin
clara del modelo de la RPE.
Gamma (y) es una medida apropiada de
asociacin para el analisis de dos variables
ordinales.

correlacin de producto momento


Pearson (ri es una medida apropiada de
lsociaclon para el anallsis de dos variables
';'"roclla,res o de razn.
analisls de regresin representa las
'elElCI(>nI~S entre variables en forma de
""'\0,,,,:::. que se utilizan 'para predecir los
de la variable dependiente sobre la base
los valores de una o mas variables
.'Independientes.
La ecuacin de regresin bsica -de una
regresin lineal simple- adopta la forma Y a +
. bX: En este caso. Yes el valor (estimado) de la
variable dependiente; a es algn valor
constante: b es otro valor. que se multiplica por
X. el valor de la variable independiente.
Las ecuaciones de regresin se calculan sobre
la base de una lnea de regresin: la linea
.geometrica que representa. con la menor
discrepancia. la ubicacin real de los puntos en
un diagrama de dispersin.
Un analisis de regresin mltiple da por
resultado una ecuacin de regresin. que.
es lima los valores de una variable dependiente
a pariir de los valores de diversas variables
independientes.
Un analisls de regresin parcial examina los
efectos de diversas variables Independientes.
pero expresa por separado el efecto de cada
una al tiempo que mantiene constantes los
efectos de las demas.
Un anaIlsis de regresin curvilinea permite que
la linea de regreSin "de mejor ajuste" sea
distinta que una recta. Para conseguir la
curvatura de la linea de regresin. se elevan los
valores de las variables independientes a
potencias mayores que 1: al cuadrado. al. cubo.
etcetera.
El anlisis de series temporales comprende el
estudio de los procesos que se desenvuelven
con el tiempo. como el crecimiento demografico
o los indices de delincuencia.
El anlisis de trayectOrias es un mtodo para
presentar graficamente las redes de relaciones
causales entre diversas variables. llustra en
forma gr\i.fica las "trayectorias principales de
las \'ariables por medio de las cuales las
variables independientes causan las
dependientes,
Los coeficienles de trayectorias son coeficientes
de regresin eSlandarizados que representan
las relaciones parriales entre las variables.

El ana lisis factorial. asequible slo por


computadora. es un mtodo analiUco para
descubrir las dimensiones generales
representadas por un conjunto de variables
reales. Estas dimensiones generales. o factores.
son dimensiones hipotticas calculadas que no
estn representadas a la perfeCCin por
ninguna de las otras variables empricas que se
estudian. pero que estan muy vinculadas a
grupos de stas.
La carga de un factor indica el grado de
asociacin entre una variable emprica dada y
determinado factor.
Las Inferencias sobre algunas caractersticas
de una poblacin -como el porcentaje de los
votantes del candidato A- deben contener una
Indicacin de un Intervalo de confianza lel
margen en el que se espera que se encuentre el
valor: por ejemplo. entre 45 y 55 por ciento en
favor del candidato A) y una indicacin del
nivel de confianza lla probabilidad de que el
valor quede dentro de ese marJ~en: por ejemplo.
95 por ciento de conl1anza). Los calculos de los
niveles e Intervalos de confianza se basan en la
teora de probabilidad y suponen q\le se han
aplicado en el estudio las tcnicas
convencionales de muestreo probabllistlco.
Las Inferencias sobre el grado de generalizacin
a una poblacin de las asociaciones
descubiertas entre variables en una muestra
comprenden pruebas de slgniflcancia
esladistica. Dicho en forma mas simple. estas
pruebas estiman la probabilidad de que una
asociacin lan grande como la observada sea el
~esultado de un error normal de muestreo si
no hay tal asociacin entre las variables de la
poblacin mayor. As. las pruebas de
significancia estadstica tambien se basan en la
teora de probabilidad y suponen que se han
aplicado en el estudio las tecnicas
convencionales de muestreo probabilstico.
. La signlflcancia estadstica no debe confundirse
con la signlflcancla real. que quiere decir que
una asociacin observada es fuerte.
importante. signilkativa o digna de escribirla
en una caria para su mama.
El nivel de signiflcancia de una asociacin
observada se informa como la probabilidad de
que tal asociacin pudiera ser producida por
un mero error de muestreo. Decir que una
asociacin es significativa a un nivel de .05
significa que
se esperara que una
asociacin tan grande como la observada fuera

no

396

Capitulo 16

Estadlstlcas sociales

el resultado de un error de muestreo, mas de


cinco veces de cada 100.
Los Investigadores sociales utilizan cierto
conjunto de niveles de slgniflcancla en
conexin con las pruebas de signlflcancla
estadstica: .05, .01 Y .001. Sin embargo, esto
no es ms que una convencin.
En sentido estrlcto, las pruebas de
signiflcancla estadstica hacen suposiciones
sobre datos y mtodos que casi nunca
satisfacen completamente las investigaciones
sociales reales. A pesar de esto, las pruebas
pueden tener una funcin til en l anallsls y
la interpretacin de los datos. Sin embargo,
tenga cuidado de no interpretar demasiado
literalmente la "slgnlf!cancla" de los resultados
de las pruebas.

Pregun tas y ejercicios


de repaso
l. Explique con sus propias palabras la lgica de
las medidas de asociacin de reduccin
proporcional del error (RPE), como si lo
escnbiera para un cliente que lo ha contratado
para efectuar el anlisis.
2. EJ\.-plique con sus propias palabras el anlisis
de regresin parCial.
3. Distinga con sus propias palabras entre
medidas de asociacin y pruebas de
sign!ficancia estadistica.

4. En este capitulo hemos expuesto el concepto


de slgnlficancia estadisLlca. Busque en internet
por lo menos tres disciplinas (sociologia,
biologia. etc.) que se valgan de este concepto.
Mencione las direcciones de internet de los
materiales que respaldan sus elecciones.
Sugerencia: Escriba en uno de los medios de
bsqueda "significancia estadstica". sin olvidar
las comll1as.

Proyecto de continuidad
En la Web o algn otro medio. localice un analisis
eSladisLico acerca de la igualdad sexual o las
aclltudes hada la misma. Identifique el Lipo de
tecnicas estadisUcas que se emplearon en el
anliSis y comente que tan apropiados resultaron
para los fines del investigador.

Lecturas adicionales
Babble, Earl. Y rred Halley. AdLlentares in
Research. Newbury Park. Cal .. Plne rorge
Press.,1995. Este libro lo Introduce al
de los datos de la Investigacin social
SPSS para Wlndows. Se exponen e ilustran "
vanas tcnicas estadsticas baslcas que
emplean los Investigadores sociales.
Blalock. Hubert M.. Jr.. Social Statistcs. Nueva.
York. McGraw-HIIl. 1979. Durante aos. el
libro de Blalock ha sido el te.xto oficial de los .
estudiantes (y los catedrticos) de ciencias .
sociales. La muerte de Tad Blalock fue una
prdida para todas las ciencias sociales.
Healey. Joseph r .. Statistics: A Toolfor Social
Research. Belmont. Wadsworth. 1990. Eficaz
Introduccin a las estadistlcas sociales para el .
estudiante principiante.
Jendrek. Margaret Platt. Through the Maze:
Statistics with Computer Applications. Belmont.
Wadsworth. 1985. Introduccin prctica e
Innovadora a las estadislicas sociales. Jendrek
explica la lgica de vanas tecnlcas estadislicas
y luego ensea al lector a hacer los clculos
con programas de computadora sencillos. o
mediante el uso de sistemas como SPSS.
Mohr. Lawrence B.. Underslanding Sign!llcance
Testing. Newbury Park. Cal.. Sage. 1990.
E.xamen general excelente del tema: tanto los
detalles tcnicos de las'pruebas de
signlficancia estadsllca como el significado de
tales pruebas.
Schroeder. Larry D.. David L. Sjoqulst y Paula E.
Stephan. Understanding Regresion Analysis: An
Introductor Guide. Newbury Park. Cal.. Sage.
1986. SI desea profundizar en la regresin
como tcnica analitlca. ste seria un excelente
paso sigUiente. Los autores orrecen una
introduccin comprensible a este complicado
tema.

ndices
tica y polltica de la investigacin social
Manejo de la biblioteca
.
Investigacin social en el ciberespaclO
El informe de investigacin
Nmeros aleatorios
P' Distribucin de ji cuadrada
G reas de la curva normal
H Error estimado de muestreo

You might also like