Professional Documents
Culture Documents
1. Concepto:
Anlisis de datos es la tcnica que consiste ene l estudio de los hechos y el
uso de sus expresiones en cifras para lograr informacin, la cual debe ser
vlida y confiable.
2. Objetivos que se proponen los investigadores cuando analizan
datos
En general, el anlisis pretende hacer explicitas las propiedades, notas y
rasgos de todo tipo que, en relacin a las variables estudiadas, se derivan de
las tablas en las que se condensa la clasificacin, mientras que en la
interpretacin intenta precisar la significacin y alcance de las propiedades y
rasgos.
Greenberg, Goldstucker y Bellenger sealaron con nfasis que pretenden
los investigadores cuando analizan datos:
Hallar lo que hay en los datos.
Conocer que variaciones ocurren en los datos.
Como estn distribuidos los datos.
Que relacin existe entre las variables.
Las estimaciones que resultan de los datos.
Describir las diferencias entre grupos y variables.
Determinar variables que causan variacin en otras variables.
3. Clases de anlisis de datos
Existen diversos ordenamientos de los anlisis de datos que dependen del
criterio de clasificacin de que se disponga. En efecto, de acuerdo al nmero
de variables, es decir si tenemos en cuenta cuantas variables se analizan
multivariables y multivariable.
De acuerdo al carcter del anlisis, puede ser: exploratorio, si se quiere
encontrar nuevas hiptesis; si se quiere verificar las que anteriormente se
formularon, entonces en este ltimo caso el anlisis ser confirmado.
Segn la naturaleza del anlisis, vale decir de acuerdo a lo que es el anlisis,
este puede ser cuantitativo si su naturaleza es formal (estadstico o
matemtico). Puede ser tambin cualitativo si su naturaleza es no formal: usa
precisiones conceptuales y entonces sera cualitativo.
Segn el objetivo que pretende el anlisis, este ser causal, cuando se quiere
llegar a las causas; ser un anlisis de cambios se pretende llegar a las
modificaciones de los fenmenos; de decisiones si lo que se logra conocer es
la adopcin de medidas; de grupos si se aspira a conocer determinados
conjuntos; y de sistemas si lo que se quiere conocer son estructuras:
conjuntos, ordenados en relaciones determinadas.
He aqu un cuadro sinttico de las clases de anlisis:Uso del anlisis
segn el nmero de variables
4. Usodel anlisis segn el nmero de variables
En la investigacin universitaria destacamos este anlisis puesto que permite
al investigador la ejecucin de las siguientes operaciones:
A. Sintetizar lo que se observa en una variable.
B. Comparar lo que se observa en dos variables.
Dispersin
Forma
Tipo de medida
Medidas de
tendencia central
Medida de
tendencia no
central
Medidas de
dispersin o
variabilidad
Simetra
Modalidad
Curtosis
Expresiones
(estadsticos)
Media aritmtica
Mediana
Moda o modo
Cuantles
Recorrido
Varianza
Desviacin estndar
Coeficiente de variacin
Asimetra o sesgada
Simtrica o con
sesgamiento
Modos en una
distribucin
Razn de momentos de
Pearson
x =
x1
n
Donde:
= Media aritmtica
= Suma
Ejemplo:
A seis estudiantes se les interroga: Cuntas veces a la semana acuden a
la biblioteca de la facultad a la que pertenecen? Y ellos respondieron de
la siguiente manera:
1 - 2 - 2 1 3 3 (seis respuestas, es decir, el primero respondi que
una vez a la semana acude a la biblioteca de su facultad, el segundo
contest que dos, el tercero que dos, le cuarto que una, el quinto que tres
y el sexto que tres), entonces, aplicando la formula anterior, es decir,
reemplazando las expresiones de la frmula pro sus valores respectivos,
tenemos:
x =
1+ 2+ 2+1+3+ 3 12
= =2
6
6
x
f 1 ( 1)
n
x =
Donde:
f1
= suma de productos f1 x1
F1
3
2
7
2
1
11 11 11 6 6 16 16 16 16
Al ordenar los valores seobtiene:
6 6 11 11 11 16 16 16 16
Al apreciar el valor central, se tiene 16
16
16
16
18
18
19
16
16
16
18
18
19
53+ 55 108
=
=54
2
2
f1
3
2
7
2
1
15
f1
1
4
4
3
2
14
Tal como se puede observar fcilmente, los valores que hay mas se repiten
son dos: 25 y 26, los que se reconocen como datos bimodales.
Cuando no se repite ningn valor no hay moda.
10.3.2 Cuando usar la moda
Aunque la moda se puede usar con todas las escalas, se usa preferentemente
cuando se trabaja con escalas nominales. En realidad el uso de la moda la
restringe el investigador solo a los casos en los c pretende ofrecer una idea
aproximada acerca de donde esta la mayor concentracin de observaciones.
10.3.3 Aplicacin de la relacin de Pearson
La relacin de Pearson es una estimacin prctica del modo, siempre que la
distribucin no sea bimodal y se acerque bastante a la modal. Pearson
estableci una relacin que lleva su nombre y que se expresa
formalmente as:
11.
3 Mdn 2
Medidas de tendencia Mo
no =
central
11.1. Concepto
Son medidas tiles para una posicin no central, empleadas para resumir y
describir un conjunto de datos. Estas medidas de tendencia no central se
denominan cuantles.
11.2. Concepto de cuantles
Los cuantles o cuantilos, constituyen una clase de los (n-1) valores de
participacin de una aleatoria que dividen a la frecuencia total de una
poblacin o de una muestra dado n de partes iguales.
11.3. Clases de cuantles
Los cuantles dividen de una distribucin de n partes iguales. Cuando estas
partes son cuatro se denominan cuartiles. Si se divide en diez partes son
deciles y si se dividen en cien, percentiles.
Si s tiene una distribucin cuyo total de observaciones las dividimos en
cuatro partes iguales, para expresarla grficamente requerimos de tres
cuartiles, como lo muestra el siguiente grafico:
1er. Cuartil: Q1
2do. Cuartil: Q2
3er. Cuartil: Q3
Donde Q1 divide las observaciones en dos grupos: el 25% de las
observaciones son menores al valor del Q 1 y 75% de las observaciones son
mayores.
Q2 es la mediana: ya sabemos que el50% de las observaciones son menores
a la mediana (que en este caso coincide con el segundo cuartl) y 50% de las
observaciones son menores que ella.
Q3 divide a las observaciones en dos grupos: 75% de ellas son menores al Q 3
y el 25% son mayores.
11.4. Concepto de rango aplicado a los cuartiles
n+1
4
n+1
2
3 (n+1)
4
Frecuencia (f)
48 50
45 47
42 44
1
3
4
LIR
(Lnea
del
interval
o
critico)
39 41
36
33
30
27
24
21
18
15
12
9
38
35
32
29
26
23
20
17
14
11
Intervalo
superior
6
7
9
14
8
10 71
8 Intervalo
4 .inferior
3
3
5
Frecuencia
acumulada (fa)
85
84
81
6 intervalo
71
64
55
41
33
23
15
11
8
5
Calificaci n obtenidaLIR
.C )
h
Donde:
I % = porcentaje de la suma de las frecuencias inferiores. Calificacin
obtenida = en
el ejemplo, 41.
LIR = limite de intervalo crtico. En este ejemplo (vase la tabla de
intervalos de
frecuencias) = 38,5
= porcentaje de calificaciones que se ubican en el intervalo
C%
crtico.
h
= tamao del intervalo.
.7,1 )
( 4138,5
3
( 2,53 .7,1 )
83,5+
83,5+5,89
S=
f 1 (x i x )2
n
= media aritmtica
V=
S
x
Donde:
V = coeficiente de variacin
S = desviacin estndar
= Media Aritmtica
13.
La presentacin de datos:
13.1. Concepto
La presentacin de datos es la forma en que el investigador expone al jurado
calificador y a los lectores de su informe, los datos que encontr al aplicar sus
instrumentos de medicin.
13.2. Las formas posibles de presentar los datos
Un investigador que hace una tesis tiene un conjunto de posibilidades de
presentar los datos. Generalmente combina los diversos recursos,
esmerndose en alcanzar la informacin al jurado y sus lectores.
Entre las formas de presentacin de datos estn: las tablas de frecuencia y la
presentacin grfica.
Vemos seguidamente estos recursos.
13.2.1 La tabla de frecuencias
Consiste propiamente en un mtodo por el cual se clasifican y ordenan
los datos en clases o intervalos, de tal manera que quera claramente
definida la frecuencia con que se producen los hechos. El numero de
observaciones que registra, est tratando de tal manera que puede
manejarse con versatilidad aunque implique cantidades considerables
Para elaborar una tabla de frecuencia el investigador que hace una tesis
sigue las siguientes prescripciones.
a)
b)
c)
d)
100,0
19,2
13,2
112,6
29,2
38,7
46,2
33,7
45,1
116,4
119,1
99,8
100,0
58,1
72,9
81,3
59,5
45,3
121,6
108,1
39,7
Rango: 10,4
Raz cuadrada del muestreo= 5,3 y se consideran 6 clases
Amplitud de clase: 108/6 = 18
Lmite inferior de la clase = 13
Lmite superior: 13 + 18 = 31
Frecuencia
5
6
4
3
4
6
N de
sujetos
1
1
2
3
4
5
6
7
8
9
10
Variable X
Variable Y
Cantidad de
llamadas diarias
por telfono
3
4
5
6
7
8
10
10
11
11
Nmeros de
libros que
posee
30
4
99
4
15
2
5
50
8
40
V=
n ( xy )( x )( y )
n ( x )( x ) n ( y )( y )
2
z calculada=
1.15131 log10
1+ r
0
1r
1
n3
Ho valor poblacional de r = 0
Hi valor poblacional de r 0
Se compara el valor de Z calculada con el valor de Z de la tabla.
En el caso de que: -Z critica Z calculada +Z crtica, no se rechaza H o
14.11.6 Correlacin entre dos variables nominales
Como lo afirma Galtung: puesto que en la escala nominal los valores son
completamente arbitrarios, no existe modo alguno en que se puedan usar
estos valores para definir coeficientes. Por lo tanto, todos los coeficientes
tienen que estar basados en una comparacin dencia permite rigorizar
la relacin entre las variables nominales. Existe solamente una
innovacin en el campo de la correlacin nominal, tambin expuesta por
Goodman y Kruskal. Ellos utilizan la idea de la ganancia en predecibilidad
si el valor es conocido.
Veamos un caso:
Un profesor estudia la prederencia de los mtodos de enseanza en las
universidades nacionales. Al estudiar la preferencia de los estudiantes de
Letras en las universidades nacionales se aboc a la Universidad de San
Marcos y hall lo siguiente:
Sexo de
estudiantes
Varones
Mujeres
total
Preferencia de mtodos
Pedaggicos
Dinmica de
Mtodo lectivo
grupos
20
980
320
280
340
1260
Total
1000
600
1600
Preferencia de mtodos
Pedaggicos
Dinmica de
Mtodo lectivo
grupos
2%
98%
53%
47%
Total
100%
100%
Total
%
Casos
estudiados
100%
100%
Casos
estudiados
100%
100%
abbc
[ (a+bxc +d ) ] [ (a+ cxb+d )1/ 2 ]
Los (+) y (-) sirven para ayudar al investigados en la interpretacin, as, si las
variables que se estudian son: sexo, cuya subvariables son varn y mujer, y
la otra variable es nivel de estudios, con dos subvariables: primaria y
secundaria, a representar (vase el cuadro) aquellos que son varones y a la
vez tiene nivel primario de estudios, mientras que b sern los varones que
tienen nivel secundario, y as sucesivamente.
14.11.8. Tabla de interpretacin de
Algunos autores consideran que como el rango de correlacin es de -1 a 1,
los extremos expresan una relacin perfecta mientras que el valor 0 indica
inexistencia de relacin. Es posible usar la tabla que sigue para efectos de
interpretacin:
Tabla de interpretacin de
Valor absoluto de
la correlacin
Interpretacin de
la relacin
Mas de 0,80
De 0,61 a 0,80
De 0,41 a 0,60
De 0,21 a 0,40
De 0,00 a 0,20
Muy fuerte
Mas o menos
fuerte
Dbil
Muy dbil
Imperfecta o baja
(Oij Eij )2
x =
Eij
.
.
2
Donde:
R = nmero de categoras en las variables de regin
C = nmero de categoras en las variables de columna
Oij = frecuencia del valor observado en la celda ij
Eij = frecuencia del valor observado en la celda ij
14.11.10. Relacin entre variables ordinales
La relacin entre variables ordinales resulta ms compleja que la relacin
entre variables nominales. La complejidad deriva de las propiedades de
6 d 2i
=1
i 1
2
n 1
Rendimiento
Inasistencias
Carlos
Rolando
Pedro
Percy
Ral
100
60
120
40
160
9
1
5
6
4
D
2
1
1
3
3
D
2
investigador
rangos, el
diferencias de
ofrece la
divergencias
4
1
1
9
9
2
4
( 6 ) ( 24 )
144
=1
=11,20=0,20
2
120
( 5 ) ( 5 1 )
Z=
R H 0 0
1/ n1
Los factores que intervienen en la varianza son dos: los que se dan dentro de
los grupos (varianza intragrupos) y los que ocurren entre los grupos (varianza
intergrupos).
15.3. La varianza total
De acuerdo a la conceptualizacin de los factores que intervienen en la
varianza, la varianza total es la suma de la varianza intragrupos ms la
varianza intergrupos.
F=
varianzaintergrupos
varianza intragrupos
Grado
de
libertad
Suma de
cuadrados
Cuadrados
medios
Tratamien
to
K-1
SCTR
CMTR
Error
n-k
total
n-k
SCE
CME
Fe
SCTR
K 1
SCE
nK
Ft
FnK1
K
CMTR
CME Con
=,
05
SCT
Donde:
SCTR = nj ( y j y )
SCE = - ( xij y , j)
2
SCT = ( yi j y )
F=
SCT /k 1
SCE/n1
Y11
Y21
Y12
Y22
Y13
Y23
Y1K
Y2K
total
Y31
Y32
Y33
Y3K
n
Total
Media
N de
observ.
Yn1
Yn2
Yn3
YnK
Y.1
Y.1
n1
Y.2
Y.2
n2
Y.3
Y.3
n3
Y.K
Y.K
nk
Y
Y
La varianza de error es la varianza intragrupo mientras que las otras tres son
varianzas intergrupo. La varianza de error es varianza de factores
incontrolables y sirve como denominador en todas las razones F en la tabla
de ANOVA.
La prueba de significancia de las diferencias entre las medias de k columnas
y r renglones y las interacciones de los dos factores exige que se calcula tres
razones de F y se prueben los topos de hiptesis
El anlisis factorial (anlisis e varianza de dos factores) solo permite conocer
el efecto de dos factores conjunto acerca de cual es la relacin especifica.
16.Anlisis de regresin
16.1. Concento
La regresin es una tcnica estadstica que describe un relacin entre una
variable dependiente y una o ms variables independientes mediante una
lnea o ecuacin matemtica. Con el anlisis de regresin el investigador
determina la significacin estadstica de la relacin entre variable
dependiente y la variable independiente (variables independientes segn el
caso), su grado, as como la naturaleza y cuantificacin de su forma. El
termino regresin fue empleada por primera vez por Galton para indicar
ciertas relaciones en la teora de la herencia biolgica aunque con
posterioridad ha llegado a significar el mtodo estadstico desarrollado para
investigar tales relaciones
16.2. Qu concibe la regresin?
La regresin concibe si una variable es aleatoria y est formada por dos
componentes: una variable aleatoria y uun elemento sistematico F (x)
dependiente de la variable x, es decir, si
Y = f(x) +
Se dice que la regresin de y sobre x es la ecuacin
Y= f (x)
En la que se supone que la esperanza de es cero. Esta concepcin de la
regresin vale tambin para lo casos en que x es un conjunto de variables: x 1,
x2, etc.
la forma f(x) ms frecuentemente considerada es la de un polinomio,
particularmente una funcin lineal, resultando la regresin de y sobre x
Y = Bo + B1xo+ + Bpxp
Las expresiones anteriores se llaman ecuaciones de regresion en las cuales
x representa variables independientes o predictivas o predictoras o
regresoras, en tanto que y se denomina variable aleatoria, dependiente,
predicha o regresada
El anlisis de regresin expresa solo la relacin matemtica que existe y sirve
para predecir los valores futuros de una variable: como el incremento de
produccin de una empresa, en relacin con la cantidad de trabajadores; el
aumento del consumo de luz por el aumento de uso de focos prendidos
durante las horas de trabajo, etc.
16.3. Un ejemplo de anlisis de regresin simple
Se desea conocer la relacin entre las horas de trabajo de los obreros y el
nmero de decenas de sillas fabricadas en Stylo Lima. Se tiene los
siguientes datos:
Variable dependiente
1. Cantidad de graduados
( y y )
= ( y y )
+ ( y y )
x 21 (grado de libertar 1)
x 21 (grado de libertad 2)
F=
F=
R2 / k
( 1R2 ) /( nk1)
Donde:
K = nmero de variables independientes
N = tamao de la muestra
El investigador tiene en cuenta que F no proporciona informacin acerca
de la significancia tampoco informa acerca del grado de relacin entre las
variables.
17.6. Determinacin del grado de relacin entre variables (determinacin del
grado de _______
significancia
sustantivas del modelo de regresin)
R esperado =
k1
n1
2=1 ( 1R2 ) n1
R
(nk )
Donde:
R2 Es el coeficiente de determinacin ajustada, a fin de minimizar el
efecto de exageracin de R2.
Para este caso, debe tenerse cuatro veces ms casos que variables. En
otros trminos, el investigador debe disponer de un muestreo cuatro
veces mayor que el nmero de variables.
18.Prueba de hiptesis
18.1 Superacin de la estadstica clsica en el tratamiento de las
investigaciones de la conducta
La obra de SidneySiegel Estadstica no paramtrica para la ciencia de la
conducta, publicada en 1956, produjo una renovacin en las
investigaciones de la conducta. En efecto, la estadstica clsica,
desarrollada por la escuela inglesa, en ela cual destacaron Galton,
Pearson, Gosset, Yule, Kendall, Fisher, se sustent en gran medida en los
supuestos de la escala intervalar y universos uniformemente distribuidos
y desarrollo una abundante e impresionante estadstica disponiendo de
ka matemtica clsica, aplicndose con xito en ciencias como la
biologa. No exista motivacin en las disciplinas cuantitativas
probabilsticas, porque era necesario concebir parmetros que no
exigieran los requisitos de la escala intervalar (pues no paramtrico
designa paramtrico de escala intervalar) y universos no distribuidos
normalmente. La estadstica no paramtrica y de la distribucin libre se
ha desarrollado rpidamente, superando los supuestos de la estadstica
clsica.
x 1 y x2 ), y luego
toman varias muestras (del mismo tamao de una poblacin definida por
el investigador). Se procede a calcular la media de cada una de las
muestras; luego se compara la distribucin normal para verificar la
significancia estadstica: cuando la distribucin es normal no se rechaza
la Ho.
18.8. El nivel de significancia y los tipos de error
Se denomina niveles de significancia a la suma de probabilidades de que
los resultados de las muestras estn en la zona de rechazo. Los niveles de
significancia se expresan con porcentajes, por ejemplo 5%, y sus valores
que se atribuyen son arbitrarios. Los valores ms comunes son 5, 1 y 0,1
por ciento. Que el nivel de significancia sea 0.05 0.01 significa que la
hiptesis nula es rechazada.
18.9. Reglas para probar las hiptesis
Para probar una hiptesis se siguen las siguientes normas:
1) Si el anlisis muestra que no se puede rechazar la H o, se acepta y
por lo tanto no se pueden tomar acciones correctivas.
2) Si hay diferencias significativas, entonces se rechaza la H o, y se
acepta la hiptesis alterna, y entonces se adoptan las acciones
convenientes. Al adoptar las medidas, existe el peligro de tomar las
medidas en forma indebida, pues se puede aceptar la H o cuando
debera rechazarla, o rechazarla cuando se deba aceptarla.
Existe por lo tanto un problema decisional pues la H o se puede rechazar o
se puede aceptar, y por otro lado la hiptesis es correcta o es falsa.
Luego hay dos decisiones que son correctas y dos decisiones que son
incorrectas.
Veamos el problema decisional en la prueba de hiptesis.
Problema decisional en la prueba de hiptesis
Rechazar la
Planteamientos hipotticos
La hiptesis es
La hiptesis es falsa
Ho
Aceptar la Ho
correcta
Error de tipo I ()
Decisin correcta
Decisin correcta
Error tipo II ()
( X ) , es decir
x=
10
=
=2 d as
n 25