Professional Documents
Culture Documents
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Resumen
El estudio muestra un anlisis que permite conocer cules son las caractersticas que hace que un posible
cliente compre o no a travs de Internet, como tambin cuales son las variables que influyen en el nivel
de compra. Para realizar el anlisis se ha obtenido una muestra de 112 casos extrados de la gua
telefnica. Los encuestados a travs de llamadas respondieron una serie de preguntas que facilitaron la
recoleccin de datos asociados a cada variable. Para realizar el anlisis, se utilizaron tres mtodos: Anlisis
Discriminante, Anlisis de Regresin Lineal Mltiple y Anlisis Factorial. El primero fue efectuado solo con
111 observaciones, la faltante fue eliminada ya que fue considerada un caso atpico; se consideraron 68
observaciones de seleccin y 43 de validacin, la muestra cumpli con todos los supuestos. Las variables
, y tuvieron un gran desempeo clasificatorio, con un 92,6% de casos bien clasificados en la
muestra de anlisis y un 90,7% en la muestra de validacin. Para el segundo la muestra utilizada fue solo
de 68 observaciones, ya que el propsito es saber qu tanto compran los usuarios, al reducir la muestra
no hubo inconveniente con los supuestos que demanda este anlisis. La capacidad predictiva de las
variables , y fue solo de un 40,5%, valor considerado pequeo, esto se puede deber a que tal
vez las variables explicativas no fueron escogidas de manera adecuada. Para el tercero se utiliz la
totalidad de la muestra y en primera instancia todas las variables mtricas independientes. A medida que
se realizaba el anlisis, se fueron observando indicios de que una variable deba ser excluida, al suprimirla,
se mostr una mejora en el KMO logrndose un valor de 0,763, lo cual nos permite clasificarlo como un
anlisis adecuado, adems las variables restantes fueron representadas por un nico factor. Se observ
la existencia de dos factores, los cuales fueron denominados como logros del servicio y entorno.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Abstract
This study shows an analysis that allows to define the different characteristics that make a client buy using
the internet or not, as well as to specify which are the variables involved on the purchase level. The
analysis is based on data collected among a sample of 112 cases extracted from the phone book. Through
numerous phone calls, the respondants answered to a series of questions designed to collect the data
asssociated with every variable. Three methods were used in order to execute the analysis: Discriminating
Analysis, Multiple Linear Regression Analysis and Factorial Analysis. Being the first of them effected with
only 111 cases, the case missing was excluded due to be considered an atypical case; 68 observations
were contemplated as selection and 43 as validation observations, tha sample fulfilled all the
assumptions. Variables X3, X6, X8 and X12 strongly performed as classificatory variables, with a 92,6% of
cases well classified from the analysis sample, and a 90,7% on the validation sample. For the following
analysis, only 68 observations were used, considering that the target now is to know how much do the
customers buy. There was no inconvenience with the assumptions this analysis demands, reducing the
sample. The predictive capacity from the samples X2, X6 and X11 was only of a 40,5%, value considered
short. This might be explained with the variables being selected not in the best adequate way. For the
third analysis, the totality of the sample was used, conjointly with all the independent metric variables.
While the analysis was being done, there was the inkling that a variable should be excluded. Once
removed, the KMO showed a noteworthy improvement, achieving a 0,763 value, that allowed us to
classifly it as a adequate analysis, furthermore, the residuary variables were represented by an only factor.
Two factors were discerned, being called: Service achievements and Enviroment.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Introduccin
En enero de 1992 se realiz la primera conexin a internet en Chile, marcando una nueva herramienta
que sin duda lleg para quedarse entre los chilenos, muchas son los beneficios que aporta Internet a la
sociedad, por ejemplo; la bsqueda de informacin, comunicacin a distancia en tiempo real, y uno de
los ms importantes, la gran cantidad de recursos que aporta para el desarrollo del conocimiento y la
investigacin
Internet ya no slo cumple las mismas funciones de hace diez aos atrs, una de las tendencias que se ha
ido quedado con el tiempo, es el hecho de que los consumidores estn optando por realizar sus compras
va internet ya que ah pueden encontrar miles de productos, incluso ms que en las mismas tiendas desde
la comodidad de sus hogares. Es por esto que las empresas se han visto obligadas a realizar cambios en
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
sus tecnologas y mtodos de pago para cubrir las necesidades de sus usuarios, brindando un servicio
eficaz, seguro y fcil de usar.
Es por lo anterior, que se realizar una investigacin de mercado, con el fin de detectar aquellas
caractersticas que definan el comportamiento de quienes se han vueltos adherentes a esta tendencia y
a su vez detectar aquellas que mejor expliquen el hecho de que cada da sea algo ms masivo.
Para lo anterior se emplazarn tres tcnicas de anlisis multivariado: anlisis discriminante, regresin
lineal mltiple y anlisis factorial. Es importante tener presente lo til que pueden ser estas tcnicas en la
cotidianidad, por ejemplo; anlisis discriminante lo vemos en bancos para ver si devolver o no el cliente
el crdito? tambin para estudiar la aceptacin de un nuevo producto que se planea lanzar en el mercado
ser aceptado o no?, as mismo las tcnicas de regresin sirven por ejemplo, para explicar el estrs de
una persona, por medio de variables como; cantidad de das que se trabaja por semana, exceso de
actividades, etc, y el anlisis factorial representando en muchas ocasiones aspectos de la vida cotidiana.
En nuestra investigacin se comenzar
caractersticas que ms diferencian a aquellos que compran a travs de internet de aquellos que an no
son partcipes de esta tendencia, se seguir con una regresin lineal mltiple para ver que caractersticas
influyen que una persona compre ms o menos y para terminar se emplear un anlisis factorial para
resumir y reducir los datos en factores que expliquen las relaciones presentes entre las caractersticas de
los usuarios.
Metodologa
La poblacin de inters para llevar a cabo este estudio son todas las personas residentes en el Gran
Concepcin, reduciendo a nuestro marco muestral solo a las personas que estn registradas en la gua
telefnica del ao 2011. La muestra en estudio sern aquellas personas que contesten la encuesta a travs
de llamadas telefnicas.
Tipo de muestreo: Como nuestro marco muestral esta reducido a las personas registradas en la gua
telefnica, cada una de las personas pertenecientes a esta tiene la misma probabilidad de salir sorteada.
As el mejor tipo de muestreo posible es el de Muestreo Aleatorio Simple (MAS).
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Recoleccin de datos: El procedimiento para escoger cada individuo fue el siguiente; se ingresaron en
Excel el nmero de cada pgina de la gua telefnica, para escoger as las pginas que entraran en el
proceso, luego se le asignaron nmeros a las columnas de esta misma, y del mismo modo anterior se eligi
una columna especfica, cuando ya contbamos con la columna, se eligi de modo aleatorio 5 nmeros
del 1 al 100 en Excel y se busc la posicin correspondiente a ese nmero en la columna seleccionada,
con eso ya se contaba al menos con cinco nmeros por pgina, luego cada integrante del grupo tena la
misin de conseguir alrededor de 40 personas dispuestas a responder la encuesta telefnica. Se contaba
con una gran cantidad de nmeros ya que se predeca que muchas personas rechazaran el responder la
encuesta.
Grado de confianza deseado y tamao de la muestra: Para este estudio se utilizar un nivel de confianza
dado, = 0,05 (margen de error), para cualquier requerimiento durante los anlisis.
El tamao de la muestra est dado por:
2
2
Donde
K: Constante que depende del nivel de confianza (K=1,96)
: Proporcin de individuos que poseen en la poblacin la
caracterstica de estudio
: Proporcin de individuos que no poseen esa caracterstica
e: error de margen
Lo que da como resultado = 384,16 385. Es decir, es necesario mnimo 385 personas encuestadas,
pero en vista a los recursos necesarios para realizar las encuestas, como lo es el gasto econmico en
realizar cada una de las llamadas, solo es posible efectuar 112 observaciones.
Cuestionario realizado: La encuesta efectuada contaba de 16 preguntas, cada una de ellas asociada a una
variable.
1.- Edad ____
2.- Sexo ____
3.- Cantidad de miembros en el ncleo familiar ____
4.- Cantidad de aos que ha tenido acceso a internet ____
5.- Cantidad de equipos electrnicos con conectividad a Internet que manipula ____
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
10
7 8
10
7 8
10
Todos los datos presentados a continuacin fueron obtenidos al efectuar el anlisis correspondiente en
el software IBM SPSS Statistics.
Resultados y Discusin
i)
Anlisis Discriminante
En este anlisis se querr responder la siguiente interrogante Compra o no compra a travs de internet?,
para ello se considerarn nueve variables mtricas (independientes) y una no mtrica (dependiente) que
ser en este caso nuestra variable de agrupacin
Variables mtricas - Independientes
: Edad
Descripcin
Edad del encuestado
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
: Ingresos
M de Box
14,739
: Integrantes
Aprox.
F
: Aos
gl1internet
1,375
10
gl2
18329,767
: Confianza
internet
: Horas navegacin
: Horas libres
: Percepcin ofertas
Sig.
,185
: 3:
Equipos
electrnicos
Tabla
Resultados prueba M de Box
En primera instancia se realiz la prueba M de Box, obteniendo el resultado deseado, el cual es que la
matriz de varianzas covarianzas combinadas es igual en ambos grupos de inters, condicin necesaria
para realizar el anlisis. Lo anterior se pudo afirmar ya que la significancia de la prueba F es de 0,185, este
valor es mayor que 0,05, por ende se acepta la hiptesis de inters. Con esto se puede comprobar uno
de los supuestos ms importantes del anlisis discriminante, Matriz de varianzas y covarianzas
desconocidas pero iguales entre los grupos
Para continuar es necesario comprobar el resto de los supuestos, la Normalidad multivariante de las variables
independientes, como se trata de una muestra grande, por teorema del lmite central, cualquier combinacin
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
lineal de las variables har que estas se distribuyan de forma independiente. Para verificar la ausencia de
multicolinealidad, se calcula la matriz de correlaciones, donde se puede ver que la relacin entre las variables
independiente no es alta, por ende, entre ellas no estn muy relacionadas y permiten discriminar con claridad
entre un grupo y otro.
X1
Correlacin
X3
X4
X5
X6
X7
X8
X9
X12
X1
1,000
,100
,036
-,113
-,232
-,553
-,226
,192
-,122
X3
,100
1,000
,068
-,013
-,186
-,075
-,145
-,145
-,070
X4
,036
,068
1,000
-,130
-,157
-,028
,096
-,131
-,138
X5
-,113
-,013
-,130
1,000
,399
,200
,451
,305
,091
X6
-,232
-,186
-,157
,399
1,000
,275
,278
,237
,043
X7
-,553
-,075
-,028
,200
,275
1,000
,240
,035
,220
X8
-,226
-,145
,096
,451
,278
,240
1,000
,249
-,153
X9
,192
-,145
-,131
,305
,237
,035
,249
1,000
,038
X12
-,122
-,070
-,138
,091
,043
,220
-,153
,038
1,000
En cuanto a los casos atpicos se identific una observacin y fue eliminada, luego de eso se indic que
no se mostraban anomalas segn los criterios especificados.
Una vez cumplidos los supuestos, se procede a estimar la funcin discriminante y a la evaluacin del
ajuste global. Las variables introducidas luego de realizar la prueba de igualdad de medias fueron ,
y que corresponden a aquellas cuyas significancias fueron menores a 0,05, por ende rechazaron
la hiptesis nula que indica que las media del grupo 1 es igual a la media del grupo 2 para cada variable
independiente, en este caso se tuvieron nueve pruebas de hiptesis con sus respectivos valores p, siendo
las anteriores quienes pasaron la prueba y entraron al anlisis
Tabla 4:
5: Matriz
Muestra
delas
correlaciones
variables introducidas
de las variables
con sus
independientes
respectivas Lambdas de Wilks y significancia
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
A continuacin se presenta una tabla que muestra el autovalor de la funcin discriminante y su respectiva
correlacin cannica, se desea que haya un autovalor grande ya que representa el cociente entre la
variacin debido a las diferencias entre los grupos y la variacin que se da dentro de cada grupo, como no
tiene un valor mximo es difcil interpretarlo por s solo y se recurre al Lambda de Wilks ahora asociado a
la funcin discriminante
Funcin
Autovalor
% de varianza
1
Paso
2,003a
100,0
Introducidas
% acumulado
Correlacin cannica
100,0
Lambda de Wilks
,817
F exacta
gl1
gl2
Sig.
X3
,593
66,000
45,261
66,000
,000
X6
,418
66,000
45,246
65,000
,000
X12
,360
66,000
37,982
64,000
,000
X8
,333
66,000
31,544
63,000
,000
Lambda de Wilks
,333
Chi-cuadrado
70,371
gl
Sig.
4
,000
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Como el Lambda de Wilks expresa la proporcin de variabilidad total no debida a las diferencias entre los
grupos; a medida que los grupos se vayan separando ms y ms, es decir, se vayan diferenciando, la
variabilidad inter-grupos ir aumentando y la variabilidad intra-grupos se ir haciendo menos respecto a
la variabilidad total, disminuyendo as, el valor del Lambda de Wilks, es por eso que valores cercanos a 0
son los que nos interesan porque demuestran una gran diferencia entre los grupos. En la tabla anterior
podemos ver un Lambda de Wilks de 0,333, un valor relativamente pequeo, y una significancia menor a
0,05 por ende se rechaza la hiptesis nula, procedimiento que ya se haba hecho con el estadstico chi
cuadrado.
Adems con los valores obtenidos del Lambda de Wilks y la correlacin cannica, se puede comprobar
que la suma del Lambda ms la bondad de ajuste da un valor de 1,00048, cercano a 1, esto se debe a que
la suma de ambos elementos est representando la suma de cuadrados del error ms la suma de
cuadrados de la regresin respecto a la suma total, por lo tanto debe ser uno.
Con todo lo anterior se concluye que las variables introducidas en el anlisis sern suficientes para
discriminar entre ambos grupos de inters.
Ahora se procede a formar la funcin discriminante gracias a los coeficientes no tipificados de las
funciones discriminantes cannicas
Funcin
1
X3
,368
X6
,307
X8
,151
X12
,277
(Constante)
-5,478
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Funcin
1
-1,569
1,239
Con los centroides mostrados en tabla y sabiendo que el tamao de la muestra de quienes compran es 38
y de quienes no compran es 30 (68 observaciones seleccionadas), se tiene que el = 0,330
aproximadamente, por lo tanto, si la puntuacin del encuestado es menor que entonces quedar
clasificado como que no compra a travs de internet, y aquellos cuya puntuacin discriminante supere
el valor de quedarn clasificados como que compra a travs de internet.
A continuacin se presentan los resultados de la clasificacin en nuestro anlisis, donde se consideraron
68 observaciones en la muestra de seleccin y 43 en la de validacin.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Los resultados de la clasificacin son satisfactorios, con un 92,6% de casos bien clasificados en la muestra
de anlisis y un 90,7 % en la muestra de validacin, en la primera muestra se tuvo que 3 encuestados que
no compraban quedaron clasificados como que compraban, a su vez 2 encuestados que compraban
quedaron clasificados en el grupo de los que no compran a travs de internet, as mismo en la muestra de
validacin fueron 2 en ambos grupos los que quedaron mal clasificados.
Como medida adicional de bondad del modelo se puede comprobar que la precisin clasificatoria es
superior al lmite marcado por el criterio de aleatoriedad proporcional que en nuestro anlisis
Tabla 10: Resultados de la clasificacin
valoracin para el ajuste sera compararlo con el criterio de aleatoriedad mxima que se obtiene al asignar
todas las observaciones al grupo con la mayor probabilidad de ocurrencia, en este caso, toma un valor de
55,8%, y nuestra precisin clasificatoria sigue siendo superior, dado que el CMA > Cpro el modelo debera
alcanzar el nivel del 55,8% , ahora considerando un umbral un poco ms alto correspondiente al CMA ms
el 25%, es decir, un 69,7%, nuestra precisin vuelve a superar la barrera, por lo tanto concluimos que la
clasificacin fue bien realizada por ende se obtuvieron grupos muy cercanos a la realidad.
Para terminar, es necesario realizar la prueba del estadstico Q de Press con el fin de contrastar la
capacidad discriminatoria de la matriz de clasificacin al compararla con un modelo de aleatoriedad.
Dentro del grupo de los seleccionados, el estadstico toma un valor de 49,47 y en el grupo de los no
2
seleccionados un valor de 28,48, estos valores se compararn con un 1,0,05
, que tiene un valor de 3,84,
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
ii)
Para el caso en estudio, se est interesado en saber qu variables explicativas estn relacionadas con el
nivel de compra que tienen los usuarios que han utilizado la compra por internet. Para la realizacin de
este estudio solo tomaremos en cuenta las observaciones que si han hecho uso de la compra a travs de
internet, si bien no se considerarn todas las observaciones utilizadas en el anlisis anterior no poda ser
de otra forma para el propsito de la regresin
Las variables utilizadas en este anlisis de regresin mltiple son:
Variables explicativas
Descripcin
: Edad
: Sexo
: Ingreso
: Integrantes
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
: Aos internet
: Confianza internet
: Equipos electrnicos
: Horas navegacin
: Horas libres
: Internet mvil
: Referencia
: Percepcin
: Forma de Pago
: Tarjeta de crdito o
dbito
Variable independiente
: Nivel de compra
Descripcin
Cantidad promedio de productos comprados en un ao por los
encuestados
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Las variables X13 y X14 fueron eliminadas del anlisis ya que el software arrojo que estas columnas eran
constantes. Para empezar con el anlisis primero se comprobaran los supuestos que debe cumplir el
modelo.
Para tener un buen modelo de regresin no es suficiente que los residuos sean pequeos, tambin se
Unstandardized Residual
N
Parmetros normalesa,b
68
Media
,0000000
Des. tpica
10,63469471
Z de Kolmogorov-Smirnov
,967
,307
prueba de Kolmogorov-Smirnov, con la hiptesis nula de que los residuos se distribuyen de modo normal.
El resultado obtenido es el deseado ya que la significancia arrojada para este test es de 0,307, el cual es
mayor a 0,05 (ver Tabla 13); por lo tanto se acepta la hiptesis nula de que los errores se distribuyen de
forma normal.
A podemos ver que existe una gran dispersin de los valores alrededor de la media igual cero. Adems en
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
el Grafico B no se detecta ninguna pauta de asociacin entre los pronsticos y los residuos, es decir, el
tamao de los residuos es independiente del tamao de los pronsticos. Por lo tanto no existe presencia
de heterocedasticidad.
El supuesto de no auto-correlacin postula que los residuos con diferentes subndices no estn
correlacionados entre s (E (ui,uj)=0). Para detectar la existencia o no de auto-correlacin se observar el
resultado de la prueba de Durbin-Watson, con la cual veremos si los valores presentan algn tipo de
dependencia en cuanto al orden de obtencin. Si fuera as se estara incumpliendo una de las condiciones
del modelo. Si observamos la Tabla 14 el estadstico de Durbin-Watson arroja un valor igual a 1,942 el cual
se encuentra dentro del intervalo de aceptacin de la hiptesis nula (IC= [1,87 2,103]). Por lo tanto se
puede afirmar que no existe auto-correlacin entre los residuos, es decir, los residuos se distribuyen
Grfico A
aleatoriamente por encima
y por debajo de la media igual a cero.
Modelo
,636a
R cuadrado
,405
Grfico B
corregida
estimacin
,275
11,738
1,942
Para verificar el supuesto de no multicolinealidad se utiliz el Factor de Inflacin de la Varianza (VIF) los
cuales estn tabulados en la Tabla 15. Cuando un VIF se acerca a uno para alguna variable sugiere que la
multicolinealidad para esa variable no es un problema. En este caso todos los VIF son cercanos a uno, por
ello podemos asegurar que no existe evidencia de multicolinealidad entre las variables.
Luego de haber chequeado los supuestos del modelo, daremos paso a la interpretacin de los resultados
asociados a la regresin.
El modelo estimado para lo observacin i-sima con los tabulados en la Tabla 15 y las variables
anteriormente sealadas est dado por:
= 29,142 + 0,1391 6,420X2 + 0,848X3 0370X4 + 0,278X5 + 4,434X6 0,462X7 0,144X8
0,800X9 1,364X10 + 11,161 X11 0,736X12
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Los coeficiente miden el efecto parcial de la variable Xi, manteniendo las otras variables fijas, es
decir, mide el cambio en Y cuando Xi aumenta en 1 unidad.
Modelo
Coeficientes no
Coeficient
estandarizados
es
Sig.
Intervalo de confianza de
Estadsticos de
95,0% para B
colinealidad
tipificados
B
(Constante)
Error tp.
Beta
-26,142
16,204
X1_Edad
,139
,120
X2_Sexo
-6,420
Lmite
Lmite
Toleranci
inferior
superior
FIV
-1,613
,112
-58,616
6,333
,142
1,157
,252
-,101
,379
,722 1,385
3,091
-,233
-2,077
,043
-12,615
-,225
,860 1,163
,848
,882
,121
,961
,341
-,920
2,615
,687 1,455
-,370
1,121
-,036
-,330
,743
-2,617
1,877
,889 1,124
,278
,368
,089
,756
,453
-,459
1,016
,788 1,269
1X6_Confianza
4,434
1,113
,451
3,983
,000
2,203
6,666
,843 1,186
X7_Equipos
-,462
2,543
-,022
-,182
,856
-5,558
4,634
,766 1,305
X8_HorasInternet
-,144
,721
-,024
-,200
,842
-1,590
1,302
,760 1,316
X9_HorasLibres
-,800
,586
-,167
-1,364
,178
-1,975
,375
,720 1,388
-1,364
4,087
-,038
-,334
,740
-9,555
6,826
,835 1,198
X12_Percepcin
-,736
,842
-,095
-,874
,386
-2,423
,951
,912 1,096
X11_Referencia
11,161
3,533
,377
3,159
,003
4,081
18,242
,760 1,315
X3_Ingreso
X4_Integrantes
X5_AosInternet
X10_IntMovil
En primer lugar se obtuvo la tabla Anova para saber si la regresin es significativa, obteniendo el resultado
deseado para la prueba F, de que por lo menos algn 0 para todo i desde 1 hasta 12. Esto se puede
respaldar con los datos tabulados en la Tabla 16, el valor de F estimado es de 3,114, mayor al valor de F
de tabla igual a 1,875 aproximadamente, adems la significancia arrojada es de 0,002 que es menor que
0,05, por lo tanto se tiene evidencia suficiente para asegurar que existe al menos un que est explicando
el modelo de regresin.
Modelo
Suma de
Gl
Media
cuadrados
Sig.
cuadrtica
Regresin
5147,990
12
428,999
Residual
7577,481
55
137,772
12725,471
67
Total
3,114
,002b
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Tabla 16: Tabla ANOVA
Como ya es sabido que la regresin es significativa, es de inters saber cules de los coeficientes son
realmente los que estn explicando la variable independiente Y. Para que los sean significativos su
valor-p correspondiente debe ser menor que 0,05, por ende ser necesario tener doce pruebas de
hiptesis para probar la significancia de cada , el objetivo de estas pruebas ser rechazar la hiptesis
de que cada = 0. Observando los datos de la Tabla 16 los coeficientes que son significativos son los
que estn asociados a las variables X2: Sexo, X6: Confianza y X11: Referencia.
Por lo tanto el modelo de regresin asociado al estudio quedara de la siguiente forma
= 29,142 6,420X2 + 4,434X6 + 11,161 X11
Las variables X 2, X 6 y X11 nos dan indicio de que dependiendo del gnero, en este caso mujeres, y la
confianza que el usuario perciba en internet, adems de poseer referencia de alguien que haya usado el
servicio, el nivel de compra se ver influenciado, en este caso, como solo X 6 es una variable mtrica, a
mayor valor de esta y tratndose de mujeres y de personas que s tengan referencia de un tercero, mayor
ser el valor de Y, y por ende, mayor la demanda del servicio.
Luego de saber que variables explican la variable independiente del modelo, es de importancia saber cul
es la capacidad predictiva de las variables independientes, es decir, el porcentaje de la variacin total en
la variable independiente y, que est siendo explicada por las variables explicativas Xi. Para ello se obtiene
el Coeficiente de Determinacin Mltiple, R2. Idealmente se espera que este nmero sea un valor alto
para que exista un gran porcentaje de explicacin, en este caso el R2 obtenido es de 0,405, es decir, las
variables independientes Xi explican en un 40,5% la variable independiente Y. Como el R2 conseguido es
pequeo, se puede asegurar que las variables independientes no estn muy relacionadas con la variable
dependiente, esto se puede deber a que, las variables seleccionadas no fueron las adecuadas para explicar
la variable dependiente, tambin puede estar influenciado por el hecho de que no se est ocupando la
totalidad de las observacin obtenidas, y adems puede existir una error arrastrado de haber realizado el
anlisis discriminante antes que el de regresin.
Con lo que respecta a las observaciones influyentes en el modelo, el intervalo de confianza para los
residuos tpicos es [-1,9921 1,9921], con ello se puede asegurar que existen 18 observaciones que tienen
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
gran influencia en el modelo, por tanto los 50 observaciones restantes tienen residuos atpicos. El tener
tal cantidad de observaciones no influyentes perjudic la explicacin del modelo.
iii)
Anlisis Factorial
Descripcin
Edad del encuestado
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
: Ingresos
: Integrantes
: Aos internet
: Confianza internet
: Horas navegacin
: Horas libres
: Percepcin ofertas
: Equipos electrnicos
En
primera instancia analizaremos la matriz de correlaciones para verificar que se cumpla el supuesto
principal del anlisis; Correlaciones entre las variables deben ser altas. La tabla 18 ofrece la matriz de
correlaciones (coeficientes de correlacin de Pearson) entre cada par de variables. Se desea que la matriz
indique grupos de variables que se correlacionen fuertemente entre ellas, en el caso contrario, cada
variable ser su propio factor. Para valores mayores a 0.30, las correlaciones son consideradas
sustanciales. Adems, la tabla 4 muestra la significancia de cada correlacin; un nivel crtico menor que
0,05 indica que la correlacin poblacional entre el par asociado de variables puede ser considerada
significativamente distinta de cero (esto es deseable).
Para nuestro anlisis, se obtuvo 17 correlaciones significativas (47.2%) a un nivel de 0.01de un total de 36,
lo que resulta un indicio de que nuestro anlisis podra ser no apropiado.
X1
X3
X4
X5
X6
X7
X8
X9
X12
X1
1,000
-,182
-,125
-,307
-,337
-,584
-,368
,141
-,248
X3
-,182
1,000
,134
,291
,272
,219
,137
-,090
,332
X4
-,125
,134
1,000
,130
,003
,140
,211
-,078
,013
X5
-,307
,291
,130
1,000
,501
,306
,521
,168
,269
X6
-,337
,272
,003
,501
1,000
,351
,354
,121
,315
X7
-,584
,219
,140
,306
,351
1,000
,345
,047
,282
Correlacin
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X8
-,368
,137
,211
,521
,354
,345
1,000
,173
,081
X9
,141
-,090
-,078
,168
,121
,047
,173
1,000
,014
X12
-,248
,332
,013
,269
,315
,282
,081
,014
1,000
,027
,094
,000
,000
,000
,000
,069
,004
,080
,001
,002
,010
,076
,174
,000
,086
,485
,070
,013
,208
,446
,000
,001
,000
,038
,002
,000
,000
,102
,000
,000
,313
,001
,034
,198
X1
X3
,027
X4
,094
,080
X5
,000
,001
,086
X6
,000
,002
,485
,000
X7
,000
,010
,070
,001
,000
X8
,000
,076
,013
,000
,000
,000
X9
,069
,174
,208
,038
,102
,313
,034
X12
,004
,000
,446
,002
,000
Tabla 18. Muestra la matriz de correlaciones entre las variables.
,001
,198
Sig.
(Unilateral)
,442
,442
Para continuar con nuestro anlisis aplicamos los estadsticos KMO y prueba de esfericidad de Bartlett
que permiten valorar si el anlisis ha sido el apropiado.
La Medida de Suficiencia Muestral (KMO) es un ndice que compara la magnitud de los coeficientes de
correlacin con la magnitud de los coeficientes de correlacin parcial entre las variables. Los valores de la
medida de suficiencia muestral varan entre 0 y 1. Se considera que es pertinente utilizar el anlisis en
cuestin si presenta valores de KMO prximos a 1.
La Prueba de Esfericidad de Bartlett contrasta la hiptesis nula de que la matriz de correlaciones es una
matriz identidad (lo que indicara correlaciones entre variables iguales a 0). De esta forma, se esperan
valores de significancia mayores a 0,05 para poder as rechazar la hiptesis mencionada, para luego
clasificar de buena forma al anlisis.
En nuestro anlisis se puede observar un valor de KMO de 0,736, por lo que es considerado como
aceptable, adems la significancia de Bartlett es la esperada.
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
Chi-cuadrado aproximado
Prueba de esfericidad de
Bartlett
gl
Sig.
,736
203,339
36
,000
Tabla 19. Muestra dos estadsticos usados para valorar que el anlisis factorial sea apropiado.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X1
X3
X4
X5
X6
X7
X8
X9
X12
X1
,694a
-,033
7,833E-005
,046
,103
,480
,193
-,268
,084
X3
-,033
,758a
-,102
-,153
-,106
-,070
,026
,139
-,233
X4
7,833E-005
-,102
,634a
-,048
,115
-,074
-,166
,097
,035
anti-imagen X5
,046
-,153
-,048
,762a
-,306
,010
-,371
-,113
-,113
X6
,103
-,106
,115
-,306
,823a
-,104
-,090
-,069
-,143
X7
,480
-,070
-,074
,010
-,104
,742a
-,091
-,119
-,118
Correlacin
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X8
,193
,026
-,166
-,371
-,090
-,091
,741a
-,155
,138
X9
-,268
,139
,097
-,113
-,069
-,119
-,155
,411a
-,027
X12
,084
-,233
,035
-,113
-,143
-,118
,138
-,027
,768a
En nuestra Tabla 21, correspondiente a la tabla de porcentajes de varianza explicada, se ofrece un listado
de los autovalores de la matriz de correlacin y del porcentaje de varianza y varianza acumulada que
representa cada uno de ellos. Recordemos que los autovalores expresan la cantidad de varianza total que
est explicada por cada factor. Utilizamos el criterio de la raz latente para seleccionar el nmero de
componentes que se va a mantener para un anlisis posterior, el mtodo consiste en seleccionar tantos
componentes como autovalores mayores a 1 existan en la matriz analizada, por lo que el procedimiento
extrae tres componentes que explican un %59,49 de la varianza de los datos originales.
Autovalores iniciales
Componente
Total
% de la varianza
% acumulado
2,974
33,045
33,045
1,256
13,952
46,997
1,125
12,499
59,496
,973
10,806
70,302
,757
8,408
78,710
,609
6,768
85,478
,534
5,929
91,407
,404
4,486
95,894
,370
4,106
100,000
Tabla 21. Muestra los nueve posibles factores, sus respectivos autovalores y porcentajes de varianza que representa
uno de ellos. se muestra la matriz de correlaciones reproducidas y la matriz residual.
Acada
continuacin
La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir utilizando
tan slo la informacin contenida en la solucin factorial.
La matriz residual posee los residuos del anlisis factorial, cabe mencionar que cada residuo representa
la diferencia entre la correlacin observada ente dos variables y la correlacin reproducida por la
estructura factorial para esas dos variables.
Para que el anlisis sea clasificado como adecuado, el nmero de residuos con valores altos debe ser
mnimo y la mayora de las correlaciones reproducidas se deben parecer a las correlaciones observadas.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X1
X3
X4
,595a
-,363
-,371 -,405
X3
-,363
,471a
-,017
,260
,363
X4
-,371
-,017
,524a
,099
X5
-,405
,260
,099 ,623a
X6
-,368
,363
-,033
X7
-,548
,348
X8
-,428
X9
X12
X1
Correlacin
reproducida
X6
X7
X8
-,368
-,548 -,428
X9
X12
,201
-,298
,348
,072 -,196
,516
-,033
,291
,332 -,242
-,177
,570
,466
,574
,322
,313
,570
,586a
,429
,422
,252
,453
,291
,466
,429
,530a
,462 -,066
,317
,072
,332
,574
,422
,201
-,196
-,242
,322
,252
-,298
,516
-,177
,313
,181
,246
,151
X1
Residualb
X5
,462 ,698a
,301
,039
-,066
,301 ,706a
-,074
,453
,317
,039 -,074
,620a
,098
,031
-,035
,060 -,060
,049
,031
-,092
-,129
,065
,106
-,184
,031
,037
-,151 -,121
,165
,190
-,043
-,139
-,116
,113
-,035
-,127
,042
X3
,181
X4
,246
,151
X5
,098
,031
X6
,031
-,092
,037 -,068
X7
-,035
-,129
-,151 -,160
-,077
X8
,060
,065
-,121 -,053
-,068
X9
-,060
,106
,165 -,153
-,131
X12
,049
-,184
,190 -,043
-,139
,031
-,068
-,116
,113 -,127
-,035
,042
,088
,088
Luego procedemos a analizar la matriz de coeficientes para el clculo de las cargas factoriales, la cual
ofrece las ponderaciones que recibe cada variable en el clculo de dichas cargas.
Las puntuaciones factoriales deben ser cercanas a 0 o 1, las variables con puntuaciones prximas a 1 se
explican en gran parte por el factor, mientras que las que tengas puntuaciones prximas a 0 no se explican
por el factor. Cabe mencionar que cada variable debe tener puntuaciones factoriales altas con un nico
factor y que no deben existir factores con similares puntuaciones factoriales.
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
En nuestro anlisis notamos poca claridad al momento de explicar la relacin de las variables con los
factores ya que las puntuaciones no muestran una preferencia notoria ante algn factor. Se realiza una
rotacin ortogonal (VARIMAX) para mejorar esta situacin.
Componente
1
X1 Edad
-,124
-,345
,095
,410
-,053
-,151
-,239
,539
-,130
X5 Aos Internet
,079
,054
,327
X6 Confianza
,242
-,084
,247
X7 Equipos
,126
,259
,013
X8 Horas Internet
-,184
,307
,337
X9 Horas Libres
-,170
-,262
,589
X3 Ingreso
X4 Integrantes
X12 Percepcin
,503
-,225
-,066
Tabla23. Muestra la matriz de coeficientes para el clculo de
las puntuaciones en los componentes
Luego de realizar la rotacin VARIMAX se muestra la matriz de componentes rotados. La idea de aplicar
una rotacin es redistribuir las varianzas de los factores y as mejorar la saturacin de las variables en su
respectivo factor y disminuirla en los componentes a los que no pertenece.
En nuestro anlisis se puede observar que a pesar de haber aplicado una rotacin, contina existiendo
poca claridad en las saturaciones de las variables con sus factores representativos. Por lo tanto
excluiremos la variable X9 la cual presentaba el menor MSA entre las variables en cuestin (Tabla 20).
Componente
1
X12percepcin
,782
X3ingreso
,674
X6confianza
,550
X4integrantes
X1edad
,512
,700
-,429
-,637
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X7equipos
,434
,542
X9horaslibres
,769
X5aosinternet
,622
X8horasinternet
,565
,613
Tabla 24. Muestra la matriz de componentes rotados
Tras la exclusin de la variable X9 (Horas Libres) se observa un aumento en el ndice KMO. Al analizar la
matriz de correlacin Anti-Imagen se muestra una mejora en los valores de los MSA de las variables (se
omiti esta tabla), adems se puede observar que los factores extrados han disminuido de tres a dos.
Recordemos que un anlisis factorial satisfactorio se caracteriza por tener puntuaciones factoriales altas
con un nico factor y que no deben existir factores con similares puntuaciones factoriales.
La matriz de componentes principales muestra poco claridad en las saturaciones de las variables con sus
factores representativos, por lo que se realiz una rotacin oblicua (OBLIMIN) y esta situacin ha sido
mejorada; cada variable presenta una saturacin relativamente alta con un nico factor (no se us una
rotacin VARIMAX ya que sta tampoco logr mejorar la situacin de poca claridad entre factores y
variables).
gl
Bartlett
,763
187,969
28
Sig.
,000
Tabla 25. Muestra KMO y prueba de Bartlett luego de la exclusin de la variable X9.
Componente
1
X5aosinternet
,726
X7equipos
,702
X6confianza
,696
X1edad
X8horasinternet
-,689
,652
-,458
1
X8horasinternet
2
,742
X5aosinternet
,717
UNIVERSIDAD DE CONCEPCIN
X1edad
-,704CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
X7equipos
,704
PRIMER SEMESTRE 2015
X6confianza
,627
X3ingreso
,493
,408
X12percepcin
,703
X12percepcin
,510
,598
X3ingreso
,514
X4integrantes
-,565
Tabla 26. Muestra la matriz de componentes
luego de la exclusin de la variable X9.
X4integrantes
-,489
Tabla 27. Muestra la matriz de componentes
rotados luego de la exclusin de la variable X9.
Luego de la exclusin de la variable en cuestin, se puede observar una mejora al momento de explicar la
relacin de las variables con los componentes ya que las puntuaciones reflejan una preferencia notoria
ante los factores representativos.
Conclusiones
El objetivo inicial era detectar aquellas caractersticas que definan el comportamiento de quienes
compran o no a travs de internet y a su vez detectar aquellas que mejor expliquen el nivel de compra de
los encuestados, las conclusiones de las tcnicas empleadas en el anlisis son:
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
i)
La funcin discriminante qued conformada por las siguientes variables: ingresos, confianza
hacia internet, horas de navegacin y percepcin de las ofertas, obteniendo una precisin
clasificatoria de un 92,6% en la muestra de anlisis y un 90,7 % en la muestra de validacin,
el anlisis cumpli todos los supuestos requeridos, por ende se concluye que sern estas
variables las encargadas de distinguir y por ende clasificar cualquier caso entre s compra a
travs de internet o no compra a travs de internet.
ii)
iii)
Del anlisis factorial se concluye que este es adecuado debido a los resultados obtenidos y
exclusin de una variable que no lograba ser clasificada correctamente en un nico factor.
Adems se han obtenido dos factores; el primero ha sido denominado como logros del
servicio, el cual contiene a las variables; horas de internet, aos de internet, edad, equipos y
confianza. Para el segundo factor se le ha dado la etiqueta de entorno, el cual contiene a
las variables; percepcin, ingreso e integrantes.
Respecto a los errores que se presentaron en el desarrollo del anlisis, los justificamos en el proceso
de recoleccin de datos, ya que limitarse a la disponibilidad de la gente a responder una encuesta va
telfono no fue una tarea sencilla, y abarcar el tamao de la muestra mnimo fue algo que super
nuestro alance.
La importancia que se asocia al estudio es ms bien en el mbito sociolgico ya que apunta a
comprender conductas de las personas respecto a esta tendencia que se estn presentando en la
sociedad.
Referencias
-
UNIVERSIDAD DE CONCEPCIN
CAMPUS CONCEPCIN
ANLISIS ESTADSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
HAIR, ANDERSON, TATHAM & BLACK, Anlisis Multivariante, traduccin Esme Prentice y Diego
Cano, Universidad autnoma de Madrid, Madrid, Captulo 1: Introduccin, Captulo 2: Anlisis
previo de los datos, Captulo 3: Anlisis factorial.