You are on page 1of 16

UNIVERSIDAD DE ORIENTE

NCLEO DE ANZOTEGUI
EXTENSIN CANTAURA
CONTADURA PBLICA

TEOR
A DE
REGRES
IN Y
CORRE
LACIN

Integrantes:
Salazar, Tulmary C.I.: 25.427.464
Daz, Dayana

C.I.: 21.329.958

Garca, rsula

C.I.: 25.810.134

Quijada, Luis

C.I.: 25.428.455

Julio, 2015

NDICE
Pg.

INTRODUCCIN

DEFINICIONES BSICAS DE REGRESIN

SUPUESTOS PARA EL ANLISIS DE REGRESIN

PROCEDIMIENTOS PARA LLEVAR A CABO UN ANLISIS


DE REGRESIN

DEFINICIONES BSICAS DE CORRELACIN

ESTABLECER EL COEFICIENTE DE CORRELACIN


ENTRE VARIABLES

10

UTILIZAR PAQUETES ESTADSTICOS PARA LLEVAR A CABO


PRONSTICOS DE REGRESIN

11

APLICACIN DE LA PRUEBA DE HIPTESIS PARA TIPO B

12

CONCLUSIN

15

BIBLIOGRAFA

16

INTRODUCCIN

Parte de la Estadstica, corresponde a la Estadstica Inferencial y dentro de ella


los captulos de correlacin y regresin son muy usados en la Investigacin
Cientfica, una herramienta muy til cuando se trata de relacionar dos o ms
variables, relacionadas entre s, como por ejemplo. nivel de hemoglobina y embarazo
en el mbito de las Ciencias de la Salud, la Correlacin implica el grado de
dependencia de una variable respecto a otra y la Regresin es otra tcnica que ayuda
en la investigacin de la salud Psicologa costos de una Empresa etc.
El anlisis de correlacin lineal (ACL) y el anlisis de regresin lineal (ARL)
forman la pareja de tcnicas ms populares para estudiar la existencia de una
relacin lineal entre dos variables de naturaleza cuantitativa. El ACL estudia la
intensidad y la direccin de la relacin lineal entre dos variables de naturaleza
cuantitativa. En qu medida y direccin estn relacionados de modo lineal el gasto
en publicidad y las ventas de una empresa? El ARL ayuda en la prediccin de los
valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor
de otra variable cuantitativa (llamada independiente) con la que tiene una relacin de
tipo lineal. Cunto vender una empresa que gasta 83.000 euros en publicidad?
En la presente investigacin, se profundizar ms en dichos conceptos y sus
derivados.

DEFINICIONES BSICAS DE REGRESIN

Anlisis de regresin: En trminos generales, el anlisis de Regresin trata sobre el


estudio de la dependencia de un fenmeno econmico respecto de una o varias
variables explicativas, con el objetivo de explorar o cuantificar la media o valor
promedio poblacional de la primera a partir de un conjunto de valores conocidos o
fijos de la/s segunda/s.
Regresin: Estudia y predice el valor promedio de una variable sobre la base de
valores fijos de otras variables. Existe una asimetra en el tratamiento que se les da a
las variables. La variable dependiente es aleatoria o estocstica: su valor depende de
una distribucin de probabilidades. Las variables independientes tienes valores fijos
en muestras repetidas.
Correlacin: Su objetivo es medir el grado de asociacin lineal entre dos variables. El
tratamiento de las variables es simtrico: No se distinguen entre variable dependiente
y variable explicativa. Se asume que las dos variables son simtricas.
Diagrama de dispersin: Un diagrama de dispersin es un grfico en el que una de las
variables (Xi) se coloca en el eje de las abscisas y la otra (Yi) en el eje de las
ordenadas y los pares de puntuaciones de cada sujeto (xi, yi) se representan como una
nube de puntos.
SUPUESTOS PARA EL ANLISIS DE REGRESIN
Como el propsito del modelo no es solo estimar B1 y B2 sino hacer inferencia
sobre los verdaderos B1 y B2, entonces se hace necesario establecer los siguientes
supuestos:
El modelo de regresin es lineal en los parmetros.
.

Las variables deben ser lineales en sus valores originales o despus de alguna
transformacin adecuada.

El valor esperado de la perturbacin aleatoria debe ser cero para cualquier


observacin

para toda i

La varianza de las perturbaciones es constante homoscedasticidad (IGUAL


VARIANZA).

para toda i

Independencia o no auto correlacin entre las perturbaciones


Dados dos valores cualesquiera de X, xi xj para i j, la correlacin entre Ui, Uj es
cero.

para cualquier i j

Independencia entre Ui y Xj

para toda i y j,

esto para separar el efecto sobre Y de U y X


Los valores de X son fijos en muestreos repetidos es decir son no estocsticos.
Debe disponerse de una informacin estadstica suficientemente amplia sobre el
conjunto de variables observables implicadas en el modelo. Como requisito
mnimo para que pueda determinarse una solucin se exige que el nmero de datos
(n) debe ser superior al nmero de parmetros (k) (n>k) se habla para datos
anuales mnimo 15.
En modelos de regresin mltiples se necesita que no haya relacin lineal perfecta
entre las variables independientes o explicativas, a esto se le llama no
multicolinealidad. X de n x k con rango k (rango completo).
Normalidad Ui esta normalmente distribuido para toda i

Lo anterior implica que:

Estimados los

a partir de datos

muestrales, se requiere de alguna medida para verificar la confiabilidad o precisin de

los estimadores

En estadstica la precisin de un valor estimado es medida

por su desviacin estndar o error estndar. Desarrollando una demostracin


matemtica se puede concluir que:

El estimador de mnimos cuadrados de la verdadera varianza de los errores es:

PROCEDIMIENTOS PARA LLEVAR A CABO UN ANLISIS DE


REGRESIN
Los anlisis de regresin pueden ser de mucha ayuda para analizar una gran
cantidad de informacin y para realizar previsiones y pronsticos.
Las siguientes instrucciones sirven para ejecutar un anlisis de regresin en
Microsoft Excel.

Paso 1: Ingresar los datos en la hoja de clculo que a evaluar. Se debe tener al
menos dos columnas de nmeros que representarn el rango de datos X e Y. El
dato Y representa la variable dependiente mientas que el dato X es la variable
independiente.
Paso 2: Abrir la herramienta de anlisis de regresin. Presionar "Anlisis de
datos" y de la lista de herramientas elegir "Regresin".
Paso 3: Definir el rango de datos Y. En la casilla "Anlisis de regresin", hacer clic
en la casilla de "Rango de datos Y". Luego hacer clic y arrastrar el cursor en el
campo de los datos Y para elegir todos los nmeros que se quieren analizar.
Aparecer una frmula que se ha ingresado en el espacio de los datos Y.
Paso 4: Para el rango de los datos X, repetir el paso anterior.
Paso 5: Elegir dnde aparecer el resultado. Se puede elegir un rango particular
de resultados o enviar los datos a una nueva hoja de clculo.
Paso 6: Hacer clic en "OK". Una compilacin del resultado de la regresin
aparecer donde se haya elegido.
DEFINICIONES BSICAS DE CORRELACIN
La correlacin estadstica constituye una tcnica estadstica que indica si dos
variables estn relacionadas o no. Por ejemplo, considerando que las variables son el
ingreso familiar y el gasto familiar. Se sabe que los aumentos de ingresos y gastos
disminuyen juntos. Por lo tanto, estn relacionados en el sentido de que el cambio en
cualquier variable estar acompaado por un cambio en la otra variable.
De la misma manera, los precios y la demanda de un producto son variables
relacionadas; cuando los precios aumentan la demanda tender a disminuir y
viceversa.

Si el cambio en una variable est acompaado de un cambio en la otra, entonces


se dice que las variables estn correlacionadas. Por lo tanto, podemos decir que el
ingreso familiar y gastos familiares y el precio y la demanda estn correlacionados.
Relacin Entre las Variables La correlacin puede decir algo acerca de la relacin
entre las variables. Se utiliza para entender:
Si la relacin es positiva o negativa
La fuerza de la relacin.
La correlacin es una herramienta poderosa que brinda piezas vitales de
informacin. En el caso del ingreso familiar y el gasto familiar, es fcil ver que
ambos suben o bajan juntos en la misma direccin. Esto se denomina correlacin
positiva. En caso del precio y la demanda, el cambio se produce en la direccin
opuesta, de modo que el aumento de uno est acompaado de un descenso en el otro.
Esto se conoce como correlacin negativa.
Coeficiente de Correlacin La correlacin estadstica es medida por lo que se
denomina coeficiente de correlacin (r). Su valor numrico vara de 1,0 a -1,0. Nos
indica la fuerza de la relacin.
En general, r> 0 indica una relacin positiva y r <0 indica una relacin negativa,
mientras que r = 0 indica que no hay relacin (o que las variables son independientes
y no estn relacionadas). Aqu, r = 1,0 describe una correlacin positiva perfecta y r =
-1,0 describe una correlacin negativa perfecta.
Cuanto ms cerca estn los coeficientes de +1,0 y -1,0, mayor ser la fuerza de la
relacin entre las variables. Como norma general, las siguientes directrices sobre la
fuerza de la relacin son tiles (aunque muchos expertos podran disentir con la
eleccin de los lmites).

Valor de r

Fuerza de relacin

-1,0 A -0,5 o 1,0 a 0,5

Fuerte

-0,5 A -0,3 o 0,3 a 0,5

Moderada

-0,3 A -0,1 o 0,1 a 0,3

Dbil

-0,1 A 0,1

Ninguna o muy dbil

La correlacin es solamente apropiada para examinar la relacin entre datos


cuantificables significativos (por ejemplo, la presin atmosfrica o la temperatura) en
vez de datos categricos, tales como el sexo, el color favorito, etc.
Desventajas Si bien 'r' (coeficiente de correlacin) es una herramienta poderosa, debe
ser utilizada con cuidado. Los coeficientes de correlacin ms utilizados slo miden
una relacin lineal. Por lo tanto, es perfectamente posible que, si bien existe una
fuerte relacin no lineal entre las variables, r est cerca de 0 o igual a 0. En tal caso,
un diagrama de dispersin puede indicar aproximadamente la existencia o no de una
relacin no lineal.
Hay que tener cuidado al interpretar el valor de r. Por ejemplo, se podra
calcular r entre el nmero de calzado y la inteligencia de las personas, la altura y los
ingresos. Cualquiera sea el valor de r, no tiene sentido y por lo tanto es llamado
correlacin de oportunidad o sin sentido.
R no debe ser utilizado para decir algo sobre la relacin entre causa y efecto.
Dicho de otra manera, al examinar el valor de r podramos concluir que las variables
X e Y estn relacionadas. Sin embargo, el mismo valor de r no dice si X influencia a
Y o al revs. La correlacin estadstica no debe ser la herramienta principal para
estudiar la causalidad, por el problema con las terceras variables.

ESTABLECER EL COEFICIENTE DE CORRELACIN ENTRE


VARIABLES
Para poder contar con un indicador que permita, por un lado establecer la
covariacin conjunta de dos variables, y por otro, que tenga la universalidad
suficiente para poder establecer comparaciones entre distintos casos, se utiliza el
coeficiente de correlacin (lineal, de Pearson).La correlacin es, pues una medida de
covariacin conjunta que nos informa del sentido de esta y de su relevancia, que est
acotada y permite la comparacin entre distintos casos.
El coeficiente de correlacin entre dos variables puede definirse como la
covarianza existente entre sus dos variables tipificadas y tiene por expresin de
clculo:

Si r < 0 Hay correlacin negativa: las dos variables se correlacionan en sentido


inverso. A valores altos de una de ellas le suelen corresponder valor bajos de la otra y
viceversa. Cunto ms prximo a -1 est el coeficiente de correlacin ms patente
ser esta covariacin extrema .Si r= -1 se hablara de correlacin negativa perfecta lo
que supone una determinacin absoluta entre las dos variables (en sentido inverso):
Existe una relacin funcional perfecta entre ambas (una relacin lineal de pendiente
negativa).
Si r > 0 Hay correlacin positiva: las dos variables se correlacionan en sentido
directo .A valores altos de una le corresponden valores altos de la otra e igualmente
con los valores bajos. Cunto ms prximo a +1 est el coeficiente de correlacin
ms patente ser esta covariacin .Si r = 1 hablaremos de correlacin positiva
perfecta lo que supone una determinacin absoluta entre las dos variables (en sentido
directo): Existe una relacin lineal perfecta (con pendiente positiva).

10

Si r = 0 se dice que las variables estn incorrelacionadas: no puede establecerse


ningn sentido de covariacin.
UTILIZAR PAQUETES ESTADSTICOS PARA LLEVAR A CABO
PRONSTICOS DE REGRESIN
Un paquete estadstico es un programa informtico que est especialmente
diseado para resolver problemas en el rea de la estadstica, o bien est programado
para resolver problemas de esta rea. Existen muchos programas que no son
especialmente estadsticos pero que pueden hacer algunos clculos aplicables en
estadstica aplicada. Estos programas han impulsado y siguen impulsando
enormemente la labor de los investigadores que desean utilizar la estadstica como
apoyo en su trabajo.
Los paquetes ms sencillos tienen interfaz por ventanas, lo que implica facilidad
de uso y aprendizaje pero un mayor encorsetamiento a la hora de hacer clculos que
el programa no tenga predefinidos. Los programas ms complejos suelen tener la
necesidad de conocer su lenguaje de programacin, pero suelen ser mucho ms
flexibles al poderse incluir en ellos funciones, tests o contrastes que no traen
instalados por definicin.
Implementaciones del modelo de regresin en paquetes estadsticos:
SPSS, usando el comando GENLIN
Matlab Statistics Toolbox: funciones glmfit y glmval.3
Microsoft Excel: a travs de extensiones tales como Xpost
SAS: funcin GENMOD
Stata: procedimiento poisson
R: la funcin glm ()
Ejemplo de ajuste de un modelo de Poisson con R:
11

El siguiente cdigo muestra cmo ajustar mediante un modelo de regresin de


Poisson un conjunto de datos recopilados por Dobson.4 5
# Construccin de los datos
counts <- c(18,17,15,20,10,20,25,13,12)
outcome <- gl(3,1,9)
treatment <- gl(3,3)
# Ajuste del modelo
glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())
# Resumen del modelo
anova(glm.D93)
summary(glm.D93)
APLICACIN DE PRUEBA DE HIPTESIS PARA ERROR TIPO B
Al evaluar un procedimiento de prueba de hiptesis, es importante examinar la
probabilidad del error tipo II, el cual se denota por B. Esto es:
B = P(error tipo II) = P(aceptar Ho/ Ho es falsa)
Para calcular B se debe tener una hiptesis alternativa especfica; esto es, debe
tenerse un valor particular del parmetro. Por ejemplo, supngase que es importante
rechazar la hiptesis nula Ho: = 50 cada vez que la rapidez promedio de combustin
m es mayor que 52 cm/s o menor que 48 cm/s. Para ello, puede calcularse la
probabilidad B de un error tipo II para los valores = 52 y = 48, y utilizar este
resultado para averiguar algo con respecto a la forma en que se desempear la
prueba. De manera especfica, cmo trabajar el procedimiento de prueba si se desea
detectar, esto es, rechazar Ho, para un valor medio de = 52 o = 48? Dada la
simetra, slo es necesario evaluar uno de los dos casos, esto es, encontrar la

12

probabilidad de aceptar la hiptesis nula Ho: = 50 cuando el valor verdadero es =


52.
Para hacer este clculo se tendr un tamao de muestra de 10 y una desviacin
estndar de la poblacin de 2.5 cm/s. Adems se evaluar el error tipo II con un nivel
de significancia de 0.06.
Ho: = 50
H1: 50
Se trata de un ensayo bilateral por lo que se tendr que calcular el valor del
estadstico L x de la siguiente manera:

Para facilitar los clculos se redondearn estos nmeros a 48.5 y 51.5

Para poder comprender mejor el clculo del error tipo II se delimitar el rea de
la regin de aceptacin con dos lneas ya que es bilateral y se evaluar la probabilidad
de caer en esa rea cuando la media tiene un valor de 52 y de 48.

13

Como se puede observar, en cada clculo del valor B se tuvieron que evaluar los
dos valores de z. En el primer clculo de B se tiene un valor de z=-4.43, esto quiere
decir que no existe rea del lado izquierdo del 48.5, por lo que b slo ser el rea que
corresponda a la z=-0.63. Lo mismo pasa con el segundo clculo de B. Como las
medias de 52 y 48 son equidistantes del 50 por este motivo los valores del error tipo
II son los mismos. En caso que no estn equidistantes, se tienen que calcular por
separado y calcular los valores correspondientes de z porque en ocasiones se tiene un
rea que no est dentro de la regin de aceptacin, la cual no se tiene que tomar en
cuenta para evaluar al error tipo II. Entre ms se aleja el valor verdadero de la media
de la media de la hiptesis nula, menor es la probabilidad del error tipo II para un
tamao de muestra y nivel de significancia dadas. A medida que el tamao de la
muestra aumenta la probabilidad de cometer el error tipo II disminuye.

14

CONCLUSIN
El anlisis de correlacin es un grupo de tcnicas estadsticas usadas para medir
la fuerza de la asociacin entre dos variables. Un diagrama de dispersin es una
grfica que representa la relacin entre dos variables. La variable dependiente es la
variable que se predice o calcula. La variable independiente proporciona las bases
para el clculo. Es la variable de prediccin.
El coeficiente de correlacin, por su parte, es una medida de la intensidad de la
relacin lineal entre dos variables. Requiere datos de nivel de razn. Puede tomar
cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte. Los valores cerca de 0.0 indican la correlacin dbil. Los valores
negativos indican una relacin inversa y los valores positivos indican una relacin
directa.
Estas tcnicas son empleadas para infinidad de propsitos en la estadstica
moderna y representan herramientas valiosas para la evaluacin de diferentes tipos de
hiptesis y pruebas.

15

BIBLIOGRAFA
Berenson, M. y Levine, D (1.996). Estadstica bsica en Administracin. Mxico:
Glass, G. y Sannley, J.(1.992). Mtodos Estadsticos Aplicados a las Ciencias
Sociales. Mxico: Prentice Hall Hispanoamericana.
Kazmier, L. y Daz, A. (1.993). Estadstica Aplicada a la Administracin y a la
Economa.
Levin, R (1.991). Estadstica para Administradores. Colombia: Prentice Hall.
Martinez B., Ciro (2001) Estadstica y Muestreo. Segunda Edicin. Bogot. Ecoe.
Mxico: Mc.Graw Hill Explorable.com (May 2, 2009). La Correlacin Estadstica.
Jul 07, 2015 Obtenido de Explorable.com: https://explorable.com/es/lacorrelacion-estadistica
Murray, S. (2.000). Estadstica Mxico: Mc. Graw Hill.
Webster, A (1.996). Estadstica aplicada a la Empresa y a la Economa. Espaa: Irwin.
http://www.uv.es/ceaces/base/descriptiva/coefcorre.htm

16

You might also like