Professional Documents
Culture Documents
Ministerio de Educación
Dirección de Educación Media, Especial y Superior
COLEGIO UNIVERSITARIO
Instituto Superior “María Justa Moyano de Ezpeleta”
Asociación para el crecimiento Educativo
ESTADÍSTICA
Profesor:
CDOR. LUCAS PABLO ANDRÉS
DALL’AGATA
- 2011-
INTRODUCCIÓN ESTADÍSTICA
INTRODUCCION:
Esperamos que encuentre relación entre lo ap rendido y los hechos de la vida cotidiana,
que continúe aprendiendo en su actividad particular y luego integre sus nuevos
conocimientos al curso ya que de esa forma permitirá la retroalimentación de todos.
Si alguna vez Ud. nos dice: ¿Este tema hay que saberlo?, sentiremos:
DESALIENTO
EL PROFESOR
ESTADISTICA
Este material de trabajo está diseñado de tal forma que per mite sepáralo perfectam ente
en unidades.
En cada una de ellas encontrará infor mación, en la cual se desarrollan todos los
conceptos teóricos de la misma conjuntamente con ejercitación resuelta. Y por otro lado
Ud. encontrará toda la parte práctica con ej ercicios, algunos resueltos y otros no (estos
últimos adm iten gran cantidad de respu estas, pres entan una s ituación d istinta
relacionada directamente con un caso real).
EJE TRANSVERSAL
SUBEJE TRANSVERSAL:
COMPETENCIAS:
CONTENIDOS:
UNIDAD I:
1- Generalidades. Historia. Análisis exploratorio y confirmatorio de datos. Tipos
de investigación. Marco, unidades elem entales, universo poblaciones finitas e
infinitas, muestra. Datos: definición. Prueba de datos.
2- Obtención de la infor mación: distintos tipos de fuen tes, cuestionarios: tipos.
Elección y Confección de distintos tipos de encuesta. Errores m ás com unes,
distintos tipos de preguntas. Los cuadros. Tipos y partes.
3- Identificación y cla sificación d e la infor mación: Variables: tipos y
clasificación. Niveles de m edición de las variables: nominal y ordinal, discretas
y continuas
4- Procesamiento de la información : Cálculo y representación de los distintos
tipos de frecuencia: absolutas, acumuladas, relativas, porcentuales y acumuladas.
Diagrama de tallo y hojas. Interpretación.
5- Presentación de la información: gráficos, tipos y función. Histogram as y
gráficos de bastones. Poligonal en las variables continúas. Ojivas para las
frecuencias acum uladas. Utilización de cada uno de los gráficos de acuerdo a
tipo de variable. Aplicación. Utilización de las distintas plan illas de calculo
(Excel) para la resolución de situ aciones prácticas. Aplicación. Glosario.
Diagrama de flujo.
UNIDAD II:
1- Medidas de posición: media, m ediana y m odo. Ve ntajas y desventajas de
cada una Cuartiles y percentiles. Rango. Calculo de cada un a de las m edidas
de acuerdo al tipo d e variable en estudio. Comparación de media, mediana y
modo. Elección de una medida de posición adecuada.
2- Medidas de variabilidad: Variancia, desv ió estándar, coeficiente de
variación y asim etría. C oeficiente de Pearson. Interpretación y calculo de
acuerdo al tipo de variab le, Utilización del desvió estándar. Teorem a de
Tchebychev. Defectos del desvió estándar. Utilidad de las m edidas de
dispersión. Glosario. Diagrama de flujo.
3- Ejercitación:
UNIDAD III:
1- Covariación: distintos tipos. Técnicas para el estudio de la Covariación.
2- Análisis de regresión: Calculo del error estándar de estimación. Parámetros,
errores y límites de predicción.
3- Análisis de correla ción: coeficientes de co rrelación y determ inación.
Interpretación. Números índices simples y complejos. Glosario. Diagrama de
flujo
4- Ejercitación.
METODOLOGÍA
Métodos, procedimientos y técnicas:
EVALUACIÓN:
FORMATIVA: prácticos
SUMATIVA: examen.
BIBLIOGRAFÍA:
UNIDAD I:
UNIDAD I:
TEMARIO:
1- GENERALIDADES.
• HISTORIA
No, desde luego. El estudio se hizo sobre escolares que están en crecimiento. Todo
cuanto se demostró en él es que los niños mayorcitos, cuyos pies son más grandes, leen
mejor que los pequeñines.
Uno de los objetivos del presente libro consiste en revisar algunas de las formas más
comunes en que utiliza la estadística de manera incorrecta, ya sea por honesta falta de
conocimiento o debido al intento de engañar al usuario. En cualquier caso, los que
utilizan la estadística y no saben como tratar tales prácticas fraudulentas, no pueden
obtener mucha utilidad de esta disciplina.
Es una ciencia de lo masivo que había empezado por ser solo social, pasa a abarcar por
completo el dominio de lo multitudinario y, por lo tanto, temas de galaxias, cultivos,
lenguas, economías, etc., devienen como parte de sus actividades más corrientes.
Por ello es muy importante la estadística como herramienta de trabajo aplicada a cada
uno de los campos de la ciencia y en nuestro país son pocas las carreras que no cuentan
con un curso acerca de ella. También insistiremos en las probabilidades y las teorías
probabilísticas necesarias para realizar ingerencias estadísticas.
Una población puede ser definida como los alumnos de la Facultad de Ciencias
Agropecuarias y, en ese caso pueden ser listados e individualizados todos los elementos
que constituyen esa población.
Una población puede estar definida como las hectáreas sembradas con soja en un campo
experimental, las temperaturas diarias mínimas durante un año en cierta localidad, los
niños con problemas visuales en un determinado radio escolar, etc.
Ellos son ejemplos de poblaciones infinitas.
• Población infinita: una población infinita es aquella que, en la práctica,
no puede ser físicamente listada.
Existen distintas definiciones de estadística, la que más se adapta a nuestros conceptos
es la siguiente.
Los datos deben ser chequeados antes de que podamos obtener conclusiones acerca de
ellos. Una forma es a través de las pruebas para datos.
Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones
bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas
características en situaciones dadas. También el conocimiento de tendencias adquirido
de la experiencia previa puede permitir a los ciudadanos que les interesa estar al tanto
de posibles resultados y actuar en consecuencia. Nuestra investigación de mercado
puede revelar que determinado producto es preferido por amas de casa de origen
italiano y español, con ingresos y educación medianos. Una copia de propaganda del
producto debe estar dirigida a esta audiencia. Y si los registros del hospital muestran
que mas pacientes han utilizado el aparato de rayos X en junio que en enero, el
departamento de personal del hospital debe determinar si esto es algo que sólo sucedió
ese año o es indicativo de una tendencia y, tal vez, debería ajustar su programa de
contratación y asignación de vacaciones de acuerdo con la información.
Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar
decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar
decisiones inteligentes.
En la actualidad, las computadoras permiten a los especialistas en estadística recolectar
enormes volúmenes de observaciones y comprimirlas de manera instantánea en tablas,
graficas y números; éstas son formas compactas y útiles, pero ¿son confiables?
Recuerde que los datos producidos por una computadora son tan precisos como los
datos que entraron en ella.
Como dicen los programadores de computación: basura entra, basura sale. Los
administradores deben tener mucho cuidado y asegurar que los datos utilizados estén
basados en suposiciones e interpretaciones correctas.
Antes de depositar nuestra confianza en cualquier conjunto de datos interpretados, ya
vengan éstos de una computadora o no, pruébelos mediante las siguientes preguntas:
• ¿De dónde vienen los datos? ¿La fuente es parcial?, es decir, ¿es
posible que haya un interés en proporcionar datos que conduzcan a
una cierta conclusión más que a otras?
• ¿Los datos comprueban o contradicen otras evidencias que se
poseen?
• ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se
llegue a una conclusión diferente?
• ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos
que se desea estudiar?
• ¿La conclusión es lógica?, ¿Se ha llegado a conclusiones que
nuestros datos no confirman?
Subdivisiones de la estadística
Los administradores aplican alguna técnica estadística a virtualmente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos,
por lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial. Algunos ejemplos nos serán de ayuda para entender la diferencia entre las
dos.
Características Generales
La Encuesta Permanente de Hogares (EPH) es un programa nacional que abarca
actualmente, despúes de una incorporación progresiva, 28 aglomerados urbanos
donde habita el 70% de la población urbana del país.
Incluye también un área urbano-rural: el Alto Valle de Río Negro.
La encuesta se basa en una muestra probabilística, estratificada, en dos etapas de selección,
que comprende actualmente 27.000 viviendas en todo el país y produce estimaciones
válidas para cada uno de los aglomerados urbanos que cubre y para su total.
OBJETIVO GENERAL
Caracterizar a la población del país en términos de su inserción en la estructura socioeconómica.
Para alcanzar este objetivo la Encuesta define la siguiente cobertura temática:
* Características Habitacionales
* Demográficas
* Laborales
* Educacionales
* Ingresos
* Migraciones
Periodicidad:
El relevamiento se realiza dos veces en el año: mayo y octubre. En los años 1998 y 1999 ante el requerimiento de
mayor frecuencia se intercaló una onda en el mes de agosto. El Alto Valle de Río Negro se releva en marzo y
septiembre, siendo marzo época de cosecha y setiembre etapa de receso. En 1998, se intercaló una onda
adicional en junio.
Semana de referencia:
Es la semana calendario completa que precede a la iniciación del relevamiento. Las estimaciones de las Tasas
relativas a la situación ocupacional se refieren a las condiciones existentes en la semana de referencia.
Definiciones básicas
A continuación se agrega un conjunto de definiciones básicas para una mejor comprensión de los datos
presentados.
Población económicamente activa:
La integran las personas que tienen una ocupación o que sin tenerla la están buscando activamente. Está
compuesta por la población ocupada más la población desocupada.
Población desocupada:
Se refiere a personas que, no teniendo ocupación, están buscando activamente trabajo. Corresponde a
Desocupación Abierta. Este concepto no incluye otras formas de precariedad laboral (también relevadas por la
EPH) tales como personas que realizan trabajos transitorios mientras buscan activamente una ocupación,
aquellas que trabajan jornadas involuntariamente por debajo de lo normal, a los desocupados que han
suspendido la búsqueda por falta de oportunidades visibles de empleo, a los ocupados en puestos por debajo de
la remuneración vital mínima o en puestos por debajo de su calificación, etcétera.
Población subocupada visible:
Se refiere a los ocupados que trabajan menos de 35 horas semanales por causas involuntarias y desean trabajar
más horas. Comprende a todos los ocupados en empleos de tiempo reducido: incluye, entre otros, a agentes de
la Administración Pública Provincial o Municipal, cuyo horario de trabajo ha sido disminuido y están dispuestos a
trabajar más horas.
Población subocupada demandante:
Se refiere a la población subocupada que además busca activamente otra ocupación.
Población subocupada no demandante:
Se refiere a la población subocupada que no está en la búsqueda activa de otra ocupación.
Tasa de actividad:
Calculada como porcentaje entre la población económicamente activa y la población total.
Tasa de empleo:
Calculada como porcentaje entre la población ocupada y la población total. Se difunde a partir de abril de 1983 a
fin de completar la información sobre el mercado de trabajo.
Tasa de desocupación:
Calculada como porcentaje entre la población desocupada y la población económicamente activa.
Tasa de subocupación horaria:
Calculada como porcentaje entre la población subocupada y la población económicamente activa
Tasa de subocupados demandantes:
Calculada como porcentaje entre la población de subocupados demandantes y la población económicamente
activa.
Tasa de subocupados no demandantes:
Calculada como porcentaje entre la población de subocupados no demandantes y la población económicamente
activa.
Signos utilizados:
No se releva el aglomerado.
( .) Dato no registrado
( * ) Cifras provisionales
(...) Dato no disponible a la fecha
Importante:
En los Informes de Prensa solamente se publican los Indicadores básicos de Condición de Actividad.La Encuesta
Permanente de Hogares posee una COBERTURA TEMÁTICA amplia, disponible para su consulta en el Centro
Estadístico de Servicio, Julio Argentino Roca 609, PB, Capital Federal. Te: 4349-9654, Mail:
ces@indec.mecon.gov.ar
Como hemos observado la información que le hemos presentado esta integrada por
DATOS.
El dato u observación es el elemento básico a partir del cual se elabora la información.
Una observación puede ser la respuesta a una pregunta, (si, no), una medida física:
(peso, altura, volumen) o una clasificación (defectuosa o no defectuosa)
El conjunto de todas las observaciones posibles de una característica específica recibe el
nombre de población o universo.
Otro concepto que debemos tener en cuenta por que se relaciona con el de población es
el de unidades elementales – En una empresa, por ejemplo, el conjunto de las edades de
los empleados constituye la población, pero el conjunto de empleados en si mismos son
las unidades elementales de la población.
Las unidades elementales dan origen al marco, disponible solo ocasionalmente.
La población, que es preexistente a la realización de observaciones, puede ser real, tal
como el ingreso mensual de los empleados de una fábrica o su lugar de residencia; o
hipotética, por ejemplo la variación de las tasas de interés en un determinado país de
mundo ante un supuesto fenómeno meteorológico (terremoto) que ocasione la pérdida
de la totalidad de las cosechas que son el único medio de subsistencia del país.
2- OBTENCIÓN DE LA INFORMACIÓN
Tipos de cuestionarios
Pueden clasificarse de la siguiente forma:
• Cuestionario directo:
Su característica es que el objetivo se persigue con las preguntas, pero no
sabe cuál es la firma patrocinante.
• Cuestionario indirecto:
Su particularidad es que el entrevistado desconoce cuál es el objetivo de la
encuesta. De todas formas sea el cuestionario directo o indirecto, hay
elementos en la formulación de las preguntas que deben tenerse en cuenta en
el momento de la confección.
• Estructurado:
Las preguntas y las respuestas están organizadas a partir de un criterio
preestablecido. No es necesario que los entrevistados estén especialmente
adiestrados. Conviene utilizarlo después de haber efectuado una
investigación exploratoria que permita analizar las preguntas y sus posibles
respuestas.
• No estructurado:
El tema a investigar se aborda incluyen preguntas generales. Las preguntas
no se realizan siguiendo un orden dado, ya que el encuestador tiene amplia
libertad, por ello debe ser muy hábil para poder guiar este tipo de diálogo.
Podemos concluir que el encargado de realizar la encuesta debe estar muy
bien instruido para poder insistir en las preguntas que resultan más
importantes.
Ellos son: el tipo de preguntas, su estructura y la fuente de errores.
• Tipos de preguntas:
Es importante al elaborar un cuestionario el tipo de información que se
quiere obtener de acuerdo con ello se pueden utilizar las siguientes
preguntas.
i. De identificación: suministran datos básicos, por ejemplo edad,
sexo, nivel de ingresos, ocupación, lugar de residencia, etc.
ii. De opciones concretas: preguntan concretamente si prefieren un
producto u otro, una etiqueta vs. Otra, etc.
iii. De motivación: no sólo sobre las opciones concretas, sino
también sobre las opciones que originan la elección.
• Estructura de las preguntas:
Las preguntas pueden ser:
i. Estructuradas: del tipo SI-NO, GUSTA- NO GUSTA, etc.
ii. De opción múltiple: en las que se otorga un puntaje por cada una
de las respuestas.
• Fuente de errores
Las preguntas pueden ser:
i. incompleta
ii. indefinida
iii. imprecisa
iv. demasiado simple
v. compleja
vi. demasiado general
EJEMPLO 1:
1- Apellido y Nombre
2- Domicilio:
Edad Alumno
18-22
23-27
28-32
33-37
38-42
43-47
+ de 48
Nº de Horas Alumno
0
1
2
3
4
+ de 4
Si eligió una opción de 1 a más de 4 complete el siguiente cuadro. Puede elegir más de
1 opción.
Horario del día dedicado al estudio Alumno
Mañana
Tarde
Luego de clases
De 12 a 15 hs.
Fines de semana
Otros
.............................................................................................................................................
Agradecemos su colaboración
EJEMPLO 2:
EJEMPLO 3:
¿Cree que para su hijo es importante el tiempo para jugar? ¿Por qué?
…………………………………………………………………………………………….
…………………………………………………………………………………………….
La familia ¿Dedica un tiempo para jugar o hacer algo juntos? ¿Qué cosa? ¿Quién?
…………………………………………………………………………………………….
EJEMPLO 4:
1) ¿Cuál es su opinión acerca del espacio exterior destinado a los juegos en cuanto
a: tamaño, cantidad y tipos de juegos, zona soleadas y con sombra, arenero, etc.?
…………………………………………………………………………………………….
…………………………………………………………………………………………….
2) ¿Considera que los juegos que posee su jardín son peligrosos para los niños?
¿Por qué?
…………………………………………………………………………………………….
…………………………………………………………………………………………….
EJEMPLO 5:
Jardín de Infantes:……………………………………………………………………….
ESPACIO EXTERIOR
ELEMENTOS TIENE NO TIENE
Zona arbolada
Zona soleada
Zona techada
Césped
Juegos prefabricados
Cemento
Arenero
Equipos de juego para la
arena
Agua
Tierra
TOTAL
TIPOS DE JUEGOS
JUEGOS TIENE NO TIENE
Juegos en la arena
Juegos prefabricados
Juegos libre
TOTAL
EJEMPLO 6:
5.000 m2 10.000 m2
SI NO
SI NO
8) ¿En que tiempo deben ser enviadas luego de recogidas las hojas de aloe?
SI NO
13) ¿Se pueden usar químicos para combatir las malezas, con glifosato?
SI NO
Como tarea extra realiza comentarios y sugerencias acerca de los distintos ejemplos de
los instrumentos de recolección de datos presentados con anterioridad.
Los cuadros
Veremos algunos elementos a tener en cuenta en la construcción de un cuadro
Partes de un cuadro
Titulo, encabezamiento, columna, nota de calce y cuerpo.
En cada uno de los gráficos siguientes se muestra la forma en la que se puede presentar
la información a través de cuadros, tablas que remiten comprender e interpretar mejor y
más rápido la información.
http://www.visionesalternativas.com/militarizacion/articulos/petrol/16.htm
Articulo "El Petróleo en cifras: Las causas económicas de la Guerra de EE.UU.
Por Orlando Caputo"
LA DISTRIBUCION DE FRECUENCIAS
PROCESAMIENTO
PRESENTACION
LAS VARIABLES:
Antes de comenzar a estudiar los siguientes tipos de variables, es importante tener en
cuenta qué, forma influyen las mismas en una determinada investigación ya que del
control y la definición de las mismas depende la validez de nuestras conclusiones, ya
sean inferenciales o no. Todos estos conceptos se relacionan de una forma muy estrecha
con otras asignaturas por ello pueden resultar comunes.
Actualmente todas las empresas manejan una cantidad casi ilimitada de datos, lo cual
hace que se deban agrupar convenientemente para poder ser estudiados analizados e
interpretados en forma correcta.
Pasemos a definir variable como toda caracter ística capa z de as umir distintos
valores. Por ejemplo la variable países de América del sur puede adoptar los siguientes
valores: Argentina, Chile, etc.
NOMINAL
CUALITATIVAS
ORDINAL
VARIABLES
DISCRETA
CUANTITATIVAS
CONTINUA
Esta clasificación de las variables está dada desde el punto de vista del procesamiento,
operación gráfica en el caso anterior el punto de vista del investigador.
Cuado una variable no posee valores numéricos se llama CUALITATIVA a su vez
puede ser nominal como color de preferencia o programa televisivo más votado;
también puede ser ordinal, a través de enunciados como mayor o menor que, por
ejemplo pequeñas, medianas grandes empresas.
A continuación presentamos un ejemplo de esta clasificación de variables:
Cuando los valores de la variable adquieren un sentido matemático, por lo tanto se
pueden realizar con ellos operaciones de suma, resta, multiplicación, etc., recibe el
nombre de CUANTITATIVA O INTERVALAR.
Un ejemplo típico de este tipo de variables es el número de hijos de un conjunto de
familias, la variable puede tomar valores como 0, 1, 2, 3, etc., siempre valores enteros
nunca valores intermedios, no puede ser ½ hijo en una familia.
En este caso se llama VARIABLE CUANTITATIVA DISCRETA.
Al contrario existen variables que pueden tomar infinitos valores, por ejemplo 1,67 cm.;
70,50 Kg. Etc. Es decir entre dos valores de variables que difieren en una unidad es
posible encontrar un tercero que se encuentre entre los dos anteriores.
La variable que puede tomar este tipo de valores se llama VARIAB LE
CUANTITATIVA CONTINUA.
4- PROCESAMIENTO DE LA INFORMACION
Una de las formas más conveniente de tratar estos datos (agrupándolos de tal forma que
su lectura sea clara) como los vimos anteriormente, recibe el nombre de
DISTRIBUCIÓN DE FRECUENCIAS.
**IMPORTANTE**
DISCRETAS
En el caso del número de hijos de las familias, podríamos haber obtenido una
distribución de frecuencias como esta:
ACTIVIDAD
A partir de variables y valores extraídos de su propio ámbito laboral, construya por lo
menos dos distribuciones de frecuencia CONTINUAS.
Ahora, le presentamos un ejemplo para poder comprender la forma de efectuar la
presentar los datos en el nivel de medición intercalar continuo.
El gerente de una empresa dedicada al transporte de sustancias alimenticias le solicita al
jefe del personal, una lista resumen con los salarios que perciben los operarios de la
firma.
Estas fueron las cifras entregadas:
$ 575 $ 472 $ 253 $ 625 $ 546 $ 508 $ 300 $ 653 $ 473 $ 399
$ 506 $ 400 $ 655 $ 506 $ 325 $ 375 $ 753 $ 752 $ 553 $ 504
$ 350 $ 380 $ 463 $ 424 $ 600 $ 429 $ 561 $ 534 $ 525 $ 603
$ 648 $ 349 $ 436 $ 550 $ 448 $ 408 $ 636 $ 568 $ 639 $ 624
$ 655 $ 379 $ 592 $ 469 $ 709 $ 697 $ 468 $ 536 $ 538 $ 548
$ 472 $ 669 $ 498 $ 479 $ 548 $ 503 $ 546 $ 525 $ 546 $ 638
$ 525 $ 545 $ 593 $ 550 $ 590 $ 553 $ 439 $ 714 $ 563 $ 574
$ 551 $ 518 $ 639 $ 713 $ 453 $ 708 $ 755 $ 698 $ 458 $ 598
Cuando el gerente de la empresa observó las cifras se dio cuanta que no podía formarse
una idea clara sobre el comportamiento de los salarios ni cuántos operarios ganaban
entre 300 y 500 pesos por mes.
Esto ocurrió porque los datos no fueron organizados convenientemente para facilitar su
lectura al hacer esta observación al jefe de personal, este inmediatamente decide hacer
una presentación diferente a través del agrupamiento de las cifras según una distribución
de frecuencias. Para ello, parte del hecho de que la variable en cuestión de frecuencias.
Para ello, parte del hecho de que la variable en cuestión, salarios, es continua, ya que
admite entre dos valores cualesquiera, infinitos valores.
Al observar detenidamente los datos, encuentra que el más pequeño es de 253 y que el
más grande es 755. Decide entonces probar como queda si hace una distribución con
intervalos de 50 dólares.
El resultado, presentado es el siguiente:
X
$ 250 $ 300
$ 300 $ 350
$ 350 $ 400
$ 400 $ 450
$ 450 $ 500
$ 500 $ 550
$ 550 $ 600
$ 600 $ 650
$ 650 $ 700
$ 700 $ 750
$ 750 $ 800
Después de agregar una columna f que simboliza las frecuencias es decir la cantidad de
veces que se repite dentro de cada intervalo un determinado sueldo. La forma más
sencilla es marcando palotes en cada intervalo a medida que vamos marcando cada
sueldo de la lista original.
El problema surge cuando un valor de sueldo coincide con el límite superior o inferior
de un intervalo, en ese caso debemos establecer un criterio para ubicar cada dato, por
ejemplo si un dato coincide con el límite superior de un intervalo, entonces lo incluyo
en él, utilizo el mismo criterio para todos los datos.
Los datos presentados son los siguientes:
Decimos que una distribución abierta si falta el límite inferior del primer intervalo y/o el
límite superior del último intervalo.
LIMITE INF. ABIERTO SIN LIMITES CERRADOS LIM. SUP. ABIERTO
X f X f X f
MENOS DE $ 300 2 MENOS DE $ 300 2 $ 250 $ 300 2
$ 300 $ 350 3 $ 300 $ 350 3 $ 300 $ 350 3
$ 350 $ 400 5 $ 350 $ 400 5 $ 350 $ 400 5
$ 400 $ 450 6 $ 400 $ 450 6 $ 400 $ 450 6
$ 450 $ 500 10 $ 450 $ 500 10 $ 450 $ 500 10
$ 500 $ 550 20 $ 500 $ 550 20 $ 500 $ 550 20
$ 550 $ 600 13 $ 550 $ 600 13 $ 550 $ 600 13
$ 600 $ 650 8 $ 600 $ 650 8 $ 600 $ 650 8
$ 650 $ 700 6 $ 650 $ 700 6 $ 650 $ 700 6
$ 700 $ 750 4 $ 700 $ 750 4 $ 700 $ 750 4
$ 750 $ 800 3 $ 750 Y MAS 3 $ 750 Y MAS 3
TOTAL 80 TOTAL 80 TOTAL 80
Es evidente que en una distribución cerrada los límites superior e inferior están
establecidos. Ahora volvamos a la distribución de frecuencia presentada al gerente de la
empresa y agreguémosle algunas columnas:
X f fa fr fr % fa %
$ 250 $ 300 2 2 0,0250 2,50% 2,50%
$ 300 $ 350 3 5 0,0375 3,75% 6,25%
$ 350 $ 400 5 10 0,0625 6,25% 12,50%
$ 400 $ 450 6 16 0,0750 7,50% 20,00%
$ 450 $ 500 10 26 0,1250 12,50% 32,50%
$ 500 $ 550 20 46 0,2500 25,00% 57,50%
$ 550 $ 600 13 59 0,1625 16,25% 73,75%
$ 600 $ 650 8 67 0,1000 10,00% 83,75%
$ 650 $ 700 6 73 0,0750 7,50% 91,25%
$ 700 $ 750 4 77 0,0500 5,00% 96,25%
$ 750 $ 800 3 80 0,0375 3,75% 100,00%
TOTAL 80 1,0000 100,00%
Supongamos que se han contabilizado las llamadas telefónicas por hora en una
determinada central y los resultados obtenidos fueron los siguientes:
100 20 51 95 22 30 19 23 16 67 75 12 70 45 55 15 60 82 20 116
23 21 26 54 105 41 27 44 29 73 85 19 50 17 32 16 64 6 80 15
6 22 50 73 65 12 29 35 47 90 63 11 27 17 9 29 55 32 27 44
61 8 76 18 18 17 22 11 50 84 37 52 40 21 52 43 43 17 82 5
16 26 10 43 16 29 57 36 49 115 116 20 30 21 22 35 43 82 15 5
0 5 5 6 6 8 9 De esta manera se ha
1 0 1 1 2 2 5 5 5 6 6 6 6 7 7 7 7 8 8 9 9obtenido una distribución
2 0 0 0 1 1 1 2 2 de frecuencias donde la
2 2 3 3 6 6 7 7 7 9 9 9 9
3 0 0 2 2 5 5 6 7 frecuencia ahora esta
4 0 1 3 3 3 3 4
5 7 9 4 representada por una fila
5 0 0 0 1 2 25 74 5 de números en lugar de un
6 0 1 3 4 5 7 rectángulo.
7 0 3 3 5 6 La interpretación de este
8 0 2 2 25 4 gráfico es la siguiente: Por
9 0 5 ejemplo, tomando la
10 0 5
segunda fila puede
11 5 6 6
observarse que hay 2
registros de 10, 3 de 11, etc. De la misma manera se interpretan las demás filas.
OBSERVACION:
1200 calificaciones distribuidas en 10 intervalos.
5- PRESENTACIÓN DE LA INFORMACION
X f Actividad:
$ 250 $ 300 2 Con la distribución de frecuencias de los salarios de la empresa
$ 300 $ 350 3 construye el histograma correspondiente siguiendo las
$ 350 $ 400 5 indicaciones:
$ 400 $ 450 6 - dibuja un sistema de ejes cartesianos (X e Y)
$ 450 $ 500 10 - marca sobre el eje de las abscisas los valores de la variable
$ 500 $ 550 20 (en este caso los valores correspondientes a los límites de los
$ 550 $ 600 13 intervalos)
$ 600 $ 650 8 - señala sobre el eje de las ordenadas, las frecuencias 1, 3, 5,
$ 650 $ 700 6 etc. en la escala que consideres conveniente.
$ 700 $ 750 4 - Construye por cada intervalo, un rectángulo cuya base sea el
$ 750 $ 800 3 intervalo y su altura la frecuencia
TOTAL 80 - Importante colocar título al histograma y nombre a los ejes.
SUELDOS DE EMPLEADOS
25
500 -550
20
FRECUENCIAS
15 550 - 600
450 - 500
10 600 - 650
400 -450 650 - 700
350 - 400
5 700 - 750
300 - 350 750 - 800
250 - 300
0
PESOS
NÚMERO DE HIJOS
8
7
FRECUENCIA
6
5
4
3
2
1
0
0 1 2 3 4 5
HIJOS
4
FRECUENCIA
6
3
4
2
2 1
0
0
0 1 2 3 4 5 0 1 2 3 4 5
HIJOS HIJOS
IMPORTANTE
550 - 600
60
50 500 -550
40
30 450 - 500
20 400 -450
350 - 400
10 300 - 350
250 - 300
0
PESOS
Ejemplo 1)
Ejemplo 2)
PRODUCCIÓN DE PETRÓLEO POR PROVINCIA (metros cúbicos)
TIERRA DEL
FUEGO
OTROS
RÍO NEGRO 3%
5%
5%
NEUQUÉN
M ENDOZA 29%
14%
SA NTA CRUZ
22%
CHUB UT
22%
En la actualidad existen planillas de cálculo que permiten realizar gráficos con mucha
rapidez y comodidad, tal como se pudo observar anteriormente.
De esta forma finalizamos la parte en la cual detallamos los distintos tipos de gráficos
que podemos utilizar, siempre y cuando tengamos en cuentas las consideraciones.
El psicólogo necesita de su ayuda para resumir esta información, como así también para
el cálculo de algunas estadísticas y hacer inferencias.
Consignas:
1) Definir de que tipo de variables se trata y escala de medición de cada una.
2) Con la variable coeficiente de inteligencia construya una tabla de distribución de
frecuencias de 7 clases, la primera incluye los límites 88 ≤ x < 94, las restantes
surgen de ésta (la amplitud del intervalo es igual a 6)
3) Calcule las frecuencias relativas en porcentajes y las frecuencias acumuladas
también en porcentajes.
OBS Nº Y1 Y2 Y3 Y4 Y5 Y6 Y7
1 1009 88 158 2 104 NOTICIAS F 0
2 3754 119 166 11 126 CULTURALESM 20
3 842 93 165 4 116 PELICULAS F 3
4 1280 99 187 10 105 DEPORTES M 3
5 1180 106 168 3 114 PELICULAS F 6
6 898 102 159 12 124 EDUCATIVOS F 2
7 1255 108 179 23 124 CULTURALESM 12
8 1544 109 162 2 112 DEPORTES F 6
9 449 114 170 11 126 MUSICA M 7
10 54 108 191 18 114 MUSICA M 3
11 1956 91 184 10 120 NOTICIAS M 2
12 1863 91 173 12 122 PELICULAS F 1
13 1166 89 174 11 111 NOTICIAS M 2
14 918 120 173 6 122 EDUCATIVOS M 1
15 835 106 172 9 128 DEPORTES F 15
16 480 127 185 17 115 CULTURALESM 10
17 59 105 177 8 129 MUSICA M 3
18 1493 104 173 15 146 PELICULAS M 4
19 1632 106 158 9 116 PELICULAS F 6
20 40 114 180 19 121 NOTICIAS M 7
21 326 115 181 7 134 DEPORTES M 1
22 1964 113 160 7 139 DEPORTES F 2
23 937 105 174 15 118 NOTICIAS M 4
24 205 111 171 5 117 MUSICA F 3
25 532 105 179 16 121 PELICULAS M 3
26 352 100 160 6 108 EDUCATIVOS F 8
27 1490 102 163 21 111 CULTURALESF 4
28 628 110 167 8 131 PELICULAS F 3
29 1746 98 178 9 118 PELICULAS M 5
30 1772 122 184 24 117 DEPORTES M 1
31 1422 101 175 5 106 EDUCATIVOS F 0
32 139 120 186 21 120 NOTICIAS M 5
33 175 95 171 5 122 PELICULAS F 7
34 39 118 169 28 114 CULTURALESF 4
35 1358 122 178 10 132 PELICULAS M 2
36 801 95 176 13 116 PELICULAS F 3
37 204 96 176 30 124 NOTICIAS M 0
38 12 129 177 14 102 PELICULAS M 2
39 1059 112 168 1 112 CULTURALESF 9
40 229 117 175 13 123 EDUCATIVOS F 5
GLOSARIO
Clase de extremo abierto: clase que permite que el extremo superior o inferior de un
esquema de clasificación cuantitativo no tenga límite.
Datos continuos: datos que pueden pasar de una clase a la siguiente sin interrumpirse y
que pueden expresarse mediante números enteros o fraccionarios.
Datos discretos: datos que no pasan de una clase a la siguiente sin que haya una
interrupción: esto es, en donde las clases representan categorías o cuentas distintas que
pueden presentarse mediante números enteros.
Datos sin procesar: información antes de ser organizada o analizada por métodos
estadísticos.
Población: colección de todos los elementos que se están estudiando y sobre los cuales
intentamos llegar a conclusiones.
Polígono de frecuencias: línea que une los puntos medios de cada clase de un conjunto
de datos, trazada a la altura correspondiente a la frecuencia de los datos.
Diagrama de flujo:
INICIO
RECOLECCION DE DATOS
SIN PROCESAR
ORGANIZACIÓN DE DATOS
SIN PROCESAR
NO
DEBEN
CONDENSARSE
LOS DATOS
SI
CONSTRUYE LA DISTRIBUCIÓN DE FRECUENCIAS
DESEA UNA
REPRESETACIÓN
GRÁFICA
NO
SI
PREPARE UNA
REPRESENTACION
GRAFICA ACORDE
A LA VARIABLE
SI
TERMINAR
UNIDAD II:
UNIDAD II:
TEMARIO:
1- MEDIDAS DE POSICIÓN
ESTADISTICAS
• MUESTRALES → ESTADÍSTICAS
• POBLACIONALES → PARÁMETROS
• MEDIA ARITMETICA
La definimos como el promedio de los valores de la variable, en el caso de ciertos
valores de las ventas que representan a un total general, nos encontramos en presencia
de una muestra por lo tanto el resultado del cálculo es una media muestral.
En el caso de que los valores correspondan al total de la población el resultado seria la
media poblacional.
X 1 ,… , X n
X=
n
∑X i
X= i =1
∑: símbolo de sumatória
DISCRETA
CÁLCULO
CONTINUA
Ejemplo:
Calcular la media aritmética de los datos correspondientes a la muestra de diámetros
internos de aros de pistón (en milímetros).
X f X.f
∑ X .F
0 1 0
i i 1 3 3
X= 2 5 10
n
3 7 21
4 4 16
5 2 10
TOTAL 22 60
60
X= = 2, 72hijos (Este valor es un promedio, no un valor posible o real)
22
Observación:
Es evidente que el resultado es el mismo si tomo todos los valores de variable con
frecuencia 1 o sea datos sin agrupar y aplico la primera fórmula que al resolver con los
valores de la distribución de frecuencias con datos agrupados aplicando la segunda
fórmula. Comprobar dichos resultados.
Ejemplo:
Calcular la media aritmética con respecto a la cantidad de días de suspensión de tareas
en una fábrica automotriz.
11 10 9 11 12 13 12 11 9 10
10 11 12 11 11 10 11 8 11 10
9 11 10 11 8 9 10 10 9 8 Rta: 10,27 días
Distribuciones continuas
En el caso del cálculo de la media en distribuciones continuas, debemos tener en cuenta
una operación previa:
IMPORTANTE
X f Xj Xj.f
$ 250 $ 300 2 $ 275 550
$ 300 $ 350 3 $ 325 975
$ 350 $ 400 5 $ 375 1875
$ 400 $ 450 6 $ 425 2550
$ 450 $ 500 10 $ 475 4750
$ 500 $ 550 20 $ 525 10500
$ 550 $ 600 13 $ 575 7475
$ 600 $ 650 8 $ 625 5000
$ 650 $ 700 6 $ 675 4050
$ 700 $ 750 4 $ 725 2900
$ 750 $ 800 3 $ 775 2325
TOTAL 80 42950 Media $ 536,88
∑X j .Fi
X=
n
_
x = 536,88 pesos. Es el sueldo promedio de los 80 empleados de la fábrica
Ventajas:
• Es una medida que puede calcularse y es única debido a que cada conjunto de
datos posee una y solo una media.
• Por último, la media es útil para llevar a cabo procedimientos estadísticos como la
comparación de medias de varios conjuntos de datos.
Desventajas:
Sin embargo, como cualquier medida, la media aritmética tiene desventajas de las
cuales debemos tener conocimiento.
1º Aunque la media es confiable en el sentido de que toma en cuenta todos los valores
del conjunto de datos puede verse afectada por valores extremos que no son
representativos del resto de los datos. Es decir, que si en el caso de los sueldos hubiera
uno de $ 2000, intervendría en el cálculo de la media distorsionándola, el valor extremo
de $ 2000 distorsiona el valor que obtengamos para la media. Sería más representativo
calcular la media sin tomar en cuenta el valor extremo.
2º Problema con la media es el mismo que encontramos con nuestros 80 sueldos.
Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de
datos en nuestro cálculo al menos, desde luego, que tomemos datos agrupados para
determinar aproximadamente la media.
Para concluir con esta medida de posición leer el siguiente poema titulado:
LA ESTADÍSTICA
• MEDIANA
Es el valor de la variable que deja a su izquierda y a su derecha el 50 % de los datos. Al
igual que la media proporciona un valor numérico y se representa con el símbolo:
Me
Se puede calcular en el nivel intercalar y determinar en el nivel ordinal.
Debemos determinar en el nivel ordinal, ya que este nivel no es matemático y por lo
tanto no se puede efectuar ningún cálculo.
Lo mismo que para la media aritmética, realizaremos el cálculo para los distintos tipos
de distribuciones.
DISCRETA
CÁLCULO
CONTINUA
28 35 36 44 44
5 +1
Me = =3
2
28 35 36 44
4 +1
Me = = 2,5
2
Ejemplos:
Ejemplos:
1) 1 2 3 promedio 2
media 2
2) 1 2 96 promedio 33
media 2
X f Fa
0 1 1
1 3 4
2 5 9
3 7 16
4 4 20
5 2 22
TOTAL 22
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 TOTAL
0 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 5 5 MEDIA 3
Como la variable es discreta, seguimos el mismo procedimiento que para el caso en que
le número de datos es impar.
X f Fa
0 1 1
1 2 3
2 3 6
3 5 11
4 6 17
5 5 22
TOTAL 22
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 TOTAL
0 1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 MEDIA 3,5
Rta:
Después de construir la columna de las frecuencias acumuladas obtenemos el orden
11,50; por lo tanto la posición 11 corresponde al 3 y la posición 12 corresponde al 4 por
lo tanto el valor de la Me = 3,50
Variable continúa
En este caso la situación es un poco distinta, pero volviendo al ejemplo de los salarios
de la empresa resulta más sencillo
X f Xj Xj.f Fa
$ 250 $ 300 2 $ 275 550 2
$ 300 $ 350 3 $ 325 975 5
$ 350 $ 400 5 $ 375 1875 10
$ 400 $ 450 6 $ 425 2550 16
$ 450 $ 500 10 $ 475 4750 26
$ 500 $ 550 20 $ 525 10500 46
$ 550 $ 600 13 $ 575 7475 59
$ 600 $ 650 8 $ 625 5000 67
$ 650 $ 700 6 $ 675 4050 73
$ 700 $ 750 4 $ 725 2900 77
$ 750 $ 800 3 $ 775 2325 80
TOTAL 80 42950
(x) = n/2
(( x) − Fa ).a
Me = Li +
fi
A continuación analizaremos los términos nuevos que aquí aparecen: en primer lugar
debemos observar la columna de la Fa y vemos que el orden de la mediana es 40
corresponde al intervalo 500-550
Li: limite inferior del intervalo; en este caso 500
a: módulo del intervalo en el que se encuentra la mediana; en este caso 50
Fa: es el valor de la frecuencia acumulada hasta el intervalo anterior; en este caso 26
fi: Frecuencia correspondiente al intervalo donde se encuentra la mediana; en este caso
20
((80 / 2) − 26).50
Me = 500 +
20
Por supuesto la mediana tiene la misma unidad que la media aritmética y que la
variable, en este caso pesos.
Las ventajas y desventajas de la mediana
• CUARTILES
Los cuartiles de una distribución, como su nombre lo indica, son valores de la variable
que dividen al conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos
que contienen la misma cantidad de datos.
Para calcular los cuartiles de una distribución de frecuencias se precede del mismo
modo que en el caso de la mediana, salvo que ahora dividiremos a la distribución de la
variable en cuatro partes iguales en lugar de dos.
A partir de esta definición es evidente que la mediana coincide con el segundo cuartil.
Los cuartiles se simbolizan con la letra Q y un subíndice que indica el número. Para
ubicar los valores de la variable que se encuentran en cada cuarto de la distribución,
veremos un ejemplo sencillo para el caso de datos no agrupados.
DISCRETA
CÁLCULO
CONTINUA
Datos agrupados
X f Fa
0 1 1
1 2 3
2 3 6
3 5 11
4 6 17
5 5 22
TOTAL 22
En el caso del tercer cuartil se debe calcular Q3, el orden se busca haciendo: ¾ n.
Orden ¾ n = ¾ . 22 = 16,50
El problema se vuelve a presentar cuando se deben calcular los cuartiles para datos
agrupados continuos donde también se aplican fórmulas de interpolación.
En este caso las fórmulas son iguales a las de mediana lo único que cambia es n/2 por
n/4 y ¾ n para primer y tercer cuartil respectivamente:
X f Xj Xj.f Fa
$ 250 $ 300 2 $ 275 550 2
$ 300 $ 350 3 $ 325 975 5
$ 350 $ 400 5 $ 375 1875 10
$ 400 $ 450 6 $ 425 2550 16
$ 450 $ 500 10 $ 475 4750 26
$ 500 $ 550 20 $ 525 10500 46
$ 550 $ 600 13 $ 575 7475 59
$ 600 $ 650 8 $ 625 5000 67
$ 650 $ 700 6 $ 675 4050 73
$ 700 $ 750 4 $ 725 2900 77
$ 750 $ 800 3 $ 775 2325 80
TOTAL 80 42950
La fórmula es la siguiente:
((n / 4) − Fa).a
Q1 = Li +
fi
A continuación analizaremos los términos nuevos que aquí aparecen: en primer lugar
debemos observar la columna de la Fa y vemos que el orden del 1º cuartil es 20
corresponde al intervalo 450-500
Li: limite inferior del intervalo; en este caso 450
a: módulo del intervalo en el que se encuentra la mediana; en este caso 50
Fa: es el valor de la frecuencia acumulada hasta el intervalo anterior; en este caso 16
fi: Frecuencia correspondiente al intervalo donde se encuentra la mediana; en este caso
10
((80 / 4) − 16).50
Q1 = 450 +
10
Esta medida resumen nos indica que el 25 % de los sueldos es menor a $ 470 y el 75 %
es mayor a $ 470.
Habiendo calculado todos estos datos, ya se puede aplicar la fórmula de interpolación
que permite obtener el valor de Q3.
Orden: ¾ n = ¾ . 80 = 60
((n.3 / 4) − Fa).a
Q 3 = Li +
fi
((80.3 / 4) − 59).50
Q 3 = 600 +
8
Esta medida resumen nos indica que el 75 % de los sueldos es menor a $ 606,25 y el 25
% es mayor a 606,25
• MODO O MODA
La tercera medida de tendencia central es el modo y la podemos definir como el valor
más frecuente de la variable es decir el que más veces se repite.
Supongamos este ejemplo:
2 3 4 4 4 5 6 6 6 6 7 8 8 9 9 12
Observamos que el valor que más se repite es el 6, no importa cuantas veces, sino que
es el más frecuente. De esta forma decimos que 6 es el MODO, por supuesto que la
unidad es la misma que la de la variable.
Para su cálculo debemos tener en cuenta el tipo de distribución:
El MODO lo simbolizamos de la siguiente forma:
Mo
DISCRETA
CÁLCULO
CONTINUA
f 2•a
Mo = Li +
f 1+ f 2
X f
$ 250 $ 300 2
$ 300 $ 350 3
$ 350 $ 400 5
$ 400 $ 450 6
$ 450 $ 500 10
$ 500 $ 550 20
$ 550 $ 600 13
$ 600 $ 650 8
$ 650 $ 700 6
$ 700 $ 750 4
$ 750 $ 800 3
TOTAL 80
13.50
Mo = 500 +
10 + 13
Mo = 528,26
Ventajas:
* Al igual que la mediana, se puede utilizar como una posición central para datos tanto
cualitativos como cuantitativos. Si una prensa estampa cinco impresiones que podemos
clasificar como “muy nítida”, “nítida”, “nítida y borrosa” “borrosa”; entonces el valor
modal es “nítido”. De manera análoga, podemos hablar de estilos modales cuando, por
ejemplo, los clientes de una mueblería prefieren muebles tipo “colonial” sobre cualquier
otro estilo.
* Al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros
escogemos el valor más frecuente del conjunto de datos como el valor modal. Podemos
utilizar la moda sin importar que, tan grandes o que, tan pequeños sean los valores del
conjunto de datos, e independientemente d cuál sea su dispersión.
* La podemos utilizar aun cuando una o más clases sean de extremo abierto como en
los ejemplos anteriores.
Desventajas
* A pesar de estas ventajas, la moda no se utiliza con tanta frecuencia como medida de
tendencia central, como se hace con la media y la mediana. Muy a menudo, no existe un
valor modal debido a que el conjunto de datos no contiene valores que se presenten más
de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se
presenta el mismo número de veces. Resulta claro que la moda es una medida inútil en
tales casos.
* Cuando los conjuntos de datos contienen dos, tres o más modas. Resultan difíciles de
interpretar y compara.
* Adicionalmente cuando existe más de un modo. En ese caso se deben calcular en
forma separada y puede estar indicando dentro de la población general la existencia de
subpoblaciones. La existencia de DOS MODOS nos indicaría la necesidad de, por
ejemplo, preparar publicidad para dos grupos distintos dentro de una misma población.
¿qué sucede cuando tenemos dos valores diferentes y cada uno parece ser el número
mayor de veces que aparece un valor en un conjunto de datos?
Esta distribución, entonces, tiene dos modas y se le conoce como distribución bimodal
y procede a calcular e interpretar los dos modos.
Asimetría positiva:
Si las frecuencias más altas se encuentran en el lado izquierdo de la media,
mientras que en derecho hay frecuencias más pequeñas (cola).
Asimetría negativa:
Cuando la cola está en el lado izquierdo.
2- MEDIDAS DE VARIABILIDAD
• RANGO
• DESVIO ESTÁNDAR
• COEFICIENTE DE VARIACIÓN
• RANGO
Se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el
menor valor de la variable.
Recordemos que ya hemos hablado del rango sin haber dado su nombre en las partes
anteriores. Definiendo ahora el rango como una medida de dispersión, debemos destacar
que el mismo es completamente dependiente de los dos valores extremos que toma la
variable. Por ejemplo, si dos familias tienen 1 y 4 hijos, respectivamente, el rango es:
Ahora bien, si se agrega otra familia, el rango será el mismo si, esta tiene 1, 2, 3 o 4
hijos, pero será mayor si tiene 0 o más de 4 hijos.
Ahora si podemos utilizar el rango para comparar las dispersiones de dos o más
muestras o poblaciones.
La utilización del rango como medida de dispersión presenta el problema que se
incrementa con la cantidad de observaciones, porque existe una mayor posibilidad de
que los datos se encuentren más dispersos. Una medida de dispersión debería ser
independiente el número de mediciones para reflejar realmente la mayor o menor
variabilidad de los datos.
El rango es una medida de dispersión satisfactoria únicamente cuando la muestra es
pequeñá, prácticamente menor a 10 observaciones. Esta medida es muy utilizada en los
estudios de control de procesos productivos para la confección de gráficos de control
dado que, en estos casos, los procesos son generalmente evaluados por muestras
frecuentes y de reducido tamaño.
• DESVÍO ESTÁNDAR
En una reunión entre nueve empresas se dispone a tratar el tema de salarios.
Todos coinciden en que pagan a sus empleados 500 pesos mensuales (por supuesto
todos ellos hacen referencia al promedio de los salarios, es decir a la media
aritmética).
En un determinado momento se comenta acerca de la cantidad de empleados y de los
sueldos de los jefes de las mismas, entonces ante las diferencias uno de los empresarios
propone presentar un listado de cada una de las empresas:
LEG. EMP. 1 EMP. 2 EMP. 3 EMP. 4 EMP. 5 EMP. 6 EMP. 7 EMP. 8 EMP. 9
1 $ 500 $ - $ - $ -$ 1 $ 500 $ 100 $ 100 $ 80
2 $ 500 $ - $ - $ -$ 2 $ 200 $ 100 $ 80
3 $ 500 $ - $ - $ -$ 3 $ 300 $ 100 $ 80
4 $ 500 $ - $ - $ 2.000 $ 4 $ 400 $ 300 $ 80
5 $ 500 $ - $ - $ 5 $ 500 $ 1.000 $ 80
6 $ 500 $ 3.000 $ - $ 6 $ 1.500 $ 1.400 $ 100
7 $ - $ 7 $ 200
8 $ - $ 9 $ 800
9 $ - $ 13 $ 3.000
10 $ 5.000 $ 100
11 $ 150
12 $ 200
13 $ 1.000
14 $ 5.500
MEDIA $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500 $ 500
Podemos ver una gran heterogeneidad en la distribución de los salarios en las distintas
empresas, aún cuando tienen el mismo promedio, de esta situación irreal podemos decir
que el promedio es una medida insuficiente, por lo tanto es imprescindible agregar otra
medida llamada DESVÍO ESTÁNDAR.
Es una medida que refleja la: HETEROGENEIDAD
Las fórmulas para su cálculo son:
∑(X − µ )2
σn = Para la población
n
µ: media poblacional
n: cantidad de elementos
En la práctica el valor del desvío no puede determinarse, ya que por lo general las
poblaciones son muy grandes, lo que obliga a extraer una muestra, siendo la fórmula la
siguiente:
∑(X − X )2
σ n −1 = Para la muestra
(n − 1)
_
x: media muestral
n: cantidad de elementos
Existen otras fórmulas derivadas de las anteriores, que se utilizan con mayor frecuencia
por su comodidad y simplicidad, pero en realidad el cálculo se realiza, con la
calculadora ya sea para población o muestra.
DISCRETA
CÁLCULO
CONTINUA
X F
0 1
1 3
2 5
3 7
4 4
5 2
22
Para calcular en estos casos debemos tener en cuenta las frecuencias, es decir el número
de veces que se repite la variable.
Para la población
∑ (x . f )
2
σn = − µ2
n
Para la muestra
∑ x . f − nX
2 2
σ n −1 =
n −1
Al igual que para el cálculo de la media aritmética, es más cómodo agregar columnas
con los cálculos de los cuadrados y de, estos multiplicados por las frecuencias.
Este cálculo es mucho más fácil realizarlo con la calculadora (viendo el manual de
la misma), asimismo, estos son los resultados.
σ n = 1,28 hijos
σ n – 1 = 1,3159 hijos
Distribuciones continuas
Retomamos el ejemplo original de los salarios de una empresa:
Completar las columnas que faltan y resolver. Este cálculo es mucho más fácil realizarlo
con la calculadora (viendo el manual de la misma), asimismo, estos son los resultados.
X f Xj
$ 250 $ 300 2 $ 275
$ 300 $ 350 3 $ 325
$ 350 $ 400 5 $ 375
$ 400 $ 450 6 $ 425
$ 450 $ 500 10 $ 475
$ 500 $ 550 20 $ 525
$ 550 $ 600 13 $ 575
$ 600 $ 650 8 $ 625
$ 650 $ 700 6 $ 675
$ 700 $ 750 4 $ 725
$ 750 $ 800 3 $ 775
TOTAL 80 σ n-1 $ 111,26
σn $ 113,26
Podemos medir aún con más precisión el porcentaje de observaciones que caen dentro
de un alcance específico de curvas simétricas con forma de campana como lo vemos a
continuación:
Xi
µ-3σ µ-2σ µ-σ µ µ+σ µ+2σ µ+3σ
68,26 %
95,44 %
99,74 %
µ = 1,30 m
σ = 0.12 m
La desviación estándar es también útil para describir que tan lejos las observaciones
individuales de una distribución se apegan de la media de la distribución. Una medida
que se conoce como resultado estándar nos da el número de desviaciones estándar que
una observación en particular ocupa por debajo o por encima de la media. Si hacemos
que X simboliza la observación, entonces el resultado estándar calculado a partir de los
datos de la población es:
x−µ
Resultado estándar de la población Z =
σ
En la que:
X: observación tomada de la población
µ: media de la población
σ: desviación estándar de la población
Suponga que observamos una altura de 1,18 m. Debido a que nuestra población tiene
una media de 1,30 m y una desviación estándar de 0,12 m, una observación de 1,18 m
tendría un resultado estándar de – 1:
1,18 − 1,30
Resultado estándar de la población Z =
0,12
X = 43mm
σ n = 12,59mm
En la zona B, en cambio:
X = 43mm
σ n = 6, 75mm
• COEFICIENTE DE VARIACIÓN
σ n −1
Para la muestra C.V . = ⋅100
x
• ASIMETRÍA
Existe el coeficiente llamado coeficiente de Pearson que mide la dirección y la
magnitud de la asimetría. Se lo simboliza con la letra K.
3.( µ − Me)
Para la población K =
σn
3.( X − Me)
Para la muestra K =
σ n −1
3- EJERCITACIÓN
ACTIVIDAD 1
Para que aplique los conceptos tratados, indique en cada una de las siguientes
situaciones, si la población de referencia es finita o infinita.
ACTIVIDAD 2
Diferenciar y clasificar los tipos de variable.
ACTIVIDAD 3
ACTIVIDAD 4
La empresa GOMEZ COLA SA contrata por un mes, durante 2006 el siguiente número
de empleados:
Ene-06 Feb-06 Mar-06 Abr-06 May-06 Jun-06 Jul-06 Ago-06 Sep-06 Oct-06 Nov-06 Dic-06
15 3 18 11 8 9 6 11 7 10 16 4
b) Para cada una de las muestras precedentes calcular la media aritmética e indica si el
proceso de las botellas debe ser interrumpido y calibrado (tener presente que si el
proceso es normal las medias deben ser aproximadamente iguales)
ACTIVIDAD 5
ACTIVIDAD 6
c) Ingresos mensuales
Respuestas
ACTIVIDAD 1
a) Finita
b) Infinita
c) Finita
d) Finita
e) Finita
f) Infinita
ACTIVIDAD 2
a) Cuantitativa continua
b) Cuantitativa continua
c) Cuantitativa discreta
d) Cuantitativa ordinal
e) Cualitativa nominal
f) Cuantitativa discreta
g) Cuantitativa continua
h) Cuantitativa discreta
i) Cualitativa ordinal
j) Cualitativa ordinal
k) Cualitativa nominal
ACTIVIDAD 3
a) Ejemplo, la actitud del público ante un nuevo diseño de envase para bebidas
gaseosas puede ser estudiado mediante una muestra de personas
b) Ejemplo, del conjunto de comercios al por mayor – unidades elementales – se
puede definir la población de: cantidad de empleados, rama de actividad,
volumen de ventas, precio por artículo, etc.
ACTIVIDAD 4
a)
9,83 empleados
b)
8 horas 330,12 cc
9 horas 334,24 cc
10 horas 347,35 cc
11 horas 360,64 cc
Hay que detener el proceso porque sigue en crecimiento
ACTIVIDAD 5
ACTIVIDAD 6
a)
1)
NIVEL DE EDUCACIÓN: CUALITATIVA ORDINAL
VARIABLE F Fa Fr % Fa %
1 9 9 22,50% 22,50%
2 14 23 35,00% 57,50%
3 7 30 17,50% 75,00%
4 4 34 10,00% 85,00%
5 6 40 15,00% 100,00%
TOTAL 40
2)
CANT. DE INTEGRANTES POR FLIA.: CUALITATIVA DISCRETA
VARIABLE F Fa Fr % Fa %
1 9 9 22,50% 22,50%
2 6 15 15,00% 37,50%
3 10 25 25,00% 62,50%
4 10 35 25,00% 87,50%
5 3 38 7,50% 95,00%
6 1 39 2,50% 97,50%
7 0 39 0,00% 97,50%
8 1 40 2,50% 100,00%
TOTAL 40
Modo: BIMODAL
Variable 3 (3 personas por flia.)
Variable 4 (4 personas por flia.)
3)
INGRESOS MENSUALES EN PESOS: CUANTITATIVA CONTINUA
VARIABLE F Fa Fr % Fa %
$ - $ 500,00 11 11 27,50% 27,50%
$ 500,00 $ 1.000,00 12 23 30,00% 57,50%
$ 1.000,00 $ 1.500,00 6 29 15,00% 72,50%
$ 1.500,00 $ 2.000,00 3 32 7,50% 80,00%
$ 2.000,00 $ 2.500,00 8 40 20,00% 100,00%
TOTAL 40
f 2•a
Mo = Li +
f 1+ f 2
6 • 500
Mo = 500 + = 676, 47
11 + 6
b)
integrante por flia ing. por flia
mediana 3,00 $ 875,00
Q1 2,00 $ 454,55
Q3 4,00 $ 1.666,67
c)
d)
10
8
6
4
2
0
1 2 3 4 5
NIVEL
10
8
6
4
2
0
1 2 3 4 5 6 7 8
PERSONAS
10
2000-2500
8
1000-1500
6
4 1500-2000
2
0
PESOS
e)
La distribución de la variable “cantidad de personas por familia” presenta una asimetría
hacia la derecha y, además, presenta dos valores modales. Los valores 6 y 8 de la
variable, complican bastante la interpretación; por ello, habría que estudiar
convenientemente su inclusión en el análisis de los datos.
La variable “ingresos mensuales familiares” presenta una distribución atípica. Por un
lado, se observa una concentración de familias con ingresos menores a $ 1000 por otro,
se observa una cantidad importante de familias con ingresos superiores a los $ 2000.
Esta situación de bimodalidad debe alertar al investigador sobre la posibilidad de
encontrarse frente a dos poblaciones de ingresos.
En el caso de la variable cualitativa “nivel de educación” la única posibilidad es calcular
el modo.
En el caso de la variable “cantidad de personas por familia”, por tratarse de una
distribución donde no existe una moda bien definida y por notarse cuenta asimetría
hacia la derecha, conviene utilizar la mediana como medida de posición.
En el caso de variable “ingresos mensuales familiares” o bien se separan las poblaciones
agrupando por clases de ingresos o bien se trabaja con la moda o la mediana pues la
media aritmética, en esta situación, pierde representatividad.
f)
Media aritmética $ 1.062,50
Desvio de la muestra $ 739,78
C.V. 69,63%
Actividades optativas y sin respuesta. Estas pueden ser resueltas y luego corregidas
por el profesor.
ACTIVIDAD 1
Los siguientes datos corresponden a un estudio realizado por un médico acerca de los
niveles de calcio de 25 pacientes luego de un tratamiento. Las medicaciones se
realizaron pre y post tratamiento.
ACTIVIDAD 2
407 170 406 473 408 379 304 427 236 390 336 308 455 130
301 353 401 407 232 245 309 233 495 97 296 366 356 310
121 136 135 24 485 165 198 194 377 264 223 299 322 390
45 215 31 444 10 348 492 266 63 108 84 375 399 374
90 138 210 26 275 116 470 445 295 102 362 418 340 50
346 39 109 427 440 400 41 213 195 353 21 266 100 259
217 437 186 92 290 376 317 374 373 302 29 48 200 603
318 22 491 446 342 368 165 375 457 466 392 433 250 39
a) de tener la posibilidad de obtener los datos de una empresa del sector alimenticio
analizarlos y compararlos con los anteriores.
b) B) de no tener acceso a datos de una empresa alimenticia analiza la información
anterior y compárala con datos ficticios
c) Construye una distribución de frecuencias relativas acumuladas y porcentuales
calcula media, mediana, modo y cuartiles y las medidas de dispersión y
asimetría. Construye los gráficos adecuados.
ACTIVIDAD 3
Se ha realizado una plantación de soja con dos variedades distintas A y B, las mismas
tienen distintas características. Luego del tiempo necesario para su cultivo se ha
realizado una muestra de 60 plantas de cada variedad, obteniendo la siguiente
distribución de frecuencias;
INICIO
LA VARIABLE ES
CUALITATIVA CUANTITATIVA
∑ X i .Fi ∑X i
X= X= i =1
n n
DESEA DESEA
CONOCER CONOCER EL
EL VALOR VALOR
MEDIO MEDIO
(( x) − Fa).a
Me = Li + n +1
fi Me =
2
TERMINAR
(medidas de dispersión)
INICIO
NO
CALCULE
COEFICIENTE DE
VARIACIÓN
NO
TERMINAR
Glosario
Alcance o Rango: valor que resulta de la diferencia entre los valores más bajo y más
alto de un conjunto de datos.
Cuartiles: valores de variable que dividen los datos en cuatro partes iguales.
Desviación estándar: raíz cuadrada positiva de la varianza; medida de dispersión con las
mismas unidades que los datos originales, mejor que en las unidades cuadrado en que
está la varianza.
Estadística: medidas numéricas que describen las características de una muestras y están
representadas por letras latinas.
Mediana: punto situado a la mitad del conjunto de datos, medida de localización que
divide al conjunto de datos en dos partes iguales.
Medida de tendencia central: medida que indica el valor esperado de un punto de datos
típico o situado en el medio.
Moda o modo: el valor que más a menudo se repite en un conjunto de datos. Está
representado por el punto más alto de la curva de distribución de un conjunto de datos.
Varianza: medida de la distancia cuadrada promedio entre la media y cada uno de los
valores de la variable.
UNIDAD III:
UNIDAD III:
1- Covariación: distintos tipos. Técnicas para el estudio de la Covariación.
2- Análisis de regresión: Calculo del error estándar de estimación. Parámetros,
errores y límites de predicción.
3- Análisis de correla ción: coeficientes de correlación y determinación.
Interpretación. Números índices simples y complejos. Glosario. Diagrama de
flujo
4- Ejercitación.
1- COVARIACIÓN:
Significado del tér mino regres ión: Sir Francis Galton, un experto inglés en los
estudios de herencia, fue uno de los primeros investigadores que estudió relaciones
entre variables alrededor del año 1800. En un conocido ejemplo, Galton investigó la
relación existente entre la altura de los hijos con respecto a la altura de los padres.
En esta investigación observó que padres altos tenían hijos altos, pero no tan altos como
sus padres. De la misma manera, padres bajos tenían hijos bajos, peo no tan bajos como
ellos.
Las tendencias de las alturas de los hijos eran más hacia un cierto promedio de la
población que hacia las de sus respectivos padres.
De ahí que Galton dijera que las alturas regresaban a un promedio y de allí surge el
término regresión.
Francis Galton (1822-1911), científico británico famoso por su trabajo en los campos de
la antropología y la herencia, considerado el fundador de la ciencia de la eugenesia.
Nacido cerca de Birmingham, estudió en el King’s Collage de la Universidad de
Londres y en el Trinity Collage de Cambridge. Tras viajar por África tropical, (1853) y
El arte de viajar, (1855). Sus estudios sobre la meteorología le llevaron a escribir
Meteorographica (1863), el primer libro sobre los modernos métodos de cartografía
meteorológica.
Primo de Charles Darwin, se interesó por la herencia y la biometría. Recopiló
estadísticas sobre la estatura, dimensiones, fuerza y otras características de un gran
número de personas. Dedicó especial atención a un método de identificación por medio
de las huellas dactilares. También desarrolló técnicas fundamentales para las
mediciones estadísticas, especialmente respecto al cálculo de la correlación entre pares
de atributos. Galton fue nombrado Sir en 1909. Genio hereditario (1869),
Investigaciones en torno a las facultades humanas (1883), Herencia natural (1889), y
Huellas dactilares (1892), son algunas de sus obras.
Con los datos obtenidos de la tabla podemos realizar le grafico, ya que cada uno de los
pares de datos son pares ordenados y los podemos representar en un sistema de ejes
cartesianos para obtener el diagrama de dispersión.
DIAGRAMA DE DISPERSIÓN
2,5
COSTO PROM. MENSUAL POR
2
ALUMNO eje y
1,5
0,5
0
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 18.000
CANTIDAD DE ALUMNOS INSCRIPTOS eje x
El gráfico parece indicar que existe una relación positiva entre el costo y la cantidad de
alumnos, pues se observa que al aumentar el número de alumnos aumenta el costo
promedio por alumno.
Y si observamos podemos construir una recta que pase por la mayoría de los puntos
confirmando una relación lineal positiva.
Siempre se debe realizar el diagrama de dispersión ya que es la forma intuitiva de tener
una idea previa acerca de la posible relación existente entre las variables y además
detectar para poder excluir valores extremos o atípicos.
En algunos casos existen fenómenos que presentan un comportamiento más o menos
sincronizado ante sus variables, dicho comportamiento se llama Covariación.
Anteriormente comentamos acerca de los distintos tipos de relación que podría existir
entre las variables y la forma más sencilla de obtener esa idea intuitiva es a través del
diagrama de dispersión. De acuerdo a la forma de los mismos podrán establecer la
relación existente.
A continuación algunos tipos de diagramas de dispersión:
Ejemplo 1 Ejemplo 2
x y x y
1.564 0,11 1.564 0,11
2.500 0,4 3.790 0,49
4.110 0,73 11.383 0,54
5.000 0,85 5.340 0,56
6.280 1 8.028 0,69
7.780 1,18 2.841 0,93
9.220 1,23 13.744 1,03
11.630 1,19 12.421 1,21
14.440 1,05 4.348 1,51
17.000 0,82 7.128 1,56
18.590 0,38 9.578 1,58
1,5 2
1 1,5
y
y
0,5
0,5
0 0
0 5.000 10.000 15.000 20.000 0 5.000 10.000 15.000
x x
Como podemos observar en el 1º ejemplo hay una relación de U invertida,
automáticamente diremos que la relación que vincula a estas variables no es lineal, es
curvilínea.
En el 2º ejemplo observamos que no hay una posible relación entre las variables ya que
los puntos se encuentran dispersos sin una forma en particular.
Ejemplo 3 Ejemplo 4
x y x y
13.744 0,49 1.564 0,11
12.421 0,54 2.841 0,49
11.383 0,56 7.128 0,54
9.578 0,69 4.348 0,54
8.028 0,93 3.790 0,56
7.128 1,03 5.340 0,69
5.340 1,21 8.028 1,03
4.348 1,51 9.578 1,21
3.790 1,56 13.744 1,51
2.841 1,58 11.383 1,56
1.564 1,65 12.421 1,58
1,8 1,8
1,6 1,6
1,4 1,4
1,2 1,2
1 1
y
0,8
y
0,8
0,6
0,6
0,4
0,4 0,2
0,2 0
0 0 5.000 x 10.000 15.000
0 5.000 x 10.000 15.000
En el 3º ejemplo se observa una relación lineal pero como la recta desciende podemos
decir que es una relación lineal negativa.
En el 4º ejemplo es el presentado en un primer momento y la relación es lineal positiva
x y
2
1.564 0,11
3.100 0,15
1,5
4.700 0,25
6.100 0,32 1
Y
7.500 0,49
8.800 0,7 0,5
10.600 0,9
11.700 1,21 0
12.450 1,4 0 5.000 10.000 15.000
12.860 1,6 X
14.110 1,9
2- ANALISIS DE REGRESIÓN:
A través de este análisis tendremos que encontrar una FUNCIÓN MATEMÁTICA que
pase entre los puntos del DIAGRAMA DE DISPERSIÓN, por ejemplo:
2,5
COSTO PROM MENSUAL POR ALUMNO
1,5
0,5
0
0 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 18.000
CANTIDAD DE ALUMNOS INSCRIPTOS
El objetivo es encontrar los valores de a y b ya que X e Y son las variables, para ello se
utiliza el METODO DE LOS MÍNIMOS CUADRADOS.
n • ΣX • Y − Σ X • Σ Y
a=
n • Σ X 2 − ( ΣX ) 2
ΣY ΣX
b= −a•
n n
Y*= a x + b
Y
Yi = a + b • X i
∆y
∆y
∆x b =
∆x
n • ΣX • Y − Σ X • Σ Y
a=
n • Σ X 2 − ( ΣX ) 2
ΣY ΣX
b= −a•
n n
15, 49 130.489
b= − 0, 0001216 • = −0, 0185
20 20
Y* = 0.0001216 X – 0.0185
IMPORTANTE
La función obtenida nos permite, por ejemplo, estimar cual será el costo promedio
mensual por alumno si la Universidad tiene 10.000 y obtenemos Y* = 1,1975 pesos por
alumnos promedio en el mes.
Como sabemos es desvío estándar es una medida bastante adecuada para acompañar la
media aritmética, también sabemos que si los valores de la variable X son todos iguales,
no hay error en la media aritmética, ya que todos son iguales, por lo tanto la desviación
sería igual a 0 y no habría error. Volvemos a nuestro caso especial, los puntos no están
todos sobre la recta, existen desviaciones por debajo y por sobre la misma, a tales
desviaciones las lla maremos RESIDUOS, ya que es un t érmino más amplio y más
apropiado que el de error.
IMPORTANTE:
Para medir la variabilidad de los puntos con respecto a la recta se utiliz a
una cantidad que tendrá un comportami ento análogo al desvío estándar.
Esta cantidad recibe de nombre de ERROR ESTÁNDAR DE REGRESIÓN
y se simboliza con S y/x, y la fórmula es la siguiente:
∑ (Y − Y *) 2
Sy / x =
n−2
Volvamos ahora a los datos de costo promedio mensual por alumno y cantidad de
alumno. Para calcular el error estándar de regresión debemos agregar algunas columnas
a la tabla anterior, como la diferencia entre ( Y- Y * ) ², pero antes debemos
determinar cada Y* para todos los valores de x.
Las diferencias entre los valores observados y los de la recta de regresión se
deben elevar al cuadrado para obtener todos números positivos y evitar la
compensación de positivos y negativos.
(Exactamente igual que el desvío estándar)
Es decir que estamos sumando las diferentas o errores que existen entre los
puntos reales, observados y representados, y la recta de regresión obtenida y*
Y* + - Z . S y/x
Y * = 0,0001216 x – 0,0185
Y* + Z . S y/x
Y* - Z . S y/x
Es decir en tre 1,46 y 0,93 pe sos es el costo por alumno promedio por mes en u n
intervalo de confianza de confianza del 95 % aproximadamente.
IMPORTANTE
De esa forma podemo s predecir con un error del 5 % o con una confianza
de 95 % que si una universidad tien e 10.000 alumnos el costo p romedio
mensual por alumnos será entre 1,46 y 0,93 pesos.
3- ANÁLISIS DE CORRELACIÓN:
La recta de regresión que hemos obtenido a través de los datos es apropiada para
determinar los valores de la variable independiente Y (costo promedio mensual por
alumno en pesos) en función de la variable independiente X (cantidad de alumnos).
n • ΣX • Y − Σ X • Σ Y
r=
((n • Σx ) − (ΣX ) 2 ) • (n(ΣY 2 ) − (ΣY ) 2 ))
2
ADVERTENCIA IMPORTANTE
Ejemplo
1- Hallar y graficar la recta de regresión correspondiente a los datos de la tabla
presentada a continuación y estimar cual será el puntaje de un individuo de 4,5 años de
antigüedad-
A – Efectuar una estimación del 99,7 % del puntaje del test de aptitud, para la persona
de 4,5 años de antigüedad elegido al azar.
B – Calcular el coeficiente de correlación, determinación y e de indeterminación.
SOLUCIONES
r = 0,842
r ² = 0,7096 → 70,96 %
1 - r ² = 0,2904 → 29,04 %
Decimos que el 71 % de las variaciones del test de aptitud están siendo explicadas por la
antigüedad. El 29 % restante responde a causas aleatorias.
4- EJERCITACIÓN
1- Supongamos que un ingeniero agrónomo tiene datos agrícolas de los últimos seis
años, donde x es la temperatura media en el mes de siembra de trigo; e y es el
rendimiento del trigo.
X Y
15 6,5
17 7
20 9
18 8,5
21 9
20 8,2
Rta.:
a-
8
7
6
5
14 16 18 20 22
TEMPERATURA
b- y = 9.0922
c- r ² = 0,83
2- Las materias primas que utiliza una fábrica en la producción de una fibra sintética
son almacenadas en un lugar donde no se tiene control de humedad.
Para analizar si la humedad del almacenamiento influye sobre la humedad de la materia
prima almacenada, se tomaron muestras de la materia prima durante doce días cada día
se tomo la humedad de la muestra y del lugar de almacenamiento
HUMEDAD HUMEDAD
DEL LUGAR (X) DE LA MUESTRA (Y)
42 12
35 8
50 14
43 9
48 11
62 16
31 7
36 9
44 12
39 10
55 13
48 11
Rta.
a)
y = 0,269x - 0,9495
R2 = 0,8362
18
16
RENDIMIENTO
14
12
10
6
29 34 39 44 49 54 59 64
HUMEDAD
b) y* (40) = 9,81
c) r ² = 0,84
3- La empresa “El Tirolés” cuenta con dos restaurantes situados en la misma zona: el
restaurantes A se lo publicita por televisión, en tanto que el B no. La empresa desea
evaluar los efectos de la publicidad sobre el volumen de ventas, para ello se recogen los
datos del ingreso diario en pesos durante 2 días sucesivos.
RES. A RES. B
132 130
138 134
144 132
146 140
148 150
152 140
158 150
130 120
162 160
168 150
172 160
174 174
180 168
180 174
188 186
194 172
194 180
200 178
200 190
204 188
210 181
216 196
220 205
220 190
220 202
- diagnóstico
- estimación
- validez
- diagnóstico:
1 Construye el diagrama de dispersión con los ingresos de A en las ordenadas y con los
ingresos de B en el de las abscisas.
2 Observa el diagrama de dispersión y responde si existe una relación lineal entre las
variables.
3 conociendo el tipo de problema planteado responde que tipo de covariación existe:
unilateral, bilateral, indirecta o causal.
- estimación:
1 Determina la recta de regresión
2 Contesta que tipo de parámetro permite evaluar la incidencia de la publicidad en la
magnitud de las ventas.
3 Responde que porcentaje mínimo respecto de los ingresos debe invertir en publicidad.
- validez
1 Construye la recta de regresión.
2 Calcula el coeficiente de determinación y explica el significado del mismo.
3 Calcula el riesgo de la predicción.
DIAGRAMA DE FLUJO
INICIAR
no
Quiere Quiere un
conocer el No intervalo de
grado de predicción
relación entre para y
las variables
si no si
Parar
Glosario
Análisis de correlación: Técnica para determinar el grado hasta la cual las variables
están relacionadas linealmente.
Ordenada al origen: Constante para cualquier línea recta dada cuyo valor representa el
valor de la variable Y cuando la variable X tiene un valor de 0.
Línea de regresión: Una línea ajustada a un grupo de puntos para estimar la relación
entre dos variables.
Método de mínimos cuadrados: Técnicas para ajustar una línea recta a través de un
conjunto de puntos de tal manera que la suma de las distancias verticales cuadradas
desde los n puntos a la línea se minimiza.
Pendiente: Constante para cualquier línea recta dada cuyo valor representa qué tanto el
cambio de unidad de la variable independiente cambia la variable dependiente.
Regresión: Proceso general que consiste en predecir una variable a partir de otro
mediante medios estadísticos, utilizando datos anteriores.
Regresión múltiple: Proceso estadístico mediante el cual varias variables se utilizan para
predecir otra variable.
Relación curvilínea: Asociación entre dos variables que es descripta por una línea curva.
Relación directa: Relación entre dos variables en las que, al incrementarse el valor de la
variable independiente, decrece la variable dependiente.
Relación lineal: Tipo particular de asociación entre dos variables que pueden describirse
matemáticamente mediante una línea recta.
ANEXO:
MEDIA ARITMÉTICA
Sintaxis
PROMEDIO(número1;número2;...)
Número1, número2, ... son entr e 1 y 30 argumentos numéricos cuyo promedio desea
obtener.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
A
1 Datos
2 10
3 7
4 9
5 27
6 2
Fórmula Descripción (Resultado)
= PROMEDIO(A2:A6) Promedio de los números anteriores (11)
=PROMEDIO(A2:A6;5) Promedio de los números anteriores y 5 (10)
MEDIANA
Sintaxis
MEDIANA(número1;número2; ...)
Número1, número2, ... son entre 1 y 30 números cuya mediana desea obtener.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números. Mi crosoft Ex cel examina todos los números en cada
argumento matricial o de referencia.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si la cantidad de números en el conjunt o es par, MEDIANA calcula el promedio
de los números centrales. Vea la segunda fórmula del ejemplo.
A
1 Datos
2 1
3 2
4 3
5 4
6 5
7 6
Fórmula Descripción (Resultado)
=MEDIANA(A2:A6) La mediana de los 5 primeros números de la lista anterior (3)
La mediana de todos los números anteriores, o el promedio de
=MEDIANA(A2:A7)
3 y 4 (3,5)
MODA
Sintaxis
MODA(número1;número2; ...)
Número1, número2, ... son de 1 a 30 arg umentos cuya moda des ea calcular. También
puede utiliza r una ma triz únic a o una r eferencia ma tricial e n lug ar de a rgumentos
separados con punto y coma.
Observaciones
• Los argumentos d eben ser núme ros, nom bres, matrices o re ferencias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si el conjunto de dato s no contie ne puntos de datos duplicados, MODA
devuelve el valor de error #N/A.
• En un conjunto de val ores, la moda es el valor que se repite con ma yor
frecuencia; l a m ediana es el val or cent ral y l a m edia es el val or prom edio.
A
1 Datos
2 5,6
3 4
4 4
5 3
6 2
7 4
Fórmula Descripción (Resultado)
=MODA(A2:A7) Moda, es decir, número que se repite con más frecuencia (4)
Sintaxis
DESVESTP(número1; número2; ...)
Número1, número2, ... son de 1 a 30 argumentos numéricos cor respondientes a una
población. También pue de utilizar una matriz ún ica o una ref erencia matricial en lug ar
de argumentos separados con punto y coma.
Se pasan por alto los valores lógicos, como VERDADERO y FALSO, y de texto. Si los
valores lógicos y el texto no se deben pasar por alto, utilice la función de hoja de cálculo
DESVESTA.
Observaciones
• DESVESTP parte de la hipótesis de que los argumentos representan la población
total. Si sus datos repr esentan una muestra de la población, utilice DESV ESTP
para calcular la desviación estándar.
• Cuando el tamaño de la s muestras es importante, las funcion es DESVE ST y
DESVESTP devuelven aproximadamente el mismo valor.
• La desviación estándar se calcula utilizando los métodos "sesgado" o "n".
DESVESTP utiliza la fórmula siguiente:
∑(X − µ )2
σn =
n
A
1 Resistencia
2 1345
3 1301
4 1368
5 1322
6 1310
7 1370
8 1318
9 1350
10 1303
11 1299
Fórmula Descripción (Resultado)
Desviación estándar de la resistencia a la rotura, suponiendo
=DESVESTP(A2:A11)
que sólo se fabrican 10 herramientas (26,05455814)
Sintaxis
DESVEST(número1; número2; ...)
Número1, número2, ... son de 1 a 30 argumentos numéricos cor respondientes a una
muestra de un a població n. También puede u tilizar una mat riz única o u na ref erencia
matricial en lugar de argumentos separados con punto y coma.
Observaciones
• DESVEST parte de la hipótesis de que los argumentos representan la muestra de
una población. Si sus d atos repres entan la pobla ción total, utilice DESV ESTP
para calcular la desviación estándar.
• La desviación estándar se calcula utilizando los métodos "no sesgada" o "n-1".
∑(X − X )2
σ n −1 =
(n − 1)
A
1 Resistencia
2 1345
3 1301
4 1368
5 1322
6 1310
7 1370
8 1318
9 1350
10 1303
11 1299
Fórmula Descripción (Resultado)
Desviación estándar de l a resistencia a l a rot ura
=DESVEST(A2:A11)
(27,46391572)
PENDIENTE
Sintaxis
PENDIENTE(conocido_y;conocido_x)
Conocido_y es un a matriz o rang o de celdas de puntos de dat os numéricos
dependientes.
Conocido_x es el conjunto de puntos de datos independientes.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Pendiente de la regresión lineal a través de los puntos
=PENDIENTE(A2:A8;B2:B8)
de datos anteriores (0,305556)
INTERSECCION EJE
Calcula el punto en el q ue una línea inters ecará el eje y utilizando los v alores X e Y
existentes. El punto de i ntersección se basa en el mejor ajuste de la línea de re gresión
trazado con los valores X y los valores Y. Utilice la función INTERSECCION.EJE para
determinar el valor d e la variable dependiente cuando la variable independiente es igual
a 0 (c ero). Por ejemplo, puede emplear la función INTERSECCION.EJE para predecir
la resistencia eléctrica d e un metal a 0 °C si los puntos de datos se h an tomado a
temperatura ambiente o superior.
Sintaxis
INTERSECCION.EJE(conocido_y;conocido_x)
Conocido_y es el conjunto de observaciones o datos dependientes.
Conocido_x es el conjunto de observaciones o datos independientes.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los arg umentos conoc ido_y y cono cido_x contienen un número dife rente de
puntos de datos o no c ontienen ning uno, INTERSECCION.EJE devuelve el
valor de error #N/A.
A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
Fórmula Descripción (Resultado)
El punto en el que una lín ea intersecará el eje y
=INTERSECCION.EJE(A2:A6;B2:B6) utilizando los valores an teriores de x e y
(0,0483871)
TENDENCIA
Devuelve valores que resultan de una t endencia lineal. Ajusta una recta (calculada con
el método de mínimos cuadr ados) a los v alores de las matri ces de finidas por los
argumentos conocido_y y cono cido_x. Devuelve, a lo lar go de es a recta, los valores y
correspondientes a la matriz definida por el argumento nueva_matriz_x especificado.
Sintaxis
TENDENCIA(conocido_y;conocido_x;nueva_matriz_x;constante)
Conocido_y es el conjunto de valores de y que se conocen en la relación y = mx+b.
• Si la matriz definida por el argumento conocido_y ocupa una sola columna, cada
columna de conocido_x se interpreta como una variable separada.
• Si la matriz definida por el argumento conocido_y ocupa una sola fila, ca da fila
de conocido_x se interpreta como una variable separada.
Conocido_x es un conjunto opcional de valores x en la relación y = mx+b.
• La matriz conocido_x puede incluir uno o varios conjuntos de v ariables. Si se
usa una sola variable, conocido_y y conocido_x pueden ser rangos con cualquier
forma, si empre y cuando sus di mensiones sean iguales. Si se usa m ás d e una
variable, conocido_y tiene que ser un ve ctor (es decir, un rango compuesto por
una fila o por una columna).
• Si se omite conocido_x , se asume qu e ésta es la matriz {1;2;3;...} que tiene el
mismo tamaño que conocido_y.
Nueva_conocido_x son nuevos valores de x para los cuales s e desea q ue
TENDENCIA devuelva los valores de y correspondientes.
• El arg umento nueva_ma triz_x debe inclui r una columna (o una fila) par a cada
variable indep endiente, como ocurre con el ar gumento conocido_ x. Po r
consiguiente, si conoc ido_y ocupa una sol a columna, conocido_ x y
nueva_matriz_x deben tener el mismo número de columnas. Si conocido_ y
ocupa una sola fila, conocido_x y nueva_matriz_x deben tener el mismo número
de filas.
• Si se omite nueva_matriz_x, se asume que es la misma que conocido_x.
Observaciones
• Para obt ener i nformación sobre cóm o Mi crosoft Ex cel aj usta una l ínea rect a a
sus datos, vea ESTIMACION.LINEAL.
• Puede utiliza r TENDENC IA par a a justar una c urva polinómic a c alculando la
regresión resp ecto a una m isma vari able el evada a pot encias di ferentes. P or
ejemplo, supong amos que la columna A contiene valores y y la c olumna B
contiene valores x. Podría escribir x^2 en l a columna C, x^3 en l a columna D y
así sucesivamente, y después calcular la regresión entre las columnas B y D en
contraposición a la columna A.
• Las fórmulas qu e de vuelven matric es deb en insertarse como fó rmulas
matriciales.
• Cuando introduz ca una constante matr icial para un ar gumento como
conocido_x, utilice punt o y coma para sep arar los valores de una misma fila y
barra inversa para separar las filas.
A B C
Fórmula (Cost o
1 Mes Costo
correspondiente)
2 1 $133,890 = TENDENCIA(B2:B13; A2:A13)
3 2 $135,000
4 3 $135,790
5 4 $137,300
6 5 $138,130
7 6 $139,100
8 7 $139,900
9 8 $141,120
10 9 $141,890
11 10 $143,230
12 11 $144,000
13 12 $145,290
14 Mes Fórmula (Costo pronosticado)
=TENDENCIA(B2:B13;
15 13
A2:A13;A15:A19)
16 14
17 15
18 16
19 17
Nota La fórmula del ejemplo debe escribirse como fórmula matricial. Una vez copiado
el ej emplo en una hoj a de cál culo en bl anco, se leccione el r ango C 2:C13 o B15: B19
comenzando por la celda de la fó rmula. Presione F 2 y, a continuación,
CTRL+MAYÚS+ENTRAR. Si la f órmula no s e intr oduce e n f ormato ma tricial, los
resultados sencillos son 133953,3333 y 146171,5152.
ERROR TIPICO XY
Sintaxis
ERROR.TIPICO.XY(conocido_y;conocido_x)
Conocido_y es una matriz o un rango de puntos de datos dependientes.
Conocido_x es una matriz o un rango de puntos de datos independientes.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número
diferente d e puntos de datos, ERROR. TIPICO.XY devuelve el valor d e erro r
#N/A.
A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Error típico del valor de y previsto para cada x de la
=ERROR.TIPICO.XY(A2:A8;B2:B8)
regresión (3,305719)
COEFICIENTE DE CORRELACION
Devuelve el coeficiente de correlación ent re do s ran gos d e celdas defi nidos por los
argumentos m atriz1 y matriz2. Use el coef iciente de correl ación par a determinar la
relación ent re dos propi edades. P or ej emplo, para ex aminar l a rel ación ent re l a
temperatura promedio de una localidad y el uso de aire acondicionado.
Sintaxis
COEF.DE.CORREL(matriz1;matriz2)
Matriz1 es un rango de celdas de valores.
Matriz2 es un segundo rango de celdas de valores.
Observaciones
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los arg umentos matri z1 y mat riz2 tienen un número difer ente de pun tos de
datos, COEF.DE.CORREL devuelve el valor de error #N/A.
• Si el arg umento matriz 1 o matriz2 está vacío, o si s (la desviación estándar de
los val ores) es i gual a cero, C OEF.DE.CORREL d evuelve el valor de erro r
#¡DIV/0!
A B
1 Datos1 Datos2
2 3 9
3 2 7
4 4 12
5 5 15
6 6 17
Fórmula Descripción (Resultado)
Coeficiente d e correlación de los dos conjunto s de
=COEF.DE.CORREL(A2:A6;B2:B6)
datos anteriores (0,997054)
COEFICIENTE.R2
Sintaxis
COEFICIENTE.R2(conocido_y;conocido_x)
Conocido_y es una matriz o un rango de puntos de datos.
Conocido_x es una matriz o un rango de puntos de datos.
Observaciones
• Los ar gumentos deb en ser números o nombres, matrices o refer encias que
contengan números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas
vacías, estos valores se pasan por alto; si n embargo, se incluirán l as celdas con
el valor cero.
• Si los argumentos conocido_y y conocido_x están vacíos o contienen un número
diferente de puntos d e datos, COEFI CIENTE.R2 devuelve el valo r de erro r
#N/A.
A B
1 Valor de y conocido Valor de x conocido
2 2 6
3 3 5
4 9 11
5 1 7
6 8 5
7 7 4
8 5 4
Fórmula Descripción (Resultado)
Cuadrado del coeficiente de correlación de mome nto del
=COEFICIENTE.R2(A2:A8;B2:B8) producto Pearson mediante los puntos de datos anteriores
(0,05795)
resultado deseado, pued e ser neces ario or denar l os val ores X ant es de ag regar
una media móvil.