You are on page 1of 6

MANEJO DE DATOS

MANEJO DE DATOS
En el programa de R se pueden manejar diversos tipos de datos, para reconocer su
funcionamiento comenzaremos con un ejemplo sencillo, donde los datos se encuentran
dentro de un archivo CSV para su lectura.

LECTURA DE DATOS
Es muy comn que tengamos datos en un archivo CSV listos para procesarlos. Para seguir
este ejemplo descarga los archivos museos.R y museos.csv.
En el archivo museos.csv se encuentra registrado el nmero de museos en cada estado
de la Repblica Mexicana. Los datos se extraen del Censo de Poblacin y Vivienda 2011
en un archivo CSV.
Para leer los datos, utilizaremos la instruccin read.csv() que se encuentra dentro del
archivo museos.R, cuyo argumento principal es la ruta donde se encuentra el archivo.
Dicha ruta la puedes copiar de la barra de direcciones y cambiar las diagonales invertidas
por normales:

Figura 1. Barra de direcciones.

A nuestro conjunto de datos lo llamaremos data

data<-read.csv("C:/ruta/museos.csv",header = TRUE, sep=",")


El archivo tiene ttulos
La separacin en un archivo CSV es mediante comas

attach(data)

Adjuntaremos los datos

data Los datos se muestran a continuacin

Mauricio Enrique Elizalde Meja

Manejo de datos |1

RESULTADO
entidad museos
1
Aguascalientes 14
2
Baja California 24
3 Baja California Sur 10
4
Campeche
6
5
Coahuila 39
6
Colima 20
7
Chiapas 48
8
Chihuahua 51
9
Distrito Federal 152
10
Durango 47
11
Guanajuato 46
12
Guerrero 27
13
Hidalgo 34
14
Jalisco 103
15
Mxico 80
16
Michoacn 36
17
Morelos 34
18
Nayarit 17
19
Nuevo Len 47
20
Oaxaca 45
21
Puebla 64
22
Quertaro 18
23
Quintana Roo 12
24
San Luis Potos 27
25
Sinaloa 26
26
Sonora 38
27
Tabasco 22
28
Tamaulipas 21
29
Tlaxcala 16
30
Veracruz 52
31
Yucatn 29
32
Zacatecas 39

ANLISIS DE FRECUENCIA DE LOS DATOS


Ahora enlistaremos algunas definiciones convenientes, para posteriormente crear una tabla
de frecuencias de los datos:

Mauricio Enrique Elizalde Meja

Manejo de datos |2

Trmino

Definicin

intervalo de clase

Es la amplitud de cada uno de los rangos de valores


en la que se agrupan los datos.

Marca de clase

Es el punto intermedio del intervalo de la clase, es


decir, el promedio de los extremos del intervalo,
denotado por .

Frecuencia absoluta

Es la cantidad de mediciones que corresponden a la


clase, denotada por .

Frecuencia absoluta acumulada

Es la suma de las frecuencias de la clase en


cuestin y las precedentes, denotada por .

Frecuencia relativa

Es la proporcin de la clase en cuestin respecto al


total de observaciones, es decir, la frecuencia
absoluta dividida entre n (total de observaciones),
denotada por .

Frecuencia relativa acumulada

Es la proporcin acumulada de la clase en cuestin


respecto al total de observaciones, es decir, la
frecuencia absoluta acumulada dividida entre n,
denotada por .

Siguiendo con el ejemplo y de acuerdo a la notacin indicada, realizaremos una tabla de


frecuencias utilizando la funcin1 cumsum() que calcula la suma acumulada hasta el dato
i.

n=sum(museos)
fi=museos
hi=museos/n
Fi=cumsum(hi)
Hi=cumsum(museos/n)
Puedes observar las columnas una por una o incorporadas en una tabla:

tabla_frec<-data.frame(entidad=entidad,fi=fi,
hi=round(hi,4),Fi=Fi,Hi=round(Hi,4))
Ahora crearemos un histograma con un polgono de frecuencias:

Estas funciones las puede copiar del archivo museos.R.


Mauricio Enrique Elizalde Meja

Manejo de datos |3

hg=hist(museos,main="Histograma
y
Polgono
de
Frecuencias",col="orange",border="white",xlab="Museos")

lines(c(min(hg$breaks),hg$mids,max(hg$breaks)),c(0,hg$co
unts,0), type="b",pch=8,col="blue")

RESULTADO

Figura 2. Histograma con polgono de frecuencias

Para entender mejor el cdigo detrs de cada grfica, te ofrecemos la siguiente informacin:

Mauricio Enrique Elizalde Meja

Manejo de datos |4

Funcin

Descripcin

main=Ttulo

Ttulo del grfico.

sub=Subttulo

Subttulo del grfico.

xlab=Etiqueta

Etiqueta del eje de las abscisas.

ylab=Etiqueta

Imprime una etiqueta en el eje de las ordenadas.

xlab=c(mx, mn)

Escala para el eje de las abscisas.

ylab=c(mx, mn)

Escala para el eje de las ordenadas.

axes=T ( F)

Permite generar ejes automticamente

col=color

Color (Orange, Red, Blue, etc.)

type=p

Representa los datos con puntos.

type=l

Dibuja lneas conectando los datos.

type=h

Dibuja lneas verticales de cada punto al eje X.

type=b

Dibuja puntos y lneas conectando los puntos.

type=s

Dibuja funciones escalonadas donde el punto


corresponde al extremo superior de la lnea
vertical.

type=S

Dibuja funciones escalonadas donde el punto


corresponde al extremo inferior de la lnea
vertical.

lty=i

Tipo de lnea (1=slida, 2=discontinua, etc.)

lwd=i

Ancho de la lnea (i = 1,2,)


Tabla 1.

Comandos para grficas.

TAREITA
Para complementar los comandos de las grficas, investiga
dos comandos que no se hayan mencionado o explicado y
comntalos en el foro.

Mauricio Enrique Elizalde Meja

Manejo de datos |5

You might also like