You are on page 1of 6

Introduo ao R e ao RStudio

O objetivo deste laboratrio introduzir ao R e ao RStudio, os programas que voc usar ao longo do
curso tanto para aprender os conceitos estatsticos discutidos no livro quanto para analisar dados reais e
chegar a concluses informadas. Para j distinguir qual qual: R o nome da linguagem de programao
e RStudio uma interface grfica conveniente para utilizar o R.
medida que os laboratrio avanarem, voc encorajado a explorar alm do que os laboratrios propem; a vontade de experimentar o far um programador muito melhor. Antes de chegarmos a este
estgio, contudo, voc precisa desenvolver alguma fluncia bsica em R. Hoje ns comearemos com os
blocos fundamentais do R e do RStudio: a interface, importao de dados, e comandos bsicos.

O painel na parte superior-direita contm seu espao de trabalho e tambm um histrico dos comandos
que voc utilizou anteriormente. Quaisquer grficos que voc gerar aparecer no painel no canto inferior
direito.
O painel esquerda onde a ao acontece. Ele chamado de console. Toda vez que voc iniciar o
RStudio, ele ter o mesmo texto no topo do console dizendo qual verso do R voc est rodando. Abaixo
desta informao est o comando de linha. Como o nome sugere, ele interpreta qualquer entrada como
um comando a ser executado. Inicialmente, a interao com o R feita principalmente pela digitao de
comandos e a interpretao dos resultados. Esses comandos e sua sintaxe evoluram ao longo de dcadas
(literalmente) e agora proporcionam o que muitos usurios acreditam ser um forma bastante natural de
acessar dados e organizar, descrever e invocar computaes estatsticas.
Para iniciar, entre o seguinte comando no comando de linha do R (i.e. logo depois do > no comando de
linha). Voc pode digitar o comando manualmente ou copiar e colar deste documento.

source("http://www.openintro.org/stat/data/arbuthnot.R")
Este comando instrui o R a acessar o website da OpenIntro e buscar alguns dados: a contagem de batismos
de meninos e meninas coletada por Arbuthnot . Voc deve ver que a rea do espao de trabalho no canto
superior direito da janela do RStudio agora lista um conjunto de dados chamado arbuthnot que tem 82
observaes de trs variveis. medida que voc interage com o R, voc criar uma srie de objetos. s
vezes voc os carregar como ns fizemos aqui, e s vezes voc os criar por conta prpria como o produto
de uma computao ou alguma anlise que voc realizou. Preste ateno que, por voc estar acessando os
Este um produto da OpenIntro que distribudo sob uma Licena Creative Commons Atribuio Compartilhamento pela
Mesma Licena 3.0 (http://creativecommons.org/licenses/by-sa/3.0). Este laboratrio foi adaptado para a OpenIntro por Andrew Bray
e Mine etinkaya-Rundel de um laboratrio escrito por Mark Hansen do departamento de Estatstica da UCLA. Traduo para o
portugus por Erikson Kaszubowski.

dados a partir da internet, esse comando (e todas as tarefas) funcionar num laboratrio de informtica,
na biblioteca, ou na sua casa; em qualquer lugar que voc tenha acesso internet.

Os Dados: Registro de Batismos do Dr. Arbuthnot


O conjunto de dados Arbuthnot se refere ao Dr. John Arbuthnot, um mdico, escritor e matemtico do
sculo 18. Ele se interessou pela razo de meninos e meninas recm-nascidos, e para isso ele coletou os
registros de batismo de crianas nascidas em Londres todos os anos entre 1629 e 1710. Ns podemos dar
uma olhada nos dados digitando seu nome no comando de linha.

arbuthnot
Voc deve ver quatro colunas de nmeros, com cada linha representando um ano diferente: a primeira
entrada em cada linha simplesmente o nmero da linha (um ndice que podemos usar para acessar os
dados de anos individuais, se quisermos), a segunda o ano, e a terceira e a quarta so os nmeros de
meninos e meninas batizados naquele ano, respectivamente. Use a barra de rolagem direita da janela do
console para examinar o conjunto de dados completo.
Preste ateno que os nmeros das linhas na primeira coluna no fazem parte dos dados de Arbuthnot. O
R os adiciona como parte das impresses em tela para ajud-lo a fazer comparaes visuais. Pense neles
como um ndice que costuma ficar no lado esquerdo de uma planilha. A comparao com uma planilha
geralmente ser til, de fato. O R armazenou os dados de Arbuthnot em um tipo de planilha ou tabela
chamada de data frame ou banco de dados.
Voc pode ver as dimenses deste banco de dados digitando:

dim(arbuthnot)
Este comando deve dar como resposta [1] 82 3, indicando que h 82 linhas e 3 colunas (ns j voltaremos
ao que o [1] quer dizer), da mesma forma como est especificado ao lado do objeto em seu espao de
trabalho. Voc pode ver os nomes das colunas (ou variveis) digitando:

names(arbuthnot)
Voc deve ver que o banco de dados contm as colunas year (ano), boys (meninos), e girls (meninas). A
essa altura, voc deve ter notado que muitos dos comandos no R se parecem muito com funes matemticas; ou seja, invocar comandos do R significa passar a uma funo um certo nmero de argumentos. Os
comandos dim e names, por exemplo, precisaram de um nico argumento cada um: o nome do banco de
dados.
Uma vantagem do RStudio que ele vem com um visualizador de dados embutido. Clique no nome
arbuthnot no canto superior direito da janela que lista os objetos em seu espao de trabalho. Isso far com
que uma visualizao alternativa das contagens de Arbuthnot aparea na janela superior esquerda. Voc
pode fechar o visualizador de dados clicando no x no canto superior esquerdo.

Explorando
Vamos comear a examinar os dados um pouco mais de perto. Ns podemos acessar separadamente os
dados de uma nica coluna da base de dados usando um comando como

arbuthnot$boys
Este comando mostrar somente o nmero de meninos batizados em cada ano.
Exerccio 1 Qual comando voc utilizaria para extrair somente a contagem de meninas batizadas? Experimente!
Preste ateno que a maneira como o R imprimiu esses dados diferente. Quando ns visualizamos
o banco de dados completo, vimos 82 linhas, uma em cada linha do console. Esses dados no esto
mais estruturados em uma tabela com outras variveis, ento eles so dispostos um ao lado do outro.
Objetos que so impressos na tela desta maneira so chamados de vetores; eles representam um conjunto de
nmeros. O R adicionou nmeros em [colchetes] no lado esquerdo dos resultados para indicar localizaes
dentro do vetor. Por exemplo, 5218 segue [1], indicando que 5218 a primeira entrada no vetor. E se
[43] inicia uma linha, ento isso significa que o primeiro nmero naquela linha representa a 43a entrada
no vetor.
O R tem algumas funes poderosas para criar grficos. Podemos criar uma grfico simples do nmero de
meninas batizadas por ano com o comando

plot(x = arbuthnot$year, y = arbuthnot$girls)


Por padro, o R cria uma grfico de disperso com cada par x,y indicado por um crculo aberto. O grfico
deve aparecer sob a aba Plots no canto inferior direito do RStudio. Repare que o comando acima tambm
se parece com uma funo, desta vez com dois argumentos separados por vrgula. O primeiro argumento
na funo de grfico especifica a varivel para o eixo x e o segundo para o eixo y. Se ns quisssemos
conectar os pontos dos dados com linhas, ns poderamos adicionar um terceiro argumento, a letra l de
linha.

plot(x = arbuthnot$year, y = arbuthnot$girls, type = "l")


Voc pode se perguntar como voc poderia saber que era possvel adicionar aquele terceiro argumento.
Felizmente, o R tem documentaes extensivas de todas as suas funes. Para ler o que a funo faz e
aprender os argumentos disponveis, basta digitar um ponto de interrogao seguido pelo nome da funo
na qual vocs est interessado. Tente o seguinte.

?plot
Veja que o arquivo de ajuda substitui o grfico no painel no canto inferior direito. Voc pode alternar entre
grficos e arquivos de ajuda usando as abas no topo daquele painel.
Exerccio 2 H alguma tendncia aparente no nmero de meninas batizadas ao longo dos
anos? Como voc a descreveria?
Agora, vamos supr que queiramos fazer um grfico com o nmero total de batismos. Para calcular isso,
ns podemos nos aproveitar do fato de que o R , na verdade, apenas uma grande calculadora. Ns
podemos digitar expresses matemticas como

5218 + 4683

para ver o nmero total de batismos em 1629. Ns podemos repetir isso para cada ano, mas h um modo
mais rpido. Se adicionarmos o vetor de batismo para meninos e meninas, o R ir computar todas as
somas simultaneamente.

arbuthnot$boys + arbuthnot$girls
O que voc ver so 82 nmeros (naquela exibio compacta, porque no estamos analisando um banco
de dados), cada um representando a soma que ns queremos. D uma olhada em alguns deles e verifique
se eles esto corretos. Portanto, ns podemos criar um grfico com o total de batismos por ano com o
comando

plot(arbuthnot$year, arbuthnot$boys + arbuthnot$girls, type = "l")


Desta vez, veja que ns deixamos de fora os nomes dos dois primeiros argumentos. Ns podemos fazer
isso porque o arquivo de ajuda mostra que o padro para o comando plot ter a varivel x como primeiro
argumento e a varivel y como segundo argumento.
De maneira similar como calculamos a proporo de meninos, podemos computar a razo entre o nmero
de meninos e o nmero de meninas batizadas em 1629 com

5218 / 4683
ou podemos utilizar os vetores completos com a expresso

arbuthnot$boys / arbuthnot$girls
A proporo de recm-nascidos que so meninos

5218 / (5218 + 4683)


ou tambm pode ser calculado para todos os anos simultaneamente:

arbuthnot$boys / (arbuthnot$boys + arbuthnot$girls)


Preste ateno que usando o R como sua calculadora, voc precisa prestar ateno da ordem das operaes.
Aqui, ns queremos dividir o nmero de meninos pelo total de recm-nascidos, portanto precisamos usar
parnteses. Sem eles, o R efetuar primeiro a diviso, depois a adio, dando como resultado algo que no
uma proporo.
Exerccio 3 Agora, crie um grfico das propores dos meninos com relao ao tempo. O
que voc percebe? Dica: se voc usar as teclas de flecha para cima e para baixo, voc pode
retomar os comando prvios, chamado de histrico de comandos. Voc tambm pode acess-lo
clicando na aba history no painel no canto superior direito. Isto ir lhe economizar vrias
digitaes no futuro!
Por fim, alm de operadores matemticos simples como subtrao e diviso, voc pode pedir para o R
fazer comparaes como mair que, >, menor que, <, e igualdade, ==. Por exemplo, podemos perguntar
se o nmero de meninos maior que de meninas em cada ano com a expresso

arbuthnot$boys > arbuthnot$girls


Este comando retorna 82 valores ou do tipo TRUE (verdadeiro) se aquele ano teve mais meninos batizados
do que meninas, ou FALSE (falso) se naquele ano foi o contrrio (a resposta pode surpreend-lo). Esse resultado mostra um tipo diferente de varivel daquelas que vimos at agora. No banco de dados arbuthnot
nossos dados so numricos (o ano, o nmero de meninos e meninas). Aqui, ns pedimos para o R criar
dados lgicos, dados cujos valores so TRUE (verdadeiro) ou FALSE (falso). De modo geral, a anlise de dados envolver vrios tipos diferentes de dados, e uma razo para usar o R que ele consegue representar
e realizar computaes com vrios tipos de dados.
J o bastante para seu primeiro laboratrio, ento vamos parar por aqui. Para sair do RStudio voc pode
clicar no x no canto superior direto da janela do aplicativo. Voc ser questionado se quer salvar seu
espao de trabalho. Se voc clicar em save (salvar), o RStudio salvar seu histrico e todos os objetos
de seu espao de trabalho para que na prxima vez que voc inicializar o RStudio, voc ver o objeto
arbuthnot e voc ter acesso aos comando que voc digitou nas suas sesses prvias. Por enquanto, clique
em save, e depois reinicialize o RStudio.

Sua Vez
Nas pginas anteriores, voc recriou algumas das exposies e anlises preliminares dos dados de batismo
de Arbuthnot. Sua tarefa consiste repetir essas etapas, mas para os registros atuais de nascimento dos
Estados Unidos. Carregue os dados atuais com o seguinte comando.

source("http://www.openintro.org/stat/data/present.R")
Os dados sero armazenados num banco de dados chamado present.
1. Quais anos esto includos neste conjunto de dados? Quais so as dimenses da base de dados e
quais so os nomes das colunas ou variveis?
2. Como estas contagens se comparam aos dados de Arbuthnot? Eles esto numa escala similar?
3. A observao de Arbuthnot de que os meninos nascem numa proporo maior que as meninas se
mantm nos EUA?
4. Crie um grfico que mostre a razo de meninos para meninas para cada ano do conjunto de dados.
O que voc pode verificar?
5. Em qual ano se verifica o maior nmero de nascimentos nos EUA? Voc pode utilizar os arquivos de
ajuda ou o carto de referncia do R (http://cran.r-project.org/doc/contrib/Short-refcard.pdf ) para encontrar comandos teis.
Esses dados so provenientes de uma pesquisa realizada pelo Centro de Controle de Doenas (Center
For Disease Control) (http://www.cdc.gov/nchs/data/nvsr/nvsr53/nvsr53_20.pdf ). Confira-o se voc desejar
ler mais sobre a anlise da razo entre os sexos nos nascimentos nos Estados Unidos.
Esta foi uma curta introduo ao R e ao RStudio, mas ns forneceremos mais funes e um sentido
mais completa da linguagem ao longo do curso. Sinta-se livre para procurar na internet pelo R http:

//www.r-project.org e o RStudio http://rstudio.org se vocs estiver interessado em aprender mais, ou encontre


mais laboratrios para praticar em http://openintro.org.

You might also like