1 Introdução ao uso do software R

Coletamos dados para a partir das informações contidas neles respondermos perguntas sobre fenômenos ou processos de nosso interesse. Para isso, fazemos uso de conceitos e técnicas estatísticas, desde o planejamento do processo de coleta até a análise dos dados e apresentação dos resultados. Todo este trabalho é realizado com a utilização de softwares que nos auxiliam tanto no planejamento da coleta e análise dos dados, como na visualização e interpretação dos resultados. A grande maioria dos softwares estatísticos possuem uma licença de uso relativamente cara, o que torna seu acesso bastante limitado. Dessa forma, nos dias de hoje, empresas, universidades e instituições estão recorrendo ao uso de ambientes de programação de caráter gratuito, como o R e o Python.

O R é uma linguagem de programação sofisticada, além de ser um ambiente de análises estatísticas, confecção de gráficos, produção de documentos e relatórios, criação de sites interativos e aplicativos. Dentre as suas vantagens, podemos destacar a sua adaptação aos sistemas operacionais Linux, Mac OS e Windows; é um programa de código livre, desenvolvido por seus próprios usuários, que criam documentos facilmente reprodutíveis e modificáveis. Além disso, possui uma comunidade de usuários ao redor do mundo bastante extensa e ativa, que todos os dias desenvolvem novas funcionalidades para o programa e oferecem soluções para as diversas dúvidas que possam surgir.

O uso do software R é facilitado quando utilizamos o software RStudio, um ambiente de desenvolvimento integrado ao R, que apresenta uma interface gráfica mais amigável para o R, com muitos recursos úteis que facilitam a visualização do código R, a importação de conjunto de dados, a visualização de figuras, etc.

Neste texto apresentamos uma introdução ao uso do software R através da interface RStudio, com objetivo de apresentar e introduzir os alunos da disciplina Fundamentos de Estatística e Ciências de Dados no uso destas ferramentas para análise estatística de dados.


1.1 Instalação dos softwares R e RStudio

Como o RStudio é uma interface para uso do R, ele deve ser instalado após a instalação do R. O R é instalado a partir da página do R na internet cujo endereço é https://cran.r-project.org/ e o RStudio a partir de https://www.rstudio.com/ .

A seguir descrevemos passo a passo como deve ser feita a instalação desses 2 softwares.

1.1.1 Como instalar o R?

  1. Acesse o site: https://cran.r-project.org/

  2. No site, selecione o download compatível com o sistema operacional da sua máquina.

  1. Para instalação com Windows, será aberta a seguinte página:

Nessa página, clique em “base” (assinalado por vermelho na imagem) para a instalação do R pela primeira vez.

  1. Clique em “Download R […]” para iniciar a instalação do programa.
  1. O programa será baixado no seu computador na pasta de Downloads. Após baixado, clique sobre ele. Será aberta uma aba de permissão para executar o programa, clique para permitir a execução.

  2. Em seguida, será pedido para que você selecione um idioma de sua preferência e então aperte “OK”.

  1. Será pedido para que você aceite a licença de uso do software apresentada na tela. Após ter lido as informações e concordado com os termos, clique em “Próximo”.

  2. Selecione a pasta do seu computador onde você deseja que o R seja instalado. Então, clique em “Próximo”.

  1. Selecione os componentes a serem instalados. Sugerimos que sejam selecionados todos os componentes para instalação, como é apresentado na imagem:
  1. Selecione uma das opções de inicialização. Recomenda-se aos usuários iniciantes que selecionem a opção “Não (aceitar padrão)”.
  1. O próximo passo é selecionar em qual pasta você deseja que o R crie um atalho. Caso queira que o atalho seja criado apenas na pasta sugerida “Menu Iniciar”, então, só clique em “Próximo”. Caso não deseje que o atalho seja criado na pasta “Menu iniciar” selecione a caixa “Não criar uma pasta no Menu Iniciar” e indique no espaço de comando onde deverá ser criado o atalho.
  1. Em seguida, será perguntado quais são as tarefas adicionais que o usuário deseja que sejam executadas enquanto instala o R. Selecione as caixas desejadas e clique em “Próximo”.
  1. Para concluir a instalação, clique em “Concluir”.

1.1.2 Como instalar o RStudio?

Para instalar o RStudio, siga os seguintes passos:

  1. Acesse o site: https://www.rstudio.com/products/rstudio/. Você encontrará duas versões disponíveis para download, recomendamos que você opte pela versão “RStudio Desktop”.

  2. Após clicar em “RStudio Desktop”, clique em “Download RStudio Desktop”.

  3. Selecione a versão do RStudio Desktop - Free para instalação como indicado na imagem seguinte.

  4. Em seguida, clique no local indicado na seguinte imagem para o download do RStudio:

  5. O download do programa será iniciado na pasta downloads no seu computador. Após completar o download, clique sobre ele para abri-lo. Uma solicitação de controle de conta de usuário irá aparecer para que o programa possa ser executado.

  6. O guia de instalação vai abrir, clique em “Próximo”.

  7. Será pedido para que você escolha um local de instalação do programa, selecione a pasta em que você deseja que o programa seja arquivado e clique em “Próximo”.

  8. Em seguida, escolha a pasta onde deseja que um atalho do programa seja criado ou coloque um nome na barra de comandos para que uma nova pasta seja criada. Então, clique em “Instalar”.

  9. Por fim, clique em “Concluir” para terminar a instalação.

  10. Pronto! O RStudio já está habilitado para ser usado em seu computador.


1.2 Uma breve explicação sobre a tela inicial do RStudio

Instalados o R e o RStudio, inicialize o RStudio. Aparecerá a seguinte imagem.



Esta tela possui 4 painéis, sendo que um deles se encontra minimizado. Para restaurá-lo clique no ícone correspondente ao comando de restauração da janela na linha localizada imediatamente abaixo da barra de menus onde está escrito “source”. Cada painel possui abas, que permitem escolher o que será mostrado em cada painel. Descrevemos a seguir as funcionalidades destas abas.

  • Painel 1: Topo esquerdo da tela


Neste painel é onde escrevemos e criamos o arquivo com o código R a ser executado e também onde visualizamos e editamos um arquivo já criado. É possível trabalhar simultaneamente com 2 ou mais arquivos com códigos R. Um novo arquivo com códigos R pode ser criado escolhendo no menu de comandos a opção File → New File → R Script. Para salvar seu arquivo escolha a opção Save ou Save As no menu principal. Como veremos mais tarde, é nesta janela que também visualizamos outros arquivos e planilhas de dados criadas ou lidas com o R.

  • Painel 2: Base esquerda da tela


Neste painel, na aba console é onde aparecem os códigos compilados no R e os resultados obtidos com sua execução. O símbolo > que aparece no topo desta janela indica o início da linha de comandos.

Ao invés de executar o código R a partir de um arquivo de “scripts”, o código R pode ser digitado diretamente na linha de comandos. Não é possível apagar os comandos que foram compilados no R nem os seus resultados, mas é possível limpar a janela clicando ctrl+l.

  • Painel 3: Topo direito da tela


Este painel possui várias abas. Na aba Environment, são indicados os objetos criados no R, que podem ser matrizes, listas, planilhas de dados e também as bases de dados externas lidas. Quando clicamos em Enviroment aparece o ícone Import Dataset que nos permite ler alguns tipos de arquivos de dados externos ao R.

Na aba History é mostrado todo o histórico de comandos executados. Há outras 2 abas com nomes Connections e Presentation, que tratam de recursos mais avançados, que não serão considerados neste momento.

  • Painel 4: Base direita da tela

Na aba Files podemos visualizar todas as pastas e arquivos que estão dentro da pasta de trabalho do R, a pasta de onde são lidos as bases de dados e onde são salvos arquivos produzidos com uso do R, a menos que outro endereço seja especificado para isto. Na aba Plots é onde visualizamos todos os gráficos produzidos com o R, e de onde é possível salvar individualmente cada figura clicando em Export.

Quando instalamos o R, apenas alguns pacotes básicos são instalados. Um pacote é constituído por um conjunto de funções e arquivos de dados, devidamente documentados, que implementam uma ou mais técnicas para tratamento e análise de dados. Frequentemente temos de instalar pacotes adicionais. Quando clicamos na aba packages é mostrada a lista dos pacotes atualmente instalados no R. Para instalar um novo pacote basta clicar em install, informar se o pacote está armazenado em um repositório do Projeto CRAN e o seu nome. Digitando a primeira letra do nome do pacote, é mostrada a lista de todos os pacotes cujos nomes iniciam por esta letra. O pacote também pode ser instalado a partir de um arquivo compactado contendo o mesmo, do tipo .zip, neste caso deve-se informar o diretório onde se localiza este arquivo.

Na aba Help é possível obter ajuda sobre funções, pacotes e sobre conjuntos de dados específicos. A aba Viewer é destinada à visualização de outras funcionalidades do RStudio que não consideramos neste texto.


1.3 Aspectos Gerais

A execução de comandos no R pode ser feita digitando os comandos a serem executados na linha de comandos da janela “Console” ou executando um arquivo com o código R. Vamos considerar inicialmente o primeiro caso.

Na janela Console o símbolo “>” indica a linha de comando onde o código R deve ser digitado. Apos digitar o codigo R, aperte a tecla enter para executá-lo. Por exemplo para calcular a soma dos números 3 e 4, faça como segue:

O comando executado é mostrado na cor azul, os resultados na cor preta e mensagens de erro ou alerta na cor vermelha.

Às vezes, ao executar um comando, o R retorna como resultado um sinal de “+”. Este sinal indica que a sintaxe está incompleta, esperando que você a complete. Por exemplo, suponha, que ao executarmos o código log(5) esquecemos do último sinal de parênteses.

Completamos o código digitando na próxima linha o símbolo de parêntese que falta para completar a execução do comando.

Quando você não souber completar o comando para concluir sua execução ele pode ser cancelado digitando a tecla ESC.

Quando desejar visualizar os últimos códigos compilados no R, use a tecla \(\uparrow\). Clicando uma vez sobre ela aparece na linha de comandos o ultimo código R compilado. Isto é útil quando desejamos modificar o código para nova compilação.

Fizemos acima o uso do operador matemático elementar soma “+” e da função logaritmo log(). No quadro (1) apresentamos a sintaxe utilizada no R para os operadores matemáticos elementares e para algumas funções matemáticas de uso mais comum.

  • Quadro 1: Sintaxe utilizada no software R para os operadores elementares básicos
Operação Sintaxe
Soma +
Subtração -
Multiplicação *
Divisão /
Potência ^
Raiz Quadrada sqrt()
Logaritmo log()
Exponencial exp()
Seno sin()
Cosseno cos()
Tangente tan()

Agora que já vimos como executar os comandos, destacamos algumas informações importantes:

1.3.1 Separador de casas decimais

Na representação dos números o R utiliza o ponto “.” como separador decimal. A vírgula “,” serve para separarmos os diferentes elementos pertencentes a um mesmo objeto, como vetores e matrizes, que serão considerados mais adiante.

1.3.2 Uso de comentários no R

Quando escrevemos um script no R, é normal deixarmos comentários explicando os comandos empregados. Esta prática serve para que possamos nos lembrar das ações que foram realizadas ou para deixar o código autoexplicativo, caso seja compartilhado com outras pessoas. O sinal " # " (“hashtag”) é utilizado com este objetivo. Todo o texto escrito numa mesma linha a partir do sinal " # " é entendido como um comentário. Por exemplo:

# cálculo da área de um círculo de raio 3
pi*3^2
## [1] 28.27433

1.3.3 Uso de letras maiúsculas e minúsculas e nomeação de objetos

O R faz a distinção entre letras maiúsculas e minúsculas, que são entendidas com símbolos diferentes. Por exemplo, se você tentar executar o código LOG(5), o R lhe dirá que a função LOG não existe.

Podemos guardar o resultado da operação acima num objeto que vamos chamar de LOG5, fazendo:

LOG5 = log(5)
# Para visualizá-lo basta fazer:
LOG5
## [1] 1.609438

O R possui vários tipos de objetos, matrizes, vetores, listas, data-frames, como veremos na próxima seção. Alguns cuidados devem ser considerados ao nomear objetos no R:

  • Evite o uso de acentos e cedilhas.
  • Caso queira usar um nome composto para nomear um objeto, use o subscrito “_” para separar as palavras. Por exemplo, para um objeto contendo os litros de água consumidos por uma residência numa semana podemos usar o nome “litros_agua”.
  • Os nomes dos objetos devem começar por letras e podem conter números ou outros caracteres.
  • O R possui alguns nomes reservados, nomes que não devem ser utilizados para nomear objetos porque têm um significado especial na linguagem R. Por exemplo: NA, FALSE, TRUE, NULL, NAN, Inf, break, else, for, function, if, in, next, repeat, while.

1.3.4 Instalando e carregando pacotes no R

Como já dito anteriormente, quando instalamos o R, apenas alguns pacotes básicos são instalados. Acrescentamos novos pacotes à nossa livraria de pacotes à medida que eles se fazem necessários. Um dos pacotes que faremos uso mais adiante é o pacote summarytools, que possui algumas ferramentas muito úteis para descrição de um conjunto de dados. Vamos exemplificar a instalação de um pacote usando este pacote. Você pode fazer isto de 2 formas diferentes:

  1. No painel 4, clique em “packages”, depois em “install”, escreva o nome do pacote ou digite as 3 primeiras letras de seu nome e escolha-o entre os pacotes mostrados e por último clique em “install”.
  2. Execute o comando install.packages("summarytools") na linha de commandos do console.

Depois de instalado o pacote, ele deve ser carregado sempre antes de utilizá-lo. Ele permanece aberto durante toda a sessão de trabalho no R. Sempre que iniciar uma nova sessão ele deve ser carregado antes de sua utilização. Ele é carregado usando a função require ou library. Por exemplo, para carregar o pacote summarytools, execute o codigo library(summarytools) ou require(summarytools).

1.3.5 Citando o R ou seus pacotes em publicações

Para citar corretamente o R em artigos ou publicações científicas, basta apenas digitar o comando da função mencionada citation() no console do programa, copiar a saída gerada e colar nas referências bibliográficas do seu texto. Para citar um pacote do R, é só escrever o nome do pacote, como mostrado no exemplo para o pacote summarytools.
citation(“summarytools”)

1.3.6 Comandos de Ajuda no R

Para procurar maiores informações sobre um objeto de um pacote ou sobre um pacote, use a função help. Esta função acessa as páginas de documentação de funções, pacotes e outros objetos, além da documentação dos pacotes. Por exemplo, para obtermos ajuda sobre a função “sum”, que calcula a soma dos elementos de um vetor, basta entrar com o comando help(sum) ou ?sum. Ele buscará ajuda na documentação dos pacotes atualmente carregados. Assim que a função for executada, aparecerá a documentação explicativa na aba “help” do painel 4.

Ao invés de executar o comando de ajuda diretamente na linha de comandos do console, você pode utilizar a aba help para obter ajuda sobre o objeto de interesse digitando o nome da função ao lado do símbolo da lupa, como mostrado abaixo, para o caso da função “sum”.

Se desejar procurar algum termo específico no texto apresentado como resultado da busca por ajuda, escreva o termo em “Find In Topic” e clique enter.

Quando desejar ajuda sobre uma função específica de um pacote instalado, mas não carregado, deve-se informar o nome do pacote. Por exemplo, para obter ajuda sobre a função freq do pacote “summarytools” devemos fazer como segue:

help(freq, package="summarytools")

Para acessar a documentação de um pacote já instalado, faça como o exemplo abaixo, onde buscamos ajuda para o pacote “summarytools”.

help(package = "summarytools")

Páginas de ajuda para funções incluem uma seção com exemplos ilustrando como a função trabalha. Estes exemplos podem ser executados no R usando o comando example(). Por exemplo, para a função sum, faça:

example(sum)
## 
## sum> ## Pass a vector to sum, and it will add the elements together.
## sum> sum(1:5)
## [1] 15
## 
## sum> ## Pass several numbers to sum, and it also adds the elements.
## sum> sum(1, 2, 3, 4, 5)
## [1] 15
## 
## sum> ## In fact, you can pass vectors into several arguments, and everything gets added.
## sum> sum(1:2, 3:5)
## [1] 15
## 
## sum> ## If there are missing values, the sum is unknown, i.e., also missing, ....
## sum> sum(1:5, NA)
## [1] NA
## 
## sum> ## ... unless  we exclude missing values explicitly:
## sum> sum(1:5, NA, na.rm = TRUE)
## [1] 15

Alguns pacotes do R incluem vinhetas (vignettes), que são documentos discursivos explicando as utilidades do pacote. Elas podem ser acessados com o comando browseVignettes. Por exemplo, para o pacote “summarytools”, fazemos:

browseVignettes(package="summarytools")

Alguns pacotes podem incluir códigos demonstrativos chamados de demos. O comando demos() lista todos os demos para os pacotes de sua livrara, isto é, do conjunto de pacotes instalados. Quando houver mais de um demo com mesmo nome é necessário indicar o nome do pacote. Veja a lista de demos disponível na sua livraria, que deve ser pequena, já que você ainda não instalou muitos pacotes. Para o pacote “summarytools” não existem demos disponíveis, veja abaixo:

Outros comandos de ajuda do R são:

  • apropos() – procura objetos, incluindo funções, que incluem uma palavra ou expressão específica em seu nome. Experimente usar este comando com a palavra “table”, fazendo: apropos(“table”) e também apropos(“^table”). Este último comando retorna os objetos cujo nome inicia por “table”.

  • RSiteSearch() – usa um mecanismo de busca na Internet para pesquisar informações nas páginas de ajuda da função e vinhetas para todos os pacotes CRAN. RSiteSearch () requer uma conexão ativa com a Internet e não emprega expressões regulares. Chaves podem ser usadas para especificar termos com várias palavras, por exemplo: RSiteSearch("{modelo linear generalizado}") retorna informações sobre funções R, vinhetas e visualizações de tarefas CRAN relacionadas ao termo composto “modelo linear generalizado”. Faça a busca para o termo composto “frequency distribution”, usando o codigo: RsiteSearch("{frequency distribution}").

Além dos comandos de ajuda fornecidos pelo próprio R, é possível obter ajuda nos grupos de usuários (traduzido do inglês “R users group”), isto é, grupos de estudantes e profissionais que se reúnem para trocar conhecimentos sobre o software, promover a interação entre os usuários do programa e estimular a adoção do R tanto no setor público quanto privado. Existem grupos desse tipo ao redor do mundo todo e para acessá-los basta entrar no link seguinte e selecionar o grupo de usuário desejado: https://jumpingrivers.github.io/meetingsR/r-user-groups.html.