Pacotes Estatísticos
|
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística
Disciplina: Pacotes Estatísticos (EST-008)
Prof.: Frederico R. B. Cruz
|
Período: 1º Semestre de 2022
Sala: 4069 (ICEx-Pampulha)
|
Divulgação: 08/07/2022
|
Entrega: 08/07/2022
(em PDF via Moodle)
|
R - Roteiro de Estudos 8 (Lista 12)
-
O acompanhamento deste roteiro de estudos pressupõe acesso
contínuo ao relatório técnico
Noções Básicas de S-PLUS for
Windows® [1],
e às Notas de Aula Cap. 2. O
R [2].
-
9. análise exploratória de dados (final)
-
O banco de dados geyser: Este banco de dados consiste em
medições contínuas das durações das
erupções e tempos entre duas erupções do
gêiser Old Faithful Geyser no Parque Nacional Yellowstone, EUA,
em 1985, em minutos.
- Análise Exploratória Gráfica Multivariada (final):
Baixe o banco de dados de geyser.txt.
Note que o mesmo encontra-se armazenado no formato de um objeto em R, que foi
criado pelo comando dput e pode ser recuperado pelo comando
seguinte:
geyser <- dget("geyser.txt")
Anexe o banco de dados ao R/S-PLUS:
attach(geyser)
Faças descritivas:
summary(waiting)
summary(duration)
Isto nos dará uma impressão básica dos dados. A
duração de uma erupção está entre
menos que um minuto e seis minutos, e o tempo entre
erupções, entre cerca de 40 minutos e não mais
que 100. Se perdermos uma erupção, teremos que esperar em
média mais de uma hora para ver uma erupção de
aproximadamente quatro minutos. Interessados em ver graficamente, podemos
fazer:
plot(waiting, duration)
Notamos que temos grupos com fronteiras x=67 e
y=3,1. Os comandos abaixo fazem um interessante
gráfico dividido em clusters (grupos):
plot(waiting, duration, type="n", ylab="Duracao da erupcao",
xlab="Tempo entre erupcoes")
abline(h=3.1)
abline(v=67)
subset.1 <- (waiting < 67) & (duration <
3.1)
subset.2 <- (waiting < 67) & (duration >
3.1)
subset.3 <- (waiting > 67) & (duration <
3.1)
subset.4 <- (waiting > 67) & (duration >
3.1)
points(waiting[subset.1], duration[subset.1], pch="A",
col=1)
points(waiting[subset.2], duration[subset.2], pch="B",
col=2)
points(waiting[subset.3], duration[subset.3], pch="C",
col=4)
points(waiting[subset.4], duration[subset.4], pch="D",
col=8)
Você pode utilizar a função hist2d
para preparar dados de entrada para outras funções. A
função persp produz gráficos em 3D
e aceita hist2d como entrada (talvez seja necessário
carregar o pacote gplots, via menu Tools -> Install
Packages):
h2d <- hist2d(waiting, duration, show=FALSE, same.scale=FALSE,
nbins=c(15,15))
persp(h2d$x, h2d$y, h2d$counts, ticktype="detailed", theta=30, phi=30,
expand=0.5, shade=0.5, col="cyan", ltheta=-30)
Você pode tentar traçar gráficos de curvas de
nível:
contour(h2d$x, h2d$y, h2d$counts, nlevels=4)
Curvas de nível também podem ser traçadas com cores (ou
tons de cinza):
filled.contour(h2d$x, h2d$y, h2d$counts, nlevels=4, col=gray((4:0)/4) )
Observação:
Em S-PLUS é um pouco diferente. Para gráficos 3D:
persp(hist2d(waiting, duration))
Para curvas de nível:
contour(hist2d(waiting, duration, xbreaks=seq(40,110,by=5),
ybreaks=seq(0,6,by=1.5)))
Em S-PLUS, você também pode utilizr a função
image, frequentemente empregada para dados geográficos,
utilizando latitudes e longitudes como eixos e altura como cores ou tons de
cinza:
image(hist2d(waiting, duration, xbreaks=seq(40,110,by=5),
ybreaks=seq(0,6,by=0.5)))
-
10. Dados ausentes:
A regra mais geral para dados ausentes é que dados ausentes
(NA) combinados em um operação com outros dados
resultarão em dados ausentes.
- Tente:
x <- c(1, 2, NA, 4)
mean(x)
mean(x, na.rm=T)
mean(x[!is.na(x)])
- Tente também:
plot(1:10, c(2,3,2,4,NA,3,2,2,4,5), type="l")
- Finalmente, teste:
x <- (-1:1)/0
x
is.na(x)
is.infinite(x)
-
Lista de Exercícios
-
Valendo como lista de exercícios, envie pelo Moodle um arquivo
PDF com:
- os gráficos gerados e
- as saídas dos comandos testados.
-
Referências:
- [1] E. A. Reis.
Noções Básicas de S-PLUS for
Windows®.
RTE-03/1997, EST-ICEx-UFMG, Belo Horizonte, 1997
(disponível através da homepage de
Relatórios
Técnicos - Série Ensino,
Departamento de Estatística, UFMG, ou em
RTE-03/97).
- [2] F. R. B. Cruz.
Notas de Aula - O R.
EST-ICEx-UFMG, Belo Horizonte, 2015.
(disponível em
O
R).
- Endereços:
- Atenção:
- O material aqui contido deve ser tomado como um guia bastante
confiável do conteúdo do curso. Entretanto, você
não poderá reivindicar quaisquer direitos baseado neste
material. Em particular, reservo-me o direito de alterar datas,
programação ou critério de avaliação.
Avisos oficiais serão sempre aqueles feitos em sala de aula.
|