Pacotes Estatísticos
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística

Disciplina: Pacotes Estatísticos (EST-008)
Prof.: Frederico R. B. Cruz
Período: 1º Semestre de 2022
Sala: 4069 (ICEx-Pampulha)
Divulgação: 08/07/2022 Entrega: 08/07/2022 (em PDF via Moodle)

R - Roteiro de Estudos 8 (Lista 12)

O acompanhamento deste roteiro de estudos pressupõe acesso contínuo ao relatório técnico Noções Básicas de S-PLUS for Windows® [1], e às Notas de Aula Cap. 2. O R [2].

9. análise exploratória de dados (final)

O banco de dados geyser: Este banco de dados consiste em medições contínuas das durações das erupções e tempos entre duas erupções do gêiser Old Faithful Geyser no Parque Nacional Yellowstone, EUA, em 1985, em minutos.

  1. Análise Exploratória Gráfica Multivariada (final):

    Baixe o banco de dados de geyser.txt. Note que o mesmo encontra-se armazenado no formato de um objeto em R, que foi criado pelo comando dput e pode ser recuperado pelo comando seguinte:

    geyser <- dget("geyser.txt")

    Anexe o banco de dados ao R/S-PLUS:

    attach(geyser)

    Faças descritivas:

    summary(waiting)
    summary(duration)

    Isto nos dará uma impressão básica dos dados. A duração de uma erupção está entre menos que um minuto e seis minutos, e o tempo entre erupções, entre cerca de 40 minutos e não mais que 100. Se perdermos uma erupção, teremos que esperar em média mais de uma hora para ver uma erupção de aproximadamente quatro minutos. Interessados em ver graficamente, podemos fazer:

    plot(waiting, duration)

    Notamos que temos grupos com fronteiras x=67 e y=3,1. Os comandos abaixo fazem um interessante gráfico dividido em clusters (grupos):

    plot(waiting, duration, type="n", ylab="Duracao da erupcao", xlab="Tempo entre erupcoes")
    abline(h=3.1)
    abline(v=67)
    subset.1 <- (waiting < 67) & (duration < 3.1)
    subset.2 <- (waiting < 67) & (duration > 3.1)
    subset.3 <- (waiting > 67) & (duration < 3.1)
    subset.4 <- (waiting > 67) & (duration > 3.1)
    points(waiting[subset.1], duration[subset.1], pch="A", col=1)
    points(waiting[subset.2], duration[subset.2], pch="B", col=2)
    points(waiting[subset.3], duration[subset.3], pch="C", col=4)
    points(waiting[subset.4], duration[subset.4], pch="D", col=8)

    Você pode utilizar a função hist2d para preparar dados de entrada para outras funções. A função persp produz gráficos em 3D e aceita hist2d como entrada (talvez seja necessário carregar o pacote gplots, via menu Tools -> Install Packages):

    h2d <- hist2d(waiting, duration, show=FALSE, same.scale=FALSE, nbins=c(15,15))
    persp(h2d$x, h2d$y, h2d$counts, ticktype="detailed", theta=30, phi=30, expand=0.5, shade=0.5, col="cyan", ltheta=-30)

    Você pode tentar traçar gráficos de curvas de nível:

    contour(h2d$x, h2d$y, h2d$counts, nlevels=4)

    Curvas de nível também podem ser traçadas com cores (ou tons de cinza):

    filled.contour(h2d$x, h2d$y, h2d$counts, nlevels=4, col=gray((4:0)/4) )

    Observação:

    Em S-PLUS é um pouco diferente. Para gráficos 3D:

    persp(hist2d(waiting, duration))

    Para curvas de nível:

    contour(hist2d(waiting, duration, xbreaks=seq(40,110,by=5), ybreaks=seq(0,6,by=1.5)))

    Em S-PLUS, você também pode utilizr a função image, frequentemente empregada para dados geográficos, utilizando latitudes e longitudes como eixos e altura como cores ou tons de cinza:

    image(hist2d(waiting, duration, xbreaks=seq(40,110,by=5), ybreaks=seq(0,6,by=0.5)))

10. Dados ausentes: A regra mais geral para dados ausentes é que dados ausentes (NA) combinados em um operação com outros dados resultarão em dados ausentes.

  1. Tente:

    x <- c(1, 2, NA, 4)
    mean(x)
    mean(x, na.rm=T)
    mean(x[!is.na(x)])

  2. Tente também:

    plot(1:10, c(2,3,2,4,NA,3,2,2,4,5), type="l")

  3. Finalmente, teste:

    x <- (-1:1)/0
    x
    is.na(x)
    is.infinite(x)

Lista de Exercícios

Valendo como lista de exercícios, envie pelo Moodle um arquivo PDF com:

  • os gráficos gerados e

  • as saídas dos comandos testados.

Referências:

[1] E. A. Reis. Noções Básicas de S-PLUS for Windows®. RTE-03/1997, EST-ICEx-UFMG, Belo Horizonte, 1997 (disponível através da homepage de Relatórios Técnicos - Série Ensino, Departamento de Estatística, UFMG, ou em RTE-03/97).
[2] F. R. B. Cruz. Notas de Aula - O R. EST-ICEx-UFMG, Belo Horizonte, 2015. (disponível em O R).
Endereços:
Atenção:
O material aqui contido deve ser tomado como um guia bastante confiável do conteúdo do curso. Entretanto, você não poderá reivindicar quaisquer direitos baseado neste material. Em particular, reservo-me o direito de alterar datas, programação ou critério de avaliação. Avisos oficiais serão sempre aqueles feitos em sala de aula.

Saturday, 18-May-2024 07:23:59 -03
Last updated: March 04, 2024
Copyright © 2000-2024, F. R. B. Cruz. All Righs Reserved.