Pacotes Estatísticos

Apresentação do curso
Ensino Remoto
Notas de aula
Cap. 0. Motivação
Cap. 1. Introdução
1.1. Exercício de Programação
1.2. Sistemas de Programação
1.3. Algoritmos e Fluxogramas
1.4. Estruturas de Dados
1.5. Modularização
Cap. 2. O R
Cap. 3. Tópicos Avançados
Listas de Exercícios
Trabalho Prático
- TP I
Software
Resultado das Avaliações

Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística

Disciplina: Pacotes Estatísticos (EST-008)
Prof.: Frederico R. B. Cruz Período: 1º Semestre de 2022
Sala: 4069 (ICEx-Pampulha)

Divulgação: 08/07/2022

Entrega: 08/07/2022 (em PDF via Moodle)

R - Roteiro de Estudos 7 (Lista 11)

O acompanhamento deste roteiro de estudos pressupõe acesso contínuo ao relatório técnico Noções Básicas de S-PLUS for Windows® [1], e às Notas de Aula Cap. 2. O R [2].

9. análise exploratória de dados

O banco de dados barley (cevada): O banco de dados barley contém resultados de produção em bushels (unidade de volume, aproximadamente 35 litros) por acre (medida de área) em diversos locais. A análise compreende 6 locais plantando 10 diferentes variedades de cevada em dois anos sucessivos, 1931 e 1932. O banco de dados contém 120 valores de campos de cevada. O objetivo principal é determinar razões para diferentes produções de cevada dados os diferentes grupos de variáveis, como a colheita de 1931 da quinta variedade no local 4, bem como a colheita de 1932 da sétima variedade no mesmo local.

Estatística Descritiva Univariada:

O banco de dados pode ser baixado de barley.txt, para algum diretório da sua preferência. Esse diretório deve então ser incluído como diretório de trabalho, o que no R (no Windows®) pode ser feito via menu, Session -> Set Working Directory -> Choose Directory....
O banco de dados pode então ser carregado no ambiente R pelo comando

barley <- read.table("barley.txt", header=TRUE, sep = ",")

O banco de dados pode ser visualizado pelo comando

barley

Selecione algumas linhas ao acaso para visualização, utilizando o comando

barley[c(1,7,45,87),]

Isto nos mostra como os dados são. A variável yield é o número de bushels por acre, que é decimal e não inteiro, provavelmente porque foi dividido pela área total plantada. A segunda variável variety contém uma cadeia de caracteres descrevendo o nome da variedade de cevada. O ano year é 1931 ou 1932, denotando o ano de plantio e colheita. Finalmente, a variável site contém o nome do local de onde os dados se originam.

A informação acima pode ser obtida de forma mais estruturada pela função summary. Tente utilizá-la.

É interessante anexar o banco de dados ao R por meio do comando

attach(barley)

Assim, as variáveis do banco de dados podem ser mais facilmente acessadas. Por exemplo, tente o comando para geração de gráficos de ramo-e-folhas,

stem(yield)

Tente com as outras variáveis e note que não funciona para variáveis categóricas (no R, factor).

Para verificar a assimetria dos dados, podemos utilizar o comando

quantile(yield, seq(0.1, 0.9, by=0.1))

Para verificar a distância inter-quartílica:

quantile(yield, c(0.25, 0.75))

Tente o comando

summary(yield[year==1931])

Tente o comando abaixo e compare os dois anos:

summary(yield[year==1932])

Poderíamos determinar os locais mais produtivos nos dois anos, para verifica se houve coincidência:

quantile(yield[year==1931], 0.9)
quantile(yield[year==1932], 0.9)

Uma ferramente poderosa é a função by, que aplica funções aos dados, após parti-lo em sub-categorias. Podemos calcular descritivas para os dados, por ano, usando a função by:

by(barley, year, summary)

Utilize a função by para calcular descritivas por outros fatores (variedade e local).
Análise Exploratória Gráfica Univariada:

Verifique o resultado dos seguintes comandos para análise gráfica:

par(mfrow=c(2,1)) # divide tela gráfica em matriz 2 x 1
plot(yield)
plot(year)

Experimente traçar histogramas por year e site:

par(mfcol=c(3,2)) # divide tela gráfica em matriz 3 x 2
yrange <- range(yield)
limits <- seq(min(yield), max(yield), length=15)
hist(yield[site=="Grand Rapids"& year==1931],
xlim=yrange, breaks=limits, xlab="Grand Rapids em 1931")
hist(yield[site=="Duluth"& year==1931],
xlim=yrange, breaks=limits, xlab="Duluth em 1931")
...

Mude o que precisa ser mudado e faça para os demais subconjuntos.
Estatística Descritiva Multivariada:

Analisaremos as relações entre variáveis examinando-as conjuntamente ou condicionando uma ao valor da outra. Vimos que a produção de cevada difere quando condicionamos ao ano 1931 somente, ou a 1932. Agora, exploraremos as relações em maior detalhe.
Para verificar como uma variável está distribuída em duas dimensões, o R oferece as funções table e hist2d. Podemos determinar quão frequentemente diferentes combinações de year e site ocorrem digitando:

table(year, site)

Vemos que cada local teve dez plantações por ano. Se olharmos uma tabela tridimensional de year, site e variety, veremos que cada combinação ocorre exatamente uma vez. Verifique o resultado do comando abaixo:

table(year, site, variety)

Para tabularmos uma variável como yield, que é uma variável quantitativa, não utilizaríamos table, pois cada observação tenderia a formar sua própria categoria, com contagem unitária, já que todas possuem valores diferentes. A função hist2d categoriza os dados em intervalos, exatamente como hist, mas sem a representação gráfica. Pela ausência de duas variáveis quantitativas no banco de dados barley, faremos a tabulação de yield por ela mesma. A saída consiste em cinco elementos: os pontos médios das categorias x e y, a tabela contendo as contagens e dois vetores fornecendo os limites das categorias. Tente (talvez seja necessário carregar o pacote gplots, via menu Tools -> Install Packages):

h2d <- hist2d(yield, yield, show=FALSE, nbins=c(5,5))
h2d

Podemos também tabular variáveis quantitativas utilizando arredondamentos. Podemos arredondar a produção para somente a parte inteira:

yield.round <- round(yield, 0)

Ou ao fator mais próximo de dez (note a diferença):

yield.round <- round(yield, -1)

Podemos checar o resultado pela tabulação da nova variável yield.round, que contém apenas os valores 10, 20, 30, 40, 50, 60 e 70:

table(yield.round)

Finalmente, podemos tabular variety contra yield.round (depois você talvez queira tabular variety contra a variável original yield, isto é, sem arredondar):

table(variety, yield.round)

Notamos que a maioria das produções são em torno de 30 bushels por acre, havendo somente uma produção na categoria de 70, da variedade No. 462. Entretanto, as variedades Wisc No. 38 e Trebi apresentam produções altas na sua maioria e somente umas poucas baixas. Utilizando a função by, podemos investigar este fato um pouco mais:

by(yield, variety, summary)

Fica evidente a superioridade produtiva das variedades Wisc No. 38 e Trebi.
Análise Exploratória Gráfica Multivariada:

Exploração de dados significa dispor os dados de diversar formas diferentes. O objetivo é detectar aspectos de interesse. Novos aspectos podem ser examinados posteriormente por meio de outros métodos ou por um retorno ao processo de amostragem e fonte dos dados. Comparemos graficamente as produções das localidades nas duas safras em 1931 e 1932. Escolhemos o comando boxplot. Estudando a documentação online da função notamos que a entrada esperada é uma lista de variáveis. Uma lista é criada pelo comando split. Assim, dividimos a variável yield por site e fornecemos o resultado como entrada para o boxplot. Como queremos produzir dois gráficos, um para 1931 e outro para 1932, primeiramente extraimos os dados para os anos e depois aplicamos o split:

is.1931 <- year==1931 # True ou False, dependendo do ano 1931/1932
data.split.31 <- split(yield[is.1931], site[is.1931])
boxplot(data.split.31, main="Ano 1931", ylim=range(yield))
data.split.32 <- split(yield[!is.1931], site[!is.1931])
boxplot(data.split.32, main="Ano 1932", ylim=range(yield))

A construção de boxplots em diferentes arranjos podem nos dar informações adicionais.
Utilize a mesma técnica acima para fazer boxplots da produção para os diferentes locais e descobrir qual foi o único local a apresentar uma produção menor em 1931 do que em 1932.

Lista de Exercícios

Valendo como lista de exercícios, envie pelo Moodle um arquivo PDF com:

os gráficos gerados e
as saídas dos comandos testados.

Referências:

[1] E. A. Reis. Noções Básicas de S-PLUS for Windows^®. RTE-03/1997, EST-ICEx-UFMG, Belo Horizonte, 1997 (disponível através da homepage de Relatórios Técnicos - Série Ensino, Departamento de Estatística, UFMG, ou em RTE-03/97).

[2] F. R. B. Cruz. Notas de Aula - O R. EST-ICEx-UFMG, Belo Horizonte, 2015. (disponível em O R).

Endereços:

Homepage do curso: http://www.est.ufmg.br/~fcruz/disciplinas/pacotes
E-mail do professor: fcruz@est.ufmg.br
Atenção:: O material aqui contido deve ser tomado como um guia bastante confiável do conteúdo do curso. Entretanto, você não poderá reivindicar quaisquer direitos baseado neste material. Em particular, reservo-me o direito de alterar datas, programação ou critério de avaliação. Avisos oficiais serão sempre aqueles feitos em sala de aula.