Pacotes Estatísticos
|
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística
Disciplina: Pacotes Estatísticos (EST-008)
Prof.: Frederico R. B. Cruz
|
Período: 1º Semestre de 2022
Sala: 4069 (ICEx-Pampulha)
|
Divulgação: 08/07/2022
|
Entrega: 08/07/2022
(em PDF via Moodle)
|
R - Roteiro de Estudos 7 (Lista 11)
-
O acompanhamento deste roteiro de estudos pressupõe acesso
contínuo ao relatório técnico
Noções Básicas de S-PLUS for
Windows® [1],
e às Notas de Aula Cap. 2. O
R [2].
-
9. análise exploratória de dados
-
O banco de dados barley (cevada): O banco de dados barley
contém resultados de produção em bushels
(unidade de volume, aproximadamente 35 litros) por acre (medida de
área) em diversos locais. A análise compreende 6
locais plantando 10 diferentes variedades de cevada em dois anos
sucessivos, 1931 e 1932. O banco de dados contém 120 valores
de campos de cevada. O objetivo principal é determinar
razões para diferentes produções de cevada dados
os diferentes grupos de variáveis, como a colheita de 1931 da
quinta variedade no local 4, bem como a colheita de 1932 da
sétima variedade no mesmo local.
- Estatística Descritiva Univariada:
O banco de dados pode ser baixado de barley.txt,
para algum diretório da sua preferência. Esse diretório
deve então ser incluído como diretório de trabalho, o que
no R (no Windows®) pode ser feito via menu, Session -> Set Working
Directory -> Choose Directory....
O banco de dados pode então ser carregado no ambiente R pelo comando
barley <- read.table("barley.txt", header=TRUE, sep = ",")
O banco de dados pode ser visualizado pelo comando
barley
Selecione algumas linhas ao acaso para visualização,
utilizando o comando
barley[c(1,7,45,87),]
Isto nos mostra como os dados são. A variável
yield é o número de bushels por acre, que
é decimal e não inteiro, provavelmente porque foi
dividido pela área total plantada. A segunda variável
variety contém uma cadeia de caracteres descrevendo
o nome da variedade de cevada. O ano year é 1931 ou
1932, denotando o ano de plantio e colheita. Finalmente, a
variável site contém o nome do local de onde
os dados se originam.
A informação acima pode ser obtida de forma mais
estruturada pela função summary . Tente
utilizá-la.
É interessante anexar o banco de dados ao R por meio do comando
attach(barley)
Assim, as variáveis do banco de dados podem ser mais facilmente
acessadas. Por exemplo, tente o comando para geração de
gráficos de ramo-e-folhas,
stem(yield)
Tente com as outras variáveis e note que não funciona para
variáveis categóricas (no R, factor).
Para verificar a assimetria dos dados, podemos utilizar o comando
quantile(yield, seq(0.1, 0.9, by=0.1))
Para verificar a distância inter-quartílica:
quantile(yield, c(0.25, 0.75))
Tente o comando
summary(yield[year==1931])
Tente o comando abaixo e compare os dois anos:
summary(yield[year==1932])
Poderíamos determinar os locais mais produtivos nos dois anos,
para verifica se houve coincidência:
quantile(yield[year==1931], 0.9)
quantile(yield[year==1932], 0.9)
Uma ferramente poderosa é a função by ,
que aplica funções aos dados, após parti-lo em
sub-categorias. Podemos calcular descritivas para os dados, por ano,
usando a função by :
by(barley, year, summary)
Utilize a função by para calcular descritivas por
outros fatores (variedade e local).
- Análise Exploratória Gráfica Univariada:
Verifique o resultado dos seguintes comandos para análise
gráfica:
par(mfrow=c(2,1)) # divide tela gráfica em matriz 2
x 1
plot(yield)
plot(year)
Experimente traçar histogramas por year e
site :
par(mfcol=c(3,2)) # divide tela gráfica em matriz 3 x 2
yrange <- range(yield)
limits <- seq(min(yield), max(yield), length=15)
hist(yield[site=="Grand Rapids"& year==1931],
xlim=yrange, breaks=limits, xlab="Grand Rapids em 1931")
hist(yield[site=="Duluth"& year==1931],
xlim=yrange, breaks=limits, xlab="Duluth em 1931")
...
Mude o que precisa ser mudado e faça para os demais subconjuntos.
- Estatística Descritiva Multivariada:
Analisaremos as relações entre variáveis examinando-as
conjuntamente ou condicionando uma ao valor da outra. Vimos que a
produção de cevada difere quando condicionamos ao ano 1931
somente, ou a 1932. Agora, exploraremos as relações em maior
detalhe.
Para verificar como uma variável está distribuída em duas
dimensões, o R oferece as funções table e
hist2d . Podemos determinar quão frequentemente diferentes
combinações de year e site ocorrem digitando:
table(year, site)
Vemos que cada local teve dez plantações por ano. Se
olharmos uma tabela tridimensional de year, site e
variety, veremos que cada combinação ocorre
exatamente uma vez. Verifique o resultado do comando abaixo:
table(year, site, variety)
Para tabularmos uma variável como yield, que
é uma variável quantitativa, não
utilizaríamos table , pois cada
observação tenderia a formar sua própria
categoria, com contagem unitária, já que todas possuem
valores diferentes. A função hist2d
categoriza os dados em intervalos, exatamente como
hist , mas sem a representação
gráfica. Pela ausência de duas variáveis
quantitativas no banco de dados barley, faremos a
tabulação de yield por ela mesma. A
saída consiste em cinco elementos: os pontos médios
das categorias x e y, a tabela contendo as contagens e dois vetores
fornecendo os limites das categorias. Tente (talvez seja necessário
carregar o pacote gplots, via menu Tools -> Install
Packages):
h2d <- hist2d(yield, yield, show=FALSE, nbins=c(5,5))
h2d
Podemos também tabular variáveis quantitativas
utilizando arredondamentos. Podemos arredondar a
produção para somente a parte inteira:
yield.round <- round(yield, 0)
Ou ao fator mais próximo de dez (note a diferença):
yield.round <- round(yield, -1)
Podemos checar o resultado pela tabulação da nova
variável yield.round, que contém apenas os
valores 10, 20, 30, 40, 50, 60
e 70:
table(yield.round)
Finalmente, podemos tabular variety contra
yield.round (depois você talvez queira tabular
variety contra a variável original yield,
isto é, sem arredondar):
table(variety, yield.round)
Notamos que a maioria das produções são em
torno de 30 bushels por acre, havendo somente uma
produção na categoria de 70, da variedade No.
462. Entretanto, as variedades Wisc No. 38 e
Trebi apresentam produções altas na sua
maioria e somente umas poucas baixas. Utilizando a
função by , podemos investigar este fato
um pouco mais:
by(yield, variety, summary)
Fica evidente a superioridade produtiva das variedades Wisc No.
38 e Trebi.
- Análise Exploratória Gráfica Multivariada:
Exploração de dados significa dispor os dados de
diversar formas diferentes. O objetivo é detectar aspectos de
interesse. Novos aspectos podem ser examinados posteriormente por
meio de outros métodos ou por um retorno ao processo de
amostragem e fonte dos dados. Comparemos graficamente as
produções das localidades nas duas safras em 1931 e
1932. Escolhemos o comando boxplot . Estudando a
documentação online da função
notamos que a entrada esperada é uma lista de
variáveis. Uma lista é criada pelo comando
split . Assim, dividimos a variável
yield por site e fornecemos o resultado como
entrada para o boxplot . Como queremos produzir dois
gráficos, um para 1931 e outro para 1932, primeiramente
extraimos os dados para os anos e depois aplicamos o
split :
is.1931 <- year==1931 # True ou False, dependendo do ano
1931/1932
data.split.31 <- split(yield[is.1931], site[is.1931])
boxplot(data.split.31, main="Ano 1931",
ylim=range(yield))
data.split.32 <- split(yield[!is.1931],
site[!is.1931])
boxplot(data.split.32, main="Ano 1932",
ylim=range(yield))
A construção de boxplots em diferentes arranjos podem
nos dar informações adicionais.
Utilize a mesma técnica acima para fazer boxplots da
produção para os diferentes locais e descobrir qual foi o
único local a apresentar uma produção menor em 1931 do
que em 1932.
-
Lista de Exercícios
-
Valendo como lista de exercícios, envie pelo Moodle um arquivo
PDF com:
- os gráficos gerados e
- as saídas dos comandos testados.
-
Referências:
- [1] E. A. Reis.
Noções Básicas de S-PLUS for
Windows®.
RTE-03/1997, EST-ICEx-UFMG, Belo Horizonte, 1997
(disponível através da homepage de
Relatórios
Técnicos - Série Ensino,
Departamento de Estatística, UFMG, ou em
RTE-03/97).
- [2] F. R. B. Cruz.
Notas de Aula - O R.
EST-ICEx-UFMG, Belo Horizonte, 2015.
(disponível em
O R).
- Endereços:
- Atenção:
- O material aqui contido deve ser tomado como um guia bastante
confiável do conteúdo do curso. Entretanto, você
não poderá reivindicar quaisquer direitos baseado neste
material. Em particular, reservo-me o direito de alterar datas,
programação ou critério de avaliação.
Avisos oficiais serão sempre aqueles feitos em sala de aula.
|