Pacotes Estatísticos
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Estatística

Disciplina: Pacotes Estatísticos (EST-008)
Prof.: Frederico R. B. Cruz
Período: 1º Semestre de 2022
Sala: 4069 (ICEx-Pampulha)
Divulgação: 08/07/2022 Entrega: 08/07/2022 (em PDF via Moodle)

R - Roteiro de Estudos 7 (Lista 11)

O acompanhamento deste roteiro de estudos pressupõe acesso contínuo ao relatório técnico Noções Básicas de S-PLUS for Windows® [1], e às Notas de Aula Cap. 2. O R [2].

9. análise exploratória de dados

O banco de dados barley (cevada): O banco de dados barley contém resultados de produção em bushels (unidade de volume, aproximadamente 35 litros) por acre (medida de área) em diversos locais. A análise compreende 6 locais plantando 10 diferentes variedades de cevada em dois anos sucessivos, 1931 e 1932. O banco de dados contém 120 valores de campos de cevada. O objetivo principal é determinar razões para diferentes produções de cevada dados os diferentes grupos de variáveis, como a colheita de 1931 da quinta variedade no local 4, bem como a colheita de 1932 da sétima variedade no mesmo local.

  1. Estatística Descritiva Univariada:

    O banco de dados pode ser baixado de barley.txt, para algum diretório da sua preferência. Esse diretório deve então ser incluído como diretório de trabalho, o que no R (no Windows®) pode ser feito via menu, Session -> Set Working Directory -> Choose Directory....

    O banco de dados pode então ser carregado no ambiente R pelo comando

    barley <- read.table("barley.txt", header=TRUE, sep = ",")

    O banco de dados pode ser visualizado pelo comando

    barley

    Selecione algumas linhas ao acaso para visualização, utilizando o comando

    barley[c(1,7,45,87),]

    Isto nos mostra como os dados são. A variável yield é o número de bushels por acre, que é decimal e não inteiro, provavelmente porque foi dividido pela área total plantada. A segunda variável variety contém uma cadeia de caracteres descrevendo o nome da variedade de cevada. O ano year é 1931 ou 1932, denotando o ano de plantio e colheita. Finalmente, a variável site contém o nome do local de onde os dados se originam.

    A informação acima pode ser obtida de forma mais estruturada pela função summary. Tente utilizá-la.

    É interessante anexar o banco de dados ao R por meio do comando

    attach(barley)

    Assim, as variáveis do banco de dados podem ser mais facilmente acessadas. Por exemplo, tente o comando para geração de gráficos de ramo-e-folhas,

    stem(yield)

    Tente com as outras variáveis e note que não funciona para variáveis categóricas (no R, factor).

    Para verificar a assimetria dos dados, podemos utilizar o comando

    quantile(yield, seq(0.1, 0.9, by=0.1))

    Para verificar a distância inter-quartílica:

    quantile(yield, c(0.25, 0.75))

    Tente o comando

    summary(yield[year==1931])

    Tente o comando abaixo e compare os dois anos:

    summary(yield[year==1932])

    Poderíamos determinar os locais mais produtivos nos dois anos, para verifica se houve coincidência:

    quantile(yield[year==1931], 0.9)
    quantile(yield[year==1932], 0.9)

    Uma ferramente poderosa é a função by, que aplica funções aos dados, após parti-lo em sub-categorias. Podemos calcular descritivas para os dados, por ano, usando a função by:

    by(barley, year, summary)

    Utilize a função by para calcular descritivas por outros fatores (variedade e local).

  2. Análise Exploratória Gráfica Univariada:

    Verifique o resultado dos seguintes comandos para análise gráfica:

    par(mfrow=c(2,1)) # divide tela gráfica em matriz 2 x 1
    plot(yield)
    plot(year)

    Experimente traçar histogramas por year e site:

    par(mfcol=c(3,2)) # divide tela gráfica em matriz 3 x 2
    yrange <- range(yield)
    limits <- seq(min(yield), max(yield), length=15)
    hist(yield[site=="Grand Rapids"& year==1931],
      xlim=yrange, breaks=limits, xlab="Grand Rapids em 1931")
    hist(yield[site=="Duluth"& year==1931],
      xlim=yrange, breaks=limits, xlab="Duluth em 1931")
    ...

    Mude o que precisa ser mudado e faça para os demais subconjuntos.

  3. Estatística Descritiva Multivariada:

    Analisaremos as relações entre variáveis examinando-as conjuntamente ou condicionando uma ao valor da outra. Vimos que a produção de cevada difere quando condicionamos ao ano 1931 somente, ou a 1932. Agora, exploraremos as relações em maior detalhe.

    Para verificar como uma variável está distribuída em duas dimensões, o R oferece as funções table e hist2d. Podemos determinar quão frequentemente diferentes combinações de year e site ocorrem digitando:

    table(year, site)

    Vemos que cada local teve dez plantações por ano. Se olharmos uma tabela tridimensional de year, site e variety, veremos que cada combinação ocorre exatamente uma vez. Verifique o resultado do comando abaixo:

    table(year, site, variety)

    Para tabularmos uma variável como yield, que é uma variável quantitativa, não utilizaríamos table, pois cada observação tenderia a formar sua própria categoria, com contagem unitária, já que todas possuem valores diferentes. A função hist2d categoriza os dados em intervalos, exatamente como hist, mas sem a representação gráfica. Pela ausência de duas variáveis quantitativas no banco de dados barley, faremos a tabulação de yield por ela mesma. A saída consiste em cinco elementos: os pontos médios das categorias x e y, a tabela contendo as contagens e dois vetores fornecendo os limites das categorias. Tente (talvez seja necessário carregar o pacote gplots, via menu Tools -> Install Packages):

    h2d <- hist2d(yield, yield, show=FALSE, nbins=c(5,5))
    h2d

    Podemos também tabular variáveis quantitativas utilizando arredondamentos. Podemos arredondar a produção para somente a parte inteira:

    yield.round <- round(yield, 0)

    Ou ao fator mais próximo de dez (note a diferença):

    yield.round <- round(yield, -1)

    Podemos checar o resultado pela tabulação da nova variável yield.round, que contém apenas os valores 10, 20, 30, 40, 50, 60 e 70:

    table(yield.round)

    Finalmente, podemos tabular variety contra yield.round (depois você talvez queira tabular variety contra a variável original yield, isto é, sem arredondar):

    table(variety, yield.round)

    Notamos que a maioria das produções são em torno de 30 bushels por acre, havendo somente uma produção na categoria de 70, da variedade No. 462. Entretanto, as variedades Wisc No. 38 e Trebi apresentam produções altas na sua maioria e somente umas poucas baixas. Utilizando a função by, podemos investigar este fato um pouco mais:

    by(yield, variety, summary)

    Fica evidente a superioridade produtiva das variedades Wisc No. 38 e Trebi.

  4. Análise Exploratória Gráfica Multivariada:

    Exploração de dados significa dispor os dados de diversar formas diferentes. O objetivo é detectar aspectos de interesse. Novos aspectos podem ser examinados posteriormente por meio de outros métodos ou por um retorno ao processo de amostragem e fonte dos dados. Comparemos graficamente as produções das localidades nas duas safras em 1931 e 1932. Escolhemos o comando boxplot. Estudando a documentação online da função notamos que a entrada esperada é uma lista de variáveis. Uma lista é criada pelo comando split. Assim, dividimos a variável yield por site e fornecemos o resultado como entrada para o boxplot. Como queremos produzir dois gráficos, um para 1931 e outro para 1932, primeiramente extraimos os dados para os anos e depois aplicamos o split:

    is.1931 <- year==1931 # True ou False, dependendo do ano 1931/1932
    data.split.31 <- split(yield[is.1931], site[is.1931])
    boxplot(data.split.31, main="Ano 1931", ylim=range(yield))
    data.split.32 <- split(yield[!is.1931], site[!is.1931])
    boxplot(data.split.32, main="Ano 1932", ylim=range(yield))

    A construção de boxplots em diferentes arranjos podem nos dar informações adicionais.

    Utilize a mesma técnica acima para fazer boxplots da produção para os diferentes locais e descobrir qual foi o único local a apresentar uma produção menor em 1931 do que em 1932.

Lista de Exercícios

Valendo como lista de exercícios, envie pelo Moodle um arquivo PDF com:

  • os gráficos gerados e

  • as saídas dos comandos testados.

Referências:

[1] E. A. Reis. Noções Básicas de S-PLUS for Windows®. RTE-03/1997, EST-ICEx-UFMG, Belo Horizonte, 1997 (disponível através da homepage de Relatórios Técnicos - Série Ensino, Departamento de Estatística, UFMG, ou em RTE-03/97).
[2] F. R. B. Cruz. Notas de Aula - O R. EST-ICEx-UFMG, Belo Horizonte, 2015. (disponível em O R).
Endereços:
Atenção:
O material aqui contido deve ser tomado como um guia bastante confiável do conteúdo do curso. Entretanto, você não poderá reivindicar quaisquer direitos baseado neste material. Em particular, reservo-me o direito de alterar datas, programação ou critério de avaliação. Avisos oficiais serão sempre aqueles feitos em sala de aula.

Saturday, 18-May-2024 06:27:17 -03
Last updated: March 04, 2024
Copyright © 2000-2024, F. R. B. Cruz. All Righs Reserved.