1 Introdução

Dizemos que 2 variáveis estão associadas quando a distribuição de uma delas muda quando os valores ou categorias da outra variável também mudam. As ferramentas utilizadas para explorar e descrever a associação entre 2 variáveis depende dos tipo das variáveis envolvidas. Vamos exemplificar o uso dessas ferramentas usando a planilha de dados mtcars para 3 situações distintas: 1) caso de uma variável quantitativa e 1 variável qualitativa, 2) caso de 2 variáveis qualitativas, 3) caso de 2 variáveis quantitativas.

1.1 Caso de uma variável quantitativa e uma variável qualitativa

Usando o conjunto de dados mtcars vamos explorar a existência de associação entre o rendimento de combustivel, variável mpg, e o tipo de transmissão, variável am. Em situações como essa, onde uma variável é quantitativa e a outra qualitativa, comparamos a distribuição da variável quantitativa entre as categorias da variavel qualitativa. Para isso calculamos medidas descritivas e construímos gráficos (histogramas, boxplots, etc) da variável quantitativa para as diferentes categorias da variável qualitativa.

A seguir apresentamos o código R utilizado para obtenção dos histogramas e boxplots da variável mpgpara cada categoria da variável am.

par(mfrow=c(2,2))
hist(mtcars$mpg[mtcars$am==0],freq=FALSE,xlim=c(10,34),breaks=seq(10,34,2),main="",xlab="Rendimento (milhas/galão)")
title(c("Distribuição do Rendimento de Combustivel"," para modelos com transmissão automática"),cex=0.7)
hist(mtcars$mpg[mtcars$am==1],freq=FALSE,xlim=c(10,34),breaks=seq(10,34,2),main="",xlab="Rendimento (milhas/galão)")
title(c("Distribuição do rendimento de combustivel", "para modelos com transmissão manual"),cex=0.7)
boxplot(mtcars$mpg~mtcars$am,names=c("automática","manual"),main=c("Distribuição do rendimento de","combustível por tipo de transmissão"),ylab="Rendimento", xlab="Tipo de Transmisão",cex=0.7)

Especificamos para construção do boxplot as variáveis Y, mtcars$mpg, e X, mtcars$am, através da fórmula Y~x (mtcars$mpg~mtcars$am), onde Y e X são respectivamente a variáveis quantitativa e qualitativa de interesse. Para dividir o título do gráfico entre 2 linhas atribuímos ao argumento main um vetor com 2 elementos, o primeiro contendo o texto da primeira linha e o segundo o texto da segunda linha.

Para obtermos as medidas descritivas da variável mpg por tipo de transmissão vamos usar a função stby do pacote summarytoools, similar à função by, vista anteriormente. Os argumentos dessa função são as variáveis quantitativa e qualtitativa de interesse e a função a ser executada. Nesse caso usamos a função descr do pacote summarytools que retorna várias medidas descritivas.

library(summarytools)

## Warning: package 'summarytools' was built under R version 4.0.5

stby(mtcars$mpg,factor(mtcars$am,labels=c("automatica","manual")),descr,stats="common")

## Descriptive Statistics  
## mpg by am, labels = c(automatica, manual))  
## Data Frame: mtcars  
## N: 19  
## 
##                   automatica   manual
## --------------- ------------ --------
##            Mean        17.15    24.39
##         Std.Dev         3.83     6.17
##             Min        10.40    15.00
##          Median        17.30    22.80
##             Max        24.40    33.90
##         N.Valid        19.00    13.00
##       Pct.Valid       100.00   100.00

Quando fazemos stats="common" a função descrretorna as estatísticas apresentadas acima. Podemos também especificar as estatisticas de interesse especificando em stats um vetor com os nomes das funções correspondentes à elas. Com o argumento transpose podemos mudar a disposição da estatisticas. Quando transpose=TRUE as estatísticas descritivas são organizadas nas colunas da tabela. A seguir obtemos a média, o desvio padrão e o coeficiente de variação da variável mpg para as diferentes categorias da variável am.

library(summarytools)
stby(mtcars$mpg,factor(mtcars$am,labels=c("automatica","manual")),descr,stats=c("mean", "sd","CV"), transpose=TRUE)

## Descriptive Statistics  
## mpg by am, labels = c(automatica, manual))  
## Data Frame: mtcars  
## N: 19  
## 
##                     Mean   Std.Dev     CV
## ---------------- ------- --------- ------
##       automatica   17.15      3.83   0.22
##           manual   24.39      6.17   0.25

1.2 Caso de 2 variáveis qualitativas

Considere as variáveis qualitativas tipo de motor e tipo de transmissão. Na ausência de associação entre essas variáveis a distribuição do tipo de motor deve ser a mesma para todas as categorias do tipo de transmissão. Quando isso acontece, a distribuição do tipo de transmissão também deve ser a mesma para todos as categorias de tipo de motor.

Então, quando temos 2 variáveis qualitativas, o primeiro passo para a investigação da existência de associação entre elas é a obtenção da distribuição de frequência de uma delas para cada uma das categorias da outra variável, para então compará-las.

Para investigar a associação entre tipo de transmissão e tipo de motor podemos:

Comparar as distribuições do tipo de transmissão entre as categorias de tipos de motor, ou
Comparar as distribuições do tipo de motor entre as categorias de tipo de transmissão.

Antes de ver como fazer isso no R, vamos mostrar como obter a distribuição de frequências conjuntas de 2 variáveis qualitativas no R e como representá-la no diagrama de barras. Para isso vamos considerar as variáveis am e vs do conjunto de dados mtcars.

Primeiramente vamos obter uma tabela de classificação cruzada das 2 variáveis usando a função table. A primeira variável é representada nas linhas da tabela e a segunda nas colunas. A função dimnames, utilizada para nomear as dimensões de matrizes, será usada para atribuir nomes às 2 dimensões da tabela.

tabela=table(mtcars$am, mtcars$vs)
dimnames(tabela)=list("Tipo de transmissao"=c("automatica","manual"),"Configuração do Motor"=c("forma de V","outra forma"))
tabela

##                    Configuração do Motor
## Tipo de transmissao forma de V outra forma
##          automatica         12           7
##          manual              6           7

Essa tabela nos retorna as frequências de ocorrência conjunta das categorias das 2 variáveis. Por exemplo, 12 ($37,5 \%$) modelos de automóveis apresentaram transmissão automatica e configuração do motor em forma de V. Parar obter frequências relativas, usamos a função prop.table aplicada a tabela contendo as frequências absolutas.

tabela1 = prop.table(tabela)
tabela1

##                    Configuração do Motor
## Tipo de transmissao forma de V outra forma
##          automatica    0.37500     0.21875
##          manual        0.18750     0.21875

A distribuição conjunta das 2 variáveis pode ser vizualizada através do diagrama de barras, como mostrado abaixo para as variáveis tipo de motor e tipo de transmissão. Fizemos o argumento legend = TRUE para incluir uma legenda para a segunda variável. Em args.legend definimos os argumentos da legenda: posição, número de categorias da variável representada e titulo. O argumento beside feito igual a TRUE estabelece que as barras representando as frequências de cada categoria devem ser apresentadas lado a lado e não empilhadas (beside = FALSE).

barplot(tabela1* 100,col=c("lightblue","darkblue"),legend=TRUE, ylim=c(0,100), args.legend = list(x='topright', ncol=2,title="Tipo de Transmissão"),beside=TRUE)
title(ylab="%",xlab="Configuração do Motor", main=c("Distribuição conjunta percentual das variáveis","tipo de transmissão e tipo de configuração do motor"))

Vimos acima como obter as frequências conjuntas, absolutas e relativas, através das funções table e prop.table. Estas frequências são mais facilmente obtidas com a função ctable do pacote summarytools fazendo o argumento prop igual a t. Para obter somente as frequências absolutas faça prop igual a n.

library(summarytools)
ctable(x=factor(mtcars$am,labels=c("automática","manual")),y=factor(mtcars$vs,labels=c("forma de V", "outra forma")), prop="t",dnn=c("tipo de transmissão", "tipo de motor"))

## Cross-Tabulation, Total Proportions  
## tipo de transmissão * tipo de motor  
## 
## --------------------- --------------- ------------ ------------- -------------
##                         tipo de motor   forma de V   outra forma         Total
##   tipo de transmissão                                                         
##            automática                   12 (37.5%)     7 (21.9%)   19 ( 59.4%)
##                manual                    6 (18.8%)     7 (21.9%)   13 ( 40.6%)
##                 Total                   18 (56.2%)    14 (43.8%)   32 (100.0%)
## --------------------- --------------- ------------ ------------- -------------

Para avaliar a associação entre as variáveis tipo de motor e tipo de transmissão vamos obter as distribuições relativas do tipo de transmissão para cada tipo de motor. Isso pode se feito usando o mesmo código usado para obter a última tabela, mas fazendo prop = "r", r de row (linha), como mostrado abaixo.

library(summarytools)
ctable(x=factor(mtcars$am,labels=c("automática","manual")),y=factor(mtcars$vs,labels=c("forma de V", "outra forma")), prop="r",dnn=c("tipo de transmissão", "tipo de motor"))

## Cross-Tabulation, Row Proportions  
## tipo de transmissão * tipo de motor  
## 
## --------------------- --------------- ------------ ------------- -------------
##                         tipo de motor   forma de V   outra forma         Total
##   tipo de transmissão                                                         
##            automática                   12 (63.2%)     7 (36.8%)   19 (100.0%)
##                manual                    6 (46.2%)     7 (53.8%)   13 (100.0%)
##                 Total                   18 (56.2%)    14 (43.8%)   32 (100.0%)
## --------------------- --------------- ------------ ------------- -------------

Na primeira linha da tabela temos a distribuição percentual dos tipos de configuração do motor para os modelos de automóveis com transmissão automática, e na segunda linha para os automóveis com transmissão manual. Na terceira linha temos a distribuição dessa variável para a totalidade dos modelos estudados.

Observe que a distribuição proporcional do tipo de motor não é a mesma para os 2 tipos de transmissão, os motores em forma de V ocorrem mais frequentemente em modelos de automóveis com transmissão automática do que entre aqueles com transmissão manual. Isto indica a existência de associação entre as 2 variáveis. Quando os dados referem-se a uma amostra é importante verificar se as diferenças entre as as distribuições não são resultado puramente do acaso, o que pode ser verificado com a realização do teste Qui-Quadrado, assunto que será tratado em outro capitulo.

Se o interesse for comparar as distribuições proporcionais do tipo de transmissão para cada tipo de motor é so fazer prop = "c", c de column (coluna).

library(summarytools)
ctable(x=factor(mtcars$am,labels=c("automática","manual")),y=factor(mtcars$vs,labels=c("forma de V", "outra forma")), prop="c",dnn=c("tipo de transmissão", "tipo de motor"))

## Cross-Tabulation, Column Proportions  
## tipo de transmissão * tipo de motor  
## 
## --------------------- --------------- ------------- ------------- -------------
##                         tipo de motor    forma de V   outra forma         Total
##   tipo de transmissão                                                          
##            automática                   12 ( 66.7%)    7 ( 50.0%)   19 ( 59.4%)
##                manual                    6 ( 33.3%)    7 ( 50.0%)   13 ( 40.6%)
##                 Total                   18 (100.0%)   14 (100.0%)   32 (100.0%)
## --------------------- --------------- ------------- ------------- -------------

Para efeitos de avaliação da associação entre as variáveis, as 2 últimas tabelas levam à conclusões equivalentes. A escolha de qual tabela considerar depende do desenho do estudo e do interesse do pesquisador.

A comparação das distribuições proporcionais obtidas nas tabelas acima pode ser apresentada na forma de diagramas de barras. Para comparar essas distribuições vamos obter a tabela com as frequências relativas usando a função prop.table. Para construção do diagrama de barras as distribuições proporcionais a serem comparadas devem sempre estar nas colunas da tabela, pois este é o padrão estabelecido na função barplot. Isso é feito fazendo o argumento margin = 2. Quando margin=1 as proporções serão calculadas fixando os totais das linhas.

# obtendo a tabela de frequencias absolutas
tabela=table(mtcars$vs,mtcars$am)
dimnames(tabela)=list("configuração do motor"=c("forma de V","outra forma"), "Tipo de transmissao"=c("automatica","manual"))
# obtendo a tabela de frequências relativas fixando as colunas da tabela 
tabela2=prop.table(tabela, margin=2)
# construindo o diagrama de barras
barplot(tabela2*100,col=c("lightblue","darkblue"),ylim=c(0,100), legend=TRUE, args.legend= list(x="top", ncol=2,title="Configuração do Motor ",legend=c("forma de V","outra forma"),fill=c("lightblue","darkblue"),cex=0.7))
title(ylab="%",xlab="Tipo de Transmissão", main=c("Distribuição percentual do tipo de configuração do motor","segundo o tipo de transmissão"))

Outro gráfico útil para representar tabelas de frequências é o grafico de mosaicos. Ele é similar ao gráfico de barras que construímos acima, com a diferença que as colunas possuem larguras proporcionais às frequencias das categorias da variável representada no eixo das abcissas. Para construí-lo aplicamos a função plot à tabela contendo as frequências conjuntas, não importando se são frequências absolutas ou relativas.

plot(tabela1, xlab="tipo de transmissão", ylab="configuração do motor", col=c("lightblue","darkblue"),main=c("Grafico de mosaicos para as variáveis tipo","de tranmisssão e configuração do motor"))

No gráfico acima nota-se que os modelos de transmissão automática são mais frequentes na base de dados que os modelos de transmissão manual. Também nota-se que os motores com configuração em forma de V são mais frequentes entre os modelos com transmisssão automática do que entre aqueles com transmissão manual.

1.3 Caso de 2 variaveis quantitativas

Vimos como descrever e comparar as distribuições de uma variável quantitativa entre as categorias de uma variável qualitativa através do boxplot. Quando temos 2 variáveis quantitativas, tais como peso do automóvel e rendimento de combustível, que tipo de gráfico podemos construir para avaliar as mudanças ocorridas em uma das variáveis quando os valores da outra variável mudam?

Um dos gráficos adequados para isto é o diagrama de dispersão. Apresentamos a seguir o diagrama de dispersão para as variáveis rendimento de combustível e peso dos automóveis, construído utilizando a função plot.

plot(mpg ~ wt, main= c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)", data = mtcars)

Nesse gráfico, cada ponto corresponde a uma observação, que neste exemplo trata-se de um automóvel. Ele indica que o rendimento, em milhas percorridas por galão, tende a diminuir com o aumento do peso dos automóveis, como esperado. Dizemos que variáveis rendimento de combustível e peso dos automóveis apresentam associação linear negativa. Linear porque a disposição dos pontos no gráfico apresenta uma configuração próxima de uma reta e negativa porque a variável presente no eixo y, rendimento de combustivel, tende a diminuir quando a variável representada no eixo x, peso dos automóveis, aumenta.

A cor e o tipo de marcador dos pontos são estabelecidos através dos argumentos col e pch, respectivamente. O símbolo usado para o marcador pode ser escolhido de uma lista de símbolos, visualizada executando o código help(points). O valor 6 para pch corresponde ao símbolo do triângulo invertido. Experimente outros valores. O marcador também pode ser escolhido como um caracter, por exemplo `pch=“x”.

plot(mpg ~ wt, main= c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)",data = mtcars,col= "red", pch=6)

Podemos identificar com cores diferentes os pontos do gráfico correspondentes às diferentes categorias de uma terceira variável, como por exemplo a variável nùmero de cilindros (cyl). Isso foi feito especificando entre colchetes, em frente ao vetor contendo as cores, o nome da variável cujas categorias correpondem a cada uma das cores. Acrescentamos no gráfico a legenda com a função legend(), cujo primeiro argumento informa a posição da legenda no gráfico.

plot(mpg~wt, main=c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)",pch=16, col=c(2:4)[factor(cyl)],data=mtcars)
legend("topright",title="No de cilindros",pch=16, col=c(2:4),legend=c(4,6,8))

Abaixo apresentamos o gráfico do rendimento de combustível versus peso dos automóveis com símbolos e cores diferentes para os 2 tipos de transmissão.

plot(mpg~wt, main=c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)",pch=c(16,17)[factor(am)], col=c(2,4)[factor(am)],data=mtcars)
legend("topright",title="Transmissão ",pch=c(16,17), col=c(2,4),legend=c("Automática", "Manual"))

Há diferentes maneiras de se acrescentar uma grade de linhas no gráfico. Podemos fazer isto usando a função abline(), que adiciona linhas ao gráfico. Com o argumento v adicionamos linhas verticais, com h, linhas horizontais, e com lty especificamos o tipo de linha.

plot(mpg~wt, main=c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)",pch=c(16,17), col=c(2,4)[factor(am)],data=mtcars)
legend("topright",title="Transmissão ",pch=c(16,17), col=c(2,4),legend=c("Automática", "Manual"))
abline(h=seq(10,40,5),v=2:5,lty=6, col="gray")

Com o comando abline também podemos acrecentar ao gráfico as linhas correspondentes aos valores médios da variaveis que constam dos eixos Y e X, como mostrado abaixo. A função mtext foi usada para incluir os valores médios nas margens do gráfico. O argumento sidedefine a margem do grafico (1 = inferior, 2 = superior, 3 - esquerda e 4 = direita), line e at definem a linha e o ponto onde o texto será posicionado.

plot(mpg~wt, main=c("Rendimento de combustivel versus peso dos automóveis"), ylab="Rendimento de combustível (mpg)", xlab = "Peso (mil libras)",pch=c(16,17), col=c(2,4)[factor(am)],data=mtcars)
legend("topright",title="Transmissão ",pch=c(16,17), col=c(2,4),legend=c("Automática", "Manual"))
abline(h=seq(10,40,5),v=2:5,lty=6, col="gray")
abline(h=mean(mtcars$mpg),col=2)
abline(v=mean(mtcars$wt),col=2)
mtext(round(mean(mtcars$wt),2),at=mean(mtcars$wt),line=1,side=1,col=2)
mtext(round(mean(mtcars$mpg),2),at=mean(mtcars$mpg),line=1,side=4,col=2)

Para realizar simultaneamente a descrição de cada uma das variáveis e a relação existente entre elas, uma boa opção é combinar numa mesma figura o diagrama de dispersão com os boxplots, o que pode ser feito com a função scatterplot do pacote car. O argumento boxplots define a inclusão dos boxplots na figura. As opções para esse argumento são: xy, para incluir boxplots para ambas as variáveis, x (y) para incluir boxplot somente para a variável presente no eixo x ( eixo y) do grafico, n para suprimí-los.

Para as variáveis peso do automóvel (wt) e relaçao do eixo traseiro (drat), que mede o número de vezes que o eixo traseiro gira para cada giro da roda, fazemos:

library(car) # para carregar o pacote
scatterplot(wt~drat, smooth=F, regLine= F, data=mtcars, col=2,pch=16, boxplots="xy", xlab="Relação eixo traseiro", ylab="Peso (1000 libras)")
title("Peso do Automóvel versus Relação do Eixo Traseiro")

Com a função “scatterplot”", a atribuição de cores diferentes a diferentes grupos de observações é facilmente realizada aumentando a fórmula que define o gráfico (y ~ x) do termo factor(grupo), como mostrado abaixo para o caso onde y é o peso do automóvel (wt), x é a relação do eixo traseiro (drat) e a variável que define os grupos é o tipo de transmissão (am).

scatterplot(wt~drat+factor(am), smooth=F, regLine= F,  col=1:2,pch=c(16,16), xlab="Relação eixo traseiro", ylab="Peso (1000 libras)",data=mtcars,legend=F,boxplots="n")
title("Peso do Automóvel versus Relação do Eixo Traseiro")
legend("topright",col=1:2,pch=c(16,16),title="Tipo de transmissão", legend=c("Automática","Manual"))

Considere agora o diagrama de dispersão entre as variáveis potência bruta, medida em cavalos de potências (hp) e peso do automóvel.

scatterplot(hp~wt, smooth=F, regLine= F, data=mtcars, col=2,pch=16, ylab="Potência bruta (hp)",boxplots="n", xlab="Peso (1000 libras)")
title("Potência bruta versus Peso do Automóvel")

O gráfico acima indica a existência de associação linear positiva entre as variáveis potência e peso do automóvel, com a potência bruta tendendo a aumentar com o aumento do peso do automóvel.

Podemos quantificar a associação entre 2 variáveis quantitativas X e Y calculando o coeficiente de correlação linear de Pearson, $r_{xy}$, dado pela expressão.

\[r_{xy} = \frac{s_{xy}}{s_x \times s_y} = \frac{\frac{\sum_{i}^{n}{(x_i-\bar{x})}{(y_i-\bar{y})}}{n-1}} {\sqrt{\frac{\sum_{i}^{n}{(x_i-\bar{x})}^2}{n-1}} \times {\sqrt{\frac{\sum_{i}^{n}{(y_i-\bar{y})}^2}{n-1}}}}=\frac{\sum_{i}^{n}{(x_i-\bar{x})}{(y_i-\bar{y})}}{\sqrt{\sum_{i}^{n}{(x_i-\bar{x})}^2} \times {\sqrt{\sum_{i}^{n}{(y_i-\bar{y})}^2}}}\]

No numerador dessa expressão temos a covariância amostral entre as variáveis X e Y, $s_{xy}$, e no denominador o produto dos seus desvios padrão, $s_x$ e $s_y$. A covariância amostral também é uma medida de associação linear, assumindo valores entre $-\infty$ e $\infty$ e tendo como unidade de medida o produto das das unidades de medidas das 2 variáveis covariável, o que torna-a de diícil interpretação e pouco útil para comparação das intensidade de associação entre pares de variáveis diferentes.

Quando a covariância é dividida pelo produto dos desvios padrão obtemos uma outra medida de associação linear, o coeficiente de correlação, que é mais fácil de interpretar. Ele não possui unidade de medida e assume valores entre -1 e 1. Um coeficiente de correlação igual a zero indica ausência de associação linear entre as variáveis, um coeficiente de correlação igual a 1 indica associação linear perfeita positiva e um valor igual a -1 associação linear perfeita negativa positiva entre as 2 variáveis. Uma associação linear é perfeita quando cada valor de X corresponde a um único valor de Y e os pontos no diagrama de dipersão estão distribuídos exatamente ao longo de uma reta. Quanto mais proximo de 1 estiver o coeficiente de correlação, maior é a intensidade da associação linear entre as variáveis.

Para obter a covariância entre as variáveis peso do automóvel e rendimento de combustível usamos a função cov, como mostrado abaixo.

cov(mtcars$hp,mtcars$wt)

## [1] 44.19266

A seguir calculamdos a correlação entre essas 2 variáveis dividindo a covariância pelo produto dos desvios padrão e também usando a função cor.

r = cov(mtcars$hp,mtcars$wt)/sd(mtcars$hp)*sd(mtcars$wt)
r

## [1] 0.6306714

cor(mtcars$hp,mtcars$wt)

## [1] 0.6587479

A covariância entre número de cavalos de potência bruta do motor e rendimento do comustivel é igual a $s_xy = 44,19$ milhas/galão x número de cavalos de potência. O coeficiente de correlação linear, $r_xy = 0,6587$, indica uma associação linear moderada entre as variáveis.

A funções cov e cor quando aplicadas a um dataframe retornam respectivamente a matriz de variâncias e covariâncias e a matriz de correlações entre os pares de variáveis. como exemplo, vamos obter as correlações para todos os pares de variáveis contidas no dataframe contendo as variáveis wt, mpg e hp.

cov(subset(mtcars, select=c(mpg,wt,hp)))

##             mpg        wt         hp
## mpg   36.324103 -5.116685 -320.73206
## wt    -5.116685  0.957379   44.19266
## hp  -320.732056 44.192661 4700.86694

cor(subset(mtcars, select=c(mpg,wt,hp)))

##            mpg         wt         hp
## mpg  1.0000000 -0.8676594 -0.7761684
## wt  -0.8676594  1.0000000  0.6587479
## hp  -0.7761684  0.6587479  1.0000000

Observe que ambas as matrizes são simétricas, isso é COV(X,Y)=COV(Y,X) e COR(X,Y)=COR(Y,X). Na matriz de variâncias e covariâncias os valores dados na diagonal principal são as variâncias e os valores fora dessa diagonal as covariâncias. Por exemplo a variância da variável mpg é igual a $s_{xy}[1,1] = 36,32 \quad (milhas/galão)^2$ e a covariância entre mpg e wt é igual a \[s_{xy}[1,2] = s_{xy}[2,1] = -5,1166 \quad milhas/galão \times 1000 libras\].

Na matriz de correlação os valores da diagonal principal são todos iguais a 1, pois medem a correlação da variavel com ela mesma. A correlação entre as variáveis mpg e wt é igual a \[r_{xy}[1,2] = r_{xy}[2,1] = -0,8776\].

Observe que maior a maior correlação linear foi observada para o par de variáveis mpg e hp, e que a variável mais fortemente associada com o rendimento de combustível foi o peso do automóvel. Como exercicio, faça os diagrama de dispersão e calcule as covariâncias e correlações para outros pares de variáveis quantitativas do arquivo mtcars.

Quando houver valores faltantes para alguma das variáveis, as funções cov e cor retornam mensagens de erros. Nesse caso deve-se usar o argumento na.rm para especificar como será feito o cálculos das covariâncias e ou correlações. Use as funções de ajuda para ver as opções disponíveis para esse argumento.

Introdução ao uso do R - Explorando a associação entre 2 ou mais variáveis

Desenvolvido pelos alunos Bruno Rodrigues Lopes e Maria Eduarda Vila Boas, bolsistas do programa de monitoria PMG da Pro-Reitoria de Graduação da UFMG, sob a supervisão do Prof. Aloisio Joaquim Freitas Ribeiro, ano 2022.

1 Introdução

1.1 Caso de uma variável quantitativa e uma variável qualitativa

1.2 Caso de 2 variáveis qualitativas

1.3 Caso de 2 variaveis quantitativas