7 Análise bivariada

  • Considere que o interesse agora é estudar a relação entre variáveis. Se não há associação entre duas ou mais variáveis, dizemos que elas são independentes.

  • Exemplo: suponha que deseja-se estudar se a cor da roupa (1: clara, 0: escura) está associado com gostar de basquete (1: sim, 0: não). Perguntei para 10 alunos da turma e os dados estão apresentados abaixo

dados_cap7 <- tibble(Camisa=c(1,1,1,1,1,0,0,0,0,0),
                Basquete=c(1,0,1,0,1,0,0,0,1,0))

7.1 Duas variáveis categóricas

Tabela de Contingência (de Frequências)

  • Para variáveis categóricas, vamos primeiramente considerar tabelas de frequências.
# R base
tab1 <- table(dados_cap7$Camisa,dados_cap7$Basquete)
tab1
##    
##     0 1
##   0 4 1
##   1 2 3
  • Lembre-se que podemos pensam em independência com relação à distribuição conjunta ou à distribuição condicional.

  • Se o objetivo é estudar a distribuição conjunta, podemos considerar as frequências relativas ao tamanho total da amostra observada.

# Tidyverse
require(gtsummary)
## Carregando pacotes exigidos: gtsummary
dados_cap7 %>% tbl_cross(Camisa,Basquete,percent = "cell") %>% 
  bold_labels()
Basquete
Total
0 1
Camisa


    0 4 (40%) 1 (10%) 5 (50%)
    1 2 (20%) 3 (30%) 5 (50%)
Total 6 (60%) 4 (40%) 10 (100%)
  • Se o objetivo é estudar a distribuição condicional, podemos considerar as frequências relativas ao total das linhas ou das colunas. Pelo desenho de nosso estudo, eu fixei o total de cada cor da camisa, então a tabela abaixo é construída com relação ao total das linhas.
# Tidyverse com porcentagens das linhas
dados_cap7 %>% tbl_cross(Camisa,Basquete,percent = "row") %>% 
  bold_labels()
Basquete
Total
0 1
Camisa


    0 4 (80%) 1 (20%) 5 (100%)
    1 2 (40%) 3 (60%) 5 (100%)
Total 6 (60%) 4 (40%) 10 (100%)

Correlação amostral

  • Podemos estimar a \(E[xY]\) como \(\displaystyle \frac{1}{n}\sum_{i=1}^n x_i~y_i\).

  • Assim, a \(COV(X,Y)\) pode ser estimada por \(\displaystyle cov = \frac{1}{n}\sum_{i=1}^n x_i~y_i - \bar{x}~\bar{y}\).

  • Analogamente, a correção amostral é \[cor = \dfrac{cov}{\sqrt{var(x)var(y)}} = \dfrac{\displaystyle \sum_{i=1}^n x_i~y_i - n~\bar{x}~\bar{y}}{\displaystyle \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2\sum_{j=1}^n(y_j-\bar{y})^2}}~.\]

  • No exemplo:

cor(dados_cap7$Camisa,dados_cap7$Basquete)
## [1] 0.4082483

Qui-Quadrado de Pearson

  • Sejam \(o_{ij}\) as frequências observadas na i-ésima linha e j-ésima coluna da tabela, \(o_{i.}\) o total observado na linha i e \(o_{.j}\) o total observado na coluna j. Sob a hipótese de independência, espera que o valor observado em cada casela da tabela seja \(\displaystyle e_{ij} = \frac{o_{i.}~o_{.j}}{n}\).

  • A estatística de Qui-Quadrado é dada por: \[Q^2 = \sum_i \sum_j \frac{(o_{ij}-e_{ij})^2}{e_{ij}}~.\]

  • No exemplo:

chi2 = chisq.test(tab1)$statistic
chi2
## X-squared 
## 0.4166667