7 Análise bivariada
Considere que o interesse agora é estudar a relação entre variáveis. Se não há associação entre duas ou mais variáveis, dizemos que elas são independentes.
Exemplo: suponha que deseja-se estudar se a cor da roupa (1: clara, 0: escura) está associado com gostar de basquete (1: sim, 0: não). Perguntei para 10 alunos da turma e os dados estão apresentados abaixo
7.1 Duas variáveis categóricas
Tabela de Contingência (de Frequências)
- Para variáveis categóricas, vamos primeiramente considerar tabelas de frequências.
##
## 0 1
## 0 4 1
## 1 2 3
Lembre-se que podemos pensam em independência com relação à distribuição conjunta ou à distribuição condicional.
Se o objetivo é estudar a distribuição conjunta, podemos considerar as frequências relativas ao tamanho total da amostra observada.
## Carregando pacotes exigidos: gtsummary
Basquete
|
Total | ||
---|---|---|---|
0 | 1 | ||
Camisa | |||
0 | 4 (40%) | 1 (10%) | 5 (50%) |
1 | 2 (20%) | 3 (30%) | 5 (50%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
- Se o objetivo é estudar a distribuição condicional, podemos considerar as frequências relativas ao total das linhas ou das colunas. Pelo desenho de nosso estudo, eu fixei o total de cada cor da camisa, então a tabela abaixo é construída com relação ao total das linhas.
# Tidyverse com porcentagens das linhas
dados_cap7 %>% tbl_cross(Camisa,Basquete,percent = "row") %>%
bold_labels()
Basquete
|
Total | ||
---|---|---|---|
0 | 1 | ||
Camisa | |||
0 | 4 (80%) | 1 (20%) | 5 (100%) |
1 | 2 (40%) | 3 (60%) | 5 (100%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
Correlação amostral
Podemos estimar a \(E[xY]\) como \(\displaystyle \frac{1}{n}\sum_{i=1}^n x_i~y_i\).
Assim, a \(COV(X,Y)\) pode ser estimada por \(\displaystyle cov = \frac{1}{n}\sum_{i=1}^n x_i~y_i - \bar{x}~\bar{y}\).
Analogamente, a correção amostral é \[cor = \dfrac{cov}{\sqrt{var(x)var(y)}} = \dfrac{\displaystyle \sum_{i=1}^n x_i~y_i - n~\bar{x}~\bar{y}}{\displaystyle \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2\sum_{j=1}^n(y_j-\bar{y})^2}}~.\]
No exemplo:
## [1] 0.4082483
Qui-Quadrado de Pearson
Sejam \(o_{ij}\) as frequências observadas na i-ésima linha e j-ésima coluna da tabela, \(o_{i.}\) o total observado na linha i e \(o_{.j}\) o total observado na coluna j. Sob a hipótese de independência, espera que o valor observado em cada casela da tabela seja \(\displaystyle e_{ij} = \frac{o_{i.}~o_{.j}}{n}\).
A estatística de Qui-Quadrado é dada por: \[Q^2 = \sum_i \sum_j \frac{(o_{ij}-e_{ij})^2}{e_{ij}}~.\]
No exemplo:
## X-squared
## 0.4166667