8 Medidas de duas variáveis
8.1 Tabela de Contingência (de Frequências)
- Para variáveis categóricas, vamos primeiramente considerar tabelas de frequências.
##
## 0 1
## 0 4 1
## 1 2 3
Lembre-se que podemos pensam em independência com relação à distribuição conjunta ou à distribuição condicional.
Se o objetivo é estudar a distribuição conjunta, podemos considerar as frequências relativas ao tamanho total da amostra observada.
# Tidyverse
require(gtsummary)
dados_cap7 %>% tbl_cross(Camisa,Basquete,percent = "cell") %>%
bold_labels()
Basquete
|
Total | ||
---|---|---|---|
0 | 1 | ||
Camisa | |||
0 | 4 (40%) | 1 (10%) | 5 (50%) |
1 | 2 (20%) | 3 (30%) | 5 (50%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
- Se o objetivo é estudar a distribuição condicional, podemos considerar as frequências relativas ao total das linhas ou das colunas. Pelo desenho de nosso estudo, eu fixei o total de cada cor da camisa, então a tabela abaixo é construída com relação ao total das linhas.
# Tidyverse com porcentagens das linhas
dados_cap7 %>% tbl_cross(Camisa,Basquete,percent = "row") %>%
bold_labels()
Basquete
|
Total | ||
---|---|---|---|
0 | 1 | ||
Camisa | |||
0 | 4 (80%) | 1 (20%) | 5 (100%) |
1 | 2 (40%) | 3 (60%) | 5 (100%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
8.2 Correlação amostral
Podemos estimar a \(E[xY]\) como \(\displaystyle \frac{1}{n}\sum_{i=1}^n x_i~y_i\).
Assim, a \(COV(X,Y)\) pode ser estimada por \(\displaystyle cov = \frac{1}{n}\sum_{i=1}^n x_i~y_i - \bar{x}~\bar{y}\).
Analogamente, a correção amostral é \[cor = \dfrac{cov}{\sqrt{var(x)var(y)}} = \dfrac{\displaystyle \sum_{i=1}^n x_i~y_i - n~\bar{x}~\bar{y}}{\displaystyle \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2\sum_{j=1}^n(y_j-\bar{y})^2}}~.\]
No exemplo:
## [1] 0.4082483
8.3 Qui-Quadrado de Pearson
Sejam \(o_{ij}\) as frequências observadas na i-ésima linha e j-ésima coluna da tabela, \(o_{i.}\) o total observado na linha i e \(o_{.j}\) o total observado na coluna j. Sob a hipótese de independência, espera que o valor observado em cada casela da tabela seja \(\displaystyle e_{ij} = \frac{o_{i.}~o_{.j}}{n}\).
A estatística de Qui-Quadrado é dada por: \[Q^2 = \sum_i \sum_j \frac{(o_{ij}-e_{ij})^2}{e_{ij}}~.\]
No exemplo:
## X-squared
## 0.4166667
8.4 Medidas de Associação baseadas no Qui-Quadrado
Basquete
|
Total | ||
---|---|---|---|
0 | 1 | ||
Camisa | |||
0 | 4 (40%) | 1 (10%) | 5 (50%) |
1 | 2 (20%) | 3 (30%) | 5 (50%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
8.5 Outras Medidas de Associação
- Considere um contexto em que deseja-se avalia a presença de um desfecho (ter um determinado cancer, gostar de basquete, etc) na presença de um fator de risco (fumar, usar roupa clara).
require(kableExtra)
tibble('Fator de Risco' = c("Não", "Sim"),
'Sem o Desfecho' = c("(1-q)", "(1-p)"),
'Com o Desfecho' = c("q", "p")) %>%
kbl(align = 'c', format = "html", booktabs = TRUE)%>%
kable_styling(
bootstrap_options = c("striped","hover", "bordered", "condensed"),
latex_options = c("striped"))
Fator de Risco | Sem o Desfecho | Com o Desfecho |
---|---|---|
Não | (1-q) | q |
Sim | (1-p) | p |
8.5.1 Risco Atribuível
- \(RA = p - q\): é a diferença entre as probabilidades de ter a doença dado a presença do fator de risco e de ter a doença sem fator de risco.
- No exemplo:
\[RA = \frac{3}{5} - {1 \over 5} = \frac{2}{5}\]
8.5.2 Risco Relativo
- \(RR = p/q\): é quantas vezes é mais provavél ter a doença tendo o fator de risco em relação a quem não tem.
- No exemplo:
\[RR = \frac{3/5}{1/5} = 3 \]
8.5.3 Razão de Chances (“Odds Ratio”)
- Os termos probabilidade e chance são sinônimos mas, por convenção, usaremos a notação \(3:2 ~``="~ \dfrac{3}{5}\), sendo que \(3:2 = \dfrac{3/5}{2/5}\) denotará a chance e \(\dfrac{3}{5}\) a probabilidade.
\[OR ~=~ \frac{p}{(1-p)} \div \frac{q}{(1-q)} ~=~ \frac{p(1-q)}{q(1-q)}\]
- No exemplo:
\[OR ~=~ \frac{3/5}{2/5} \div \frac{1/5}{4/5} ~=~ \frac{3}{2} \div {1 \over 4} ~=~ \frac{3}{2} ~.~ \frac{4}{1} = 6\]
8.6 Medidas para Testes de Diagnóstico
Considere um teste para uma determinada doença, de modo que o resultado do teste pode ser 1: Positivo e 0: Negativo e o indivíduos podem estar 1: Doente ou 0: Não Doente.
require(gtsummary)
dados <- tibble(Teste = c(1,1,1,1,1,0,0,0,0,0),
Doente = c(1,0,1,0,1,0,0,0,1,0))
dados %>% tbl_cross(Teste, Doente, percent = "cell") %>%
bold_labels()
Doente
|
Total | ||
---|---|---|---|
0 | 1 | ||
Teste | |||
0 | 4 (40%) | 1 (10%) | 5 (50%) |
1 | 2 (20%) | 3 (30%) | 5 (50%) |
Total | 6 (60%) | 4 (40%) | 10 (100%) |
As medidas a seguir são bastante utilizadas no contexto de testes de diagnósticos:
8.6.1 Sensibilidade
\(S = P(Teste = 1 ~|~ Doente = 1)\)
* estimativa: \(s = \dfrac{o_{22}}{o_{\bullet 2}}\)
* no exemplo: \(s = \dfrac{3}{4}\)
8.6.2 Especificidade
\(E = P(Teste = 0 ~|~ Doente = 0)\)
- estimativa: \(e = \dfrac{o_{11}}{o_{\bullet 1}}\)
- no exemplo: \(e = \dfrac{4}{6}\)
8.6.3 Falso Positivo
\(FP = P(Teste = 1 ~|~ Doente = 0)\)
- estimativa: \(fp = \dfrac{o_{21}}{o_{\bullet 1}}\)
- no exemplo: \(fp = \dfrac{2}{6}\)
8.6.4 Falso Negativo
\(FN = P(Teste = 0 ~|~ Doente = 1)\)
- estimativa: \(fn = \dfrac{o_{12}}{o_{\bullet 2}}\)
- no exemplo: \(fn = \dfrac{1}{4}\)
8.6.5 Valor Preditivo Positivo
\(VPP=P(Doente=1~|~Teste=1)\)
- estimativa: \(vpp = \dfrac{o_{22}}{o_{2 \bullet}}\)
- no exemplo: \(vpp = \dfrac{3}{5}\)