4 Dados
4.1 Processos de obtenção, importação, organização e transformação
- Obtenção: experimentos controlados, estudos observacionais, etc.
- Importação: armazenar (ou importar) os dados em um formato compatível com software utilizado, aqui utilizaremos o R.
- Organização: colocar os dados em uma estrutura consistente. Normalmente, cada linha é a uma observação e cada coluna é uma variável.
- Transformação: criar novas variáveis como função das variáveis existentes, restringir observações de interesse, calcular medidas resumo, etc.
Ordem Lançamento | Filme | Data | Duração | Bilheteria (Milhões) | Gênero |
---|---|---|---|---|---|
1 | Toy Story | 1995-11-22 | 81 | 373 | Aventura |
2 | Vida de inseto | 1998-11-25 | 95 | 363 | Comédia |
3 | Toy Story 2 | 1999-11-24 | 92 | 497 | Aventura |
4 | Monstros S. A. | 2001-11-02 | 92 | 632 | Aventura |
5 | Procurando Nemo | 2003-05-30 | 100 | 871 | Comédia |
6 | Os Incríveis | 2004-11-05 | 115 | 631 | Ação |
7 | Carros | 2006-06-09 | 117 | 461 | Esporte |
8 | Ratatouille | 2007-06-29 | 111 | 623 | Aventura |
9 | WALL-E | 2008-06-27 | 98 | 521 | Ficção Científica |
10 | Up Altas Aventuras | 2009-05-29 | 96 | 735 | Drama |
A tabela acima é uma versão reduzida do banco de dados “filmes_pixar”, disponível para download aqui. Este banco de dados foi elaborado para servir de base na construção de tabelas e gráficos nesse e nos próximos capítulos. Já a versão reduzida será usada para facilitar os cálculos e a resolução de exemplos na lousa, durante a aula.
4.2 Tipos de Variáveis
- Qualitativas: atributos não numéricos
- Nominal
- Nomes ou rótulos, sem uma relação de ordem
- Exemplos: Sexo, Religião, Cor dos Olhos, Time de Futebol
- Nomes ou rótulos, sem uma relação de ordem
- Ordinal
- As diferentes categorias podem ser colocados em ordem
- Exemplos: Faixa Etária, Escolaridade, Classe Social
- As diferentes categorias podem ser colocados em ordem
- Nominal
- Quantitativas: atributos numéricos
- Discretas
- Assume uma quantidade enumerável de valores
- Exemplos: Número de Filhos, Quantidade de Erros na Prova, Número de Livros Lidos em 2023
- Assume uma quantidade enumerável de valores
- Contínuas
- Assume uma quantidade não enumerável de valores
- Exemplos: Altura, Pressão, Tempo
- Assume uma quantidade não enumerável de valores
- Discretas
4.3 Tabelas de Frequências
- Tabela contendo frequências absolutas e/ou relativas de cada categoria de uma variável qualitativa.
Gênero | Freq | FreqRel |
---|---|---|
Aventura | 8 | 0.348 |
Ação | 2 | 0.087 |
Comédia | 4 | 0.174 |
Drama | 3 | 0.130 |
Esporte | 3 | 0.130 |
Ficção Científica | 1 | 0.043 |
Musical | 2 | 0.087 |
Pode-se afirmar que nesta amostra, o gênero predominante é aventura (34,7% dos filmes).
Para variáveis qualitativas ordinais, pode-se também considerar as frequências relativas acumuladas.
Também é possível fazer tabela de frequências para variáveis quantitativas discretas. Para algumas variáveis, como a duração do filme, poucos valores se repetem. Nesses casos, é comum agrupar os valores dessas variáveis em classes e calcular a frequência de cada classe.
Faixas_duração | Freq | FreqRel |
---|---|---|
80 |– 90 | 1 | 0.043 |
90 |– 100 | 12 | 0.522 |
101 |– 110 | 6 | 0.261 |
111 |– 120 | 4 | 0.174 |
- Por fim, para variáveis quantitativas contínuas, também podemos usar
Bilheteria_Mundial | Freq | FreqRel | FreqAcum |
---|---|---|---|
1.1 bilhão |– 1.3 bilhão | 1 | 0.043 | 0.043 |
300 milhões |– 500 milhões | 8 | 0.348 | 0.391 |
500 milhões |– 700 milhões | 6 | 0.261 | 0.652 |
700 milhões |– 900 milhões | 5 | 0.217 | 0.869 |
900 milhões |– 1.1 bilhão | 3 | 0.130 | 1.000 |
A quantidade e o tamanho das faixas é arbitrário. Contudo, um número muito pequeno de classes pode ocasionar perda de informação, enquanto um número muito grande de classes pode prejudicar o objetivo de resumir os dados.
Por fim, as faixas podem ter tamanhos diferentes. No entanto, a análise dessas classes deve ser feito com cuidado. A escolha de classes com tamanhos diferentes normalmente só é feita quando há poucas observações em algum intervalo.