4 Dados

4.1 Processos de obtenção, importação, organização e transformação

  • Obtenção: experimentos controlados, estudos observacionais, etc.
  • Importação: armazenar (ou importar) os dados em um formato compatível com software utilizado, aqui utilizaremos o R.
  • Organização: colocar os dados em uma estrutura consistente. Normalmente, cada linha é a uma observação e cada coluna é uma variável.
  • Transformação: criar novas variáveis como função das variáveis existentes, restringir observações de interesse, calcular medidas resumo, etc.
Ordem Lançamento Filme Data Duração Bilheteria (Milhões) Gênero
1 Toy Story 1995-11-22 81 373 Aventura
2 Vida de inseto 1998-11-25 95 363 Comédia
3 Toy Story 2 1999-11-24 92 497 Aventura
4 Monstros S. A. 2001-11-02 92 632 Aventura
5 Procurando Nemo 2003-05-30 100 871 Comédia
6 Os Incríveis 2004-11-05 115 631 Ação
7 Carros 2006-06-09 117 461 Esporte
8 Ratatouille 2007-06-29 111 623 Aventura
9 WALL-E 2008-06-27 98 521 Ficção Científica
10 Up Altas Aventuras 2009-05-29 96 735 Drama

A tabela acima é uma versão reduzida do banco de dados “filmes_pixar”, disponível para download aqui. Este banco de dados foi elaborado para servir de base na construção de tabelas e gráficos nesse e nos próximos capítulos. Já a versão reduzida será usada para facilitar os cálculos e a resolução de exemplos na lousa, durante a aula.


4.2 Tipos de Variáveis

  1. Qualitativas: atributos não numéricos
    • Nominal
      • Nomes ou rótulos, sem uma relação de ordem
      • Exemplos: Sexo, Religião, Cor dos Olhos, Time de Futebol
    • Ordinal
      • As diferentes categorias podem ser colocados em ordem
      • Exemplos: Faixa Etária, Escolaridade, Classe Social
  2. Quantitativas: atributos numéricos
    • Discretas
      • Assume uma quantidade enumerável de valores
      • Exemplos: Número de Filhos, Quantidade de Erros na Prova, Número de Livros Lidos em 2023
    • Contínuas
      • Assume uma quantidade não enumerável de valores
      • Exemplos: Altura, Pressão, Tempo

4.3 Tabelas de Frequências

  • Tabela contendo frequências absolutas e/ou relativas de cada categoria de uma variável qualitativa.
Gênero Freq FreqRel
Aventura 8 0.348
Ação 2 0.087
Comédia 4 0.174
Drama 3 0.130
Esporte 3 0.130
Ficção Científica 1 0.043
Musical 2 0.087

Pode-se afirmar que nesta amostra, o gênero predominante é aventura (34,7% dos filmes).

  • Para variáveis qualitativas ordinais, pode-se também considerar as frequências relativas acumuladas.

  • Também é possível fazer tabela de frequências para variáveis quantitativas discretas. Para algumas variáveis, como a duração do filme, poucos valores se repetem. Nesses casos, é comum agrupar os valores dessas variáveis em classes e calcular a frequência de cada classe.

Faixas_duração Freq FreqRel
80 |– 90 1 0.043
90 |– 100 12 0.522
101 |– 110 6 0.261
111 |– 120 4 0.174
  • Por fim, para variáveis quantitativas contínuas, também podemos usar
Bilheteria_Mundial Freq FreqRel FreqAcum
1.1 bilhão |– 1.3 bilhão 1 0.043 0.043
300 milhões |– 500 milhões 8 0.348 0.391
500 milhões |– 700 milhões 6 0.261 0.652
700 milhões |– 900 milhões 5 0.217 0.869
900 milhões |– 1.1 bilhão 3 0.130 1.000
  • A quantidade e o tamanho das faixas é arbitrário. Contudo, um número muito pequeno de classes pode ocasionar perda de informação, enquanto um número muito grande de classes pode prejudicar o objetivo de resumir os dados.

  • Por fim, as faixas podem ter tamanhos diferentes. No entanto, a análise dessas classes deve ser feito com cuidado. A escolha de classes com tamanhos diferentes normalmente só é feita quando há poucas observações em algum intervalo.