Dados públicos

Recentemente foi enviado um e-mail a lista de R perguntando por dados públicos (link). Mesmo trabalhando há mais de 1 ano com alguns desses dados, algumas das respostas eu não conhecia e por isso resolvi fazer um agregado das respostas e postar aqui no blog. Junto com as fontes, postarei links de postagens que fazem alguma análise nos bancos informados e algumas ressalvas sobre os bancos.

Instituto Brasileiro de Geografia e Estatística (IBGE)

Impossível começar uma lista com fontes de dados estatísticos sem ser pelo IBGE. Por ser uma das fontes que apresenta mais dados, muitas vezes o acesso a esses dados se torna difícil. Uma das maneiras disponibilizadas por eles é o SIDRA (Sistema IBGE de Recuperação Automática), que permite um rápido acesso a informações das diversas pesquisas realizadas pelo IBGE. É o jeito mais fácil (e ideal, mas já explico o porque) de se obter dados para o país, regiões, estados e municípios (a abrangência territorial varia de pesquisa para pesquisa).

Outras possibilidades de obter indicadores provenientes de pesquisas do IBGE são os microdados e agregados por setores censitários. Resumidamente, os microdados são as respostas caso a caso (pessoa ou residência) da pesquisa em questão, enquanto os agregados são contagens (de pessoas ou residência) com uma determinada característica, por setor censitário. A única pesquisa que os dados são disponibilizados  de forma agregada é o Censo Demográfico; os dados das demais pesquisas (PNAD, PME, entre outras) são disponibilizados no formato de microdados.

Obter os dados é bastante simples e pode ser feito de três maneiras:
  1. Pelo próprio site da pesquisa: No menu da esquerda aparece um link "Microdados", mas só para algumas pesquisas (Por exemplo, para o Censo Demográfico não aparece uma opção de baixar os dados agregados e os microdados [da amostra])
  2. Pelo site da loja: O IBGE possui uma loja virtual onde é possível comprar as publicações assinadas pelo IBGE e os CDs com os dados desejados. Felizmente, praticamente todos produtos oferecem também a opção de download gratuito ao lado do botão comprar.
  3. Pelo FTP: Para mim, essa é a maneira mais fácil e direta de baixar os dados. O IBGE disponibiliza dois FTPs, que são:
    1. FTP para dados: Nesse FTP (ftp://ftp.ibge.gov.br/) é possível encontrar todos arquivos disponibilizados pelo IBGE para download. Eles estão bem organizados, separados por pasta. Por exemplo: para baixar os dados do Censo 2010, basta entrar na pasta Censos e em seguida em Censo_Demografico_2010.
    2. FTP para mapas: Nesse segundo FTP (ftp://geoftp.ibge.gov.br/) é possível baixar os mapas e malhas digitais (shapefiles) criados pelo IBGE. De maneira similar ao FTP de dados, ele está bem organizado.
O uso dos dados (sejam eles microdados ou agregados) podem facilitar e muito a vida de um estatístico, principalmente se ele souber programar, mas deve ser feito com cuidado. Chamo a atenção pois alguns arquivos podem apresentar problemas (o banco Pessoa02_RS.csv, por exemplo, não há identificação dos setores censitários, apenas da cidade; problema que não ocorre no Pessoa02_RS.xls). Outro ponto que chamo a atenção - e que não é um problema - é que as informações dos setores censitários com poucos domicílios particulares permanentes são censuradas na hora da publicação - e por isso o SIDRA é o ideal para obter dados para a cidade, pois o mesmo não sofre com essa censura.

Além de disponibilizar dados primários (ou seja, levantado pelo próprio IBGE), eles também divulgam dados de outros orgãos na ferramentas Cidades.  Na postagem Trabalhando com amostras complexas no R: usando o pacote survey utilizamos os microdados da amostra do censo de 2010 como exemplo!