Dados públicos

Recentemente foi enviado um e-mail a lista de R perguntando por dados públicos (link). Mesmo trabalhando há mais de 1 ano com alguns desses dados, algumas das respostas eu não conhecia e por isso resolvi fazer um agregado das respostas e postar aqui no blog. Junto com as fontes, postarei links de postagens que fazem alguma análise nos bancos informados e algumas ressalvas sobre os bancos.

Instituto Brasileiro de Geografia e Estatística (IBGE)

Impossível começar uma lista com fontes de dados estatísticos sem ser pelo IBGE. Por ser uma das fontes que apresenta mais dados, muitas vezes o acesso a esses dados se torna difícil. Uma das maneiras disponibilizadas por eles é o SIDRA (Sistema IBGE de Recuperação Automática), que permite um rápido acesso a informações das diversas pesquisas realizadas pelo IBGE. É o jeito mais fácil (e ideal, mas já explico o porque) de se obter dados para o país, regiões, estados e municípios (a abrangência territorial varia de pesquisa para pesquisa).

Outras possibilidades de obter indicadores provenientes de pesquisas do IBGE são os microdados e agregados por setores censitários. Resumidamente, os microdados são as respostas caso a caso (pessoa ou residência) da pesquisa em questão, enquanto os agregados são contagens (de pessoas ou residência) com uma determinada característica, por setor censitário. A única pesquisa que os dados são disponibilizados  de forma agregada é o Censo Demográfico; os dados das demais pesquisas (PNAD, PME, entre outras) são disponibilizados no formato de microdados.

Obter os dados é bastante simples e pode ser feito de três maneiras:
  1. Pelo próprio site da pesquisa: No menu da esquerda aparece um link "Microdados", mas só para algumas pesquisas (Por exemplo, para o Censo Demográfico não aparece uma opção de baixar os dados agregados e os microdados [da amostra])
  2. Pelo site da loja: O IBGE possui uma loja virtual onde é possível comprar as publicações assinadas pelo IBGE e os CDs com os dados desejados. Felizmente, praticamente todos produtos oferecem também a opção de download gratuito ao lado do botão comprar.
  3. Pelo FTP: Para mim, essa é a maneira mais fácil e direta de baixar os dados. O IBGE disponibiliza dois FTPs, que são:
    1. FTP para dados: Nesse FTP (ftp://ftp.ibge.gov.br/) é possível encontrar todos arquivos disponibilizados pelo IBGE para download. Eles estão bem organizados, separados por pasta. Por exemplo: para baixar os dados do Censo 2010, basta entrar na pasta Censos e em seguida em Censo_Demografico_2010.
    2. FTP para mapas: Nesse segundo FTP (ftp://geoftp.ibge.gov.br/) é possível baixar os mapas e malhas digitais (shapefiles) criados pelo IBGE. De maneira similar ao FTP de dados, ele está bem organizado.
O uso dos dados (sejam eles microdados ou agregados) podem facilitar e muito a vida de um estatístico, principalmente se ele souber programar, mas deve ser feito com cuidado. Chamo a atenção pois alguns arquivos podem apresentar problemas (o banco Pessoa02_RS.csv, por exemplo, não há identificação dos setores censitários, apenas da cidade; problema que não ocorre no Pessoa02_RS.xls). Outro ponto que chamo a atenção - e que não é um problema - é que as informações dos setores censitários com poucos domicílios particulares permanentes são censuradas na hora da publicação - e por isso o SIDRA é o ideal para obter dados para a cidade, pois o mesmo não sofre com essa censura.

Além de disponibilizar dados primários (ou seja, levantado pelo próprio IBGE), eles também divulgam dados de outros orgãos na ferramentas Cidades.  Na postagem Trabalhando com amostras complexas no R: usando o pacote survey utilizamos os microdados da amostra do censo de 2010 como exemplo!

Ministério do Trabalho e Emprego (MTE)

Outra fonte de dados bastante utilizada é o MTE, que apresenta em seu site a seção Estatatística e, assim como o IBGE, apresenta duas possibilidades de obtenção de indicadores das suas principais pesquisas: RAIS (Relação Anual de Informações Sociais) e CAGED (Cadastro Geral de Empregados e Desempregados). Essas duas pesquisas agregam basicamente toda movimentação e situação do mercado formal de emprego, tanto do ponto de vistado trabalhador quanto do empregador. A maneira mais simples é através da ferramenta de BI disponível no link Acesso on line às bases estatísticas (login: basico; senha: 12345678; não funciona 100% no Chrome). O MTE disponibiliza um tutorial ensinando a utilizar a ferramenta.

A outra maneira é através do download dos microdados, que estão disponibilizados numa pasta do Google Drive. Assim como os dados do IBGE, eles estão bem organizados e é fácil encontrar o arquivo desejado. Apesar de estarem com a extensão .txt, eles estão formatados como CSV Brasileiro (',' para separador decimal e ';' para separador de campo). O MTE criou um grupo de email para que usuários do BI e/ou microdados consigam sanar suas dúvidas. Há também os microdados identificados (com informações pessoais sobre os trabalhadores), mas esse banco é de acesso restrito, que pode ser solicitado ao MTE. Já falamos dos dados disponibilizados pelo MTE nas postagens Microdados da RAIS e Profissão: Estatístico.

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP)

Uma terceira fonte de dados é o INEP que, como o nome do instituto diz, disponibiliza dados sobre a educação no país tanto na educação básica (ensino fundamental, médio e técnico) quanto na educação superior. A gama de informações é bastante variada e trata desde avaliações nacionais da educação (Prova Brasil, ENEM, ENADE, ...) e informações sobre os estudantes, as instituições de ensino e os docentes (Censo Escola e Censo da Educação Superior).

Assim como os órgãos anteriores, o INEP divulga alguns indicadores já calculados e também os microdados. Ao contrário dos órgãos anteriores, acho o site do INEP bem organizado, mais que o FTP deles. Infelizmente, eles não têm esse cuidado com os arquivos disponibilizados: embora estejam muito bem documentados, eles não mantem um formato padrão de arquivo: apesar de todos os bancos terem a extensão .txt, alguns estão formatados como largura fixa; outros são CSV e outros possuem uma formatação 'inovadora' (por exemplo, o censo escola de 2014 utiliza | como tabulação). Para descobrir qual a formatação utilizada recomendo utilizar o readLines() para ler somente as primeiras linhas do banco (utilizando o parâmetro n = 2). Os dados do INEP foram utilizados nas postagens - ainda do meu antigo blog - Lendo grandes bancos de dados no RAnalisando grandes bancos de dados no R.

DATASUS

Se existe um site desorganizado, esse site é o do DATASUS. Como o nome sugere, ele possui dados sobre a saúde, desde indicadores epidemiológicos até estatísticas vitais (nascimento e óbitos). O site também disponibiliza alguns dados socioeconômicos (a maioria de fonte IBGE) O problema é encontrar. Os dados estão espalhados em diversos sistemas independentes que estão listados em "Acesso à Informação" e, em seguida, TABNET. Clicando no tipo de informação desejada, você será redirecionado ao respectivo sistema, sendo os principais o Indicadores e Dados Básicos para Saúde no Brasil (IDB), o Sistema de Informação da Atenção Básica (SIAB) e o próprio TABNET.

Além dos indicadores, o DATASUS disponibiliza também os microdados do Sistema de Informações sobre Mortalidade (SIM) e Sistema de Informações sobre Nascidos Vivos (SINASC). Os arquivos estão no formado DBC, que é um compactação de arquivos DBF - que o R consegue ler com o comando read.dbf() do pacote foreign. Para descompactar o arquivo devemos baixar o programa Tabwin 3.6b disponibilizado pelo DATASUS. No arquivo .zip tem um programa chamado dbf2dbc.exe. Basta arrastar um arquivo DBC para o programa que ele será transformado em DBF (e vice-versa). Em seguida basta utilizar o comando read.dbf() para carregar os dados no R. Para ler o banco de dados com o TabWin também é necessário descompacta-lo. Infelizmente não sei se o DATASUS não disponibiliza outros microdados (como os do Sistema Nacional de Agravos de Notificação - SINAN), pois não encontro nenhuma referência no site para os microdados - nem mesmo do SIM e SINASC.

Outras fontes de dados

Outros órgãos/sites que também disponibilizam dados e indicadores são:
  • Tribunal Superior Eleitoral (TSE): O TSE divulga na seção Estatística diversos indicadores sobre o eleitorado, candidatos e eleições. Há ainda o Repositório de dados eleitorais, onde estão disponíveis os dados utilizados na obtenção dos indicadores (utilizados na postagem Participação nas eleições de 2010);
  • Portal da Transparência: O Portal da Transparência é onde o governo federal publica [quase] todos os gastos e contratos, como os cartões corporativos, obras e programas de transferência de renda, como os utilizados na postagem sobre o Bolsa Família;
  • Integrated Public Use Microdata Series (IPUMS): É um programa que tem como objetivo agregar informações sobre os censos demográficos do maior número possíveis de países (atualmente, 79 países em 258 censos). É possível, mediante cadastro, obter indicadores ou até mesmo microdados. O interessante do site é que eles analisaram variável por variável dos censos e agruparam elas com as variáveis equivalentes dos censos já cadastrados.

Considerações finais

Obviamente, não tem como listar todos os sites aqui. Tentei listar os que abrangem o país todo, mas muitos estados possuem suas próprias fundações/entidades de pesquisa (como a Fundação de Economia e Estatística, do RS, e a Fundação João Pinheiro, de MG), ou até mesmo municipal, como o ObservaPOA (propaganda básica de onde eu trabalho :D). Há ainda sites não governamentais, como o Cidades Sustentáveis e o Atlas do Desenvolvimento Humano no Brasil. Sabe de mais alguma fonte de dados? Compartilhe com a gente nos comentários!

3 comentários:

  1. Olá, ví que existe uma API do IBGE para acessar o SIDRA. Vocês já utilizaram no R ou em outra linguagem?
    Obrigado.

    ResponderExcluir
  2. Parabéns pelo artigo! Só gostaria de complementar que hoje já existe uma forma de abrir os arquivos DBC nativamente no R através da package "read.dbc" de minha autoria. Ela está disponível na CRAN e a página do projeto é esta: https://github.com/danicat/read.dbc

    ResponderExcluir
  3. Parabéns pela disponibilização destas informações! Elas foram muito úteis para mim.

    ResponderExcluir