Dados Aleatórios

Dados Aleatórios

Primeiros contatos com o RSelenium

Mostramos em nossa última postagem que é possível baixar dados/arquivos de sites através do R - o site em questão era bastante antigo e simples, o que facilitou a extração das informações desejadas. Mas e quando o site é mais complexo e necessita que algumas ações sejam feitas no site antes de baixar os dados? Recentemente me foi dada a tarefa de baixar todas as tabelas do Observatório do Trabalho de Porto Alegre - um site um pouco mais complexo, que utiliza javascript.

Baixando e interpretando sites (ou: como fazer backup do seu fotolog) com R.

Se você usava a internet no início dos anos 2000, muito provavelmente teve - ou quis ter - um Fotolog. Como o próprio nome diz, era um blog voltado a fotografia, onde as pessoas podiam postar 1 foto por dia (ou 6, caso pagasse). Em 01/01/2016, o Fotolog encerrou suas atividades sem aviso prévio, gerando uma comoção nos mais saudosistas, voltando ao em final de janeiro com um aviso de que o site ficaria mais um mês online, permitindo que as pessoas fizessem backup.

Modelagem Preditiva: Aprendendo a partir dos dados

Mas então a máquina faz tudo e não é necessária nenhum tipo de intervenção humana? Ok, parece legal, mas como isso pode me ajudar? Em 2013 foi publicada uma reportagem pela Forbes onde era afirmado que machine learning era a disciplina mais popular de Stanford com 760 alunos inscritos. E o motivo pelo qual esta disciplina se tornou popular é simples: porquê machine learning funciona bem no mundo real.

É possível aumentar as chances na loteria?

Sempre que o final do ano se aproxima boa parte dos brasileiros começa a pensar em uma coisa: a mega da virada. E não é a toa que isso acontece: o prêmio do ano passado chegou a R$ 264 milhões - e foi dividido entre 4 apostas. E sempre que se fala em megasena vem a pergunta: será que tem como aumentar as chances de ganhar? Existem diversos sites que dão dicas de como aumentar as chances de ganhar.

Uma nova maneira de ler dados externos

Há cerca de 2 anos atrás postei uma pergunta no StackOverflow (caso não conheça, leia esta postagem nossa) perguntando como podia fazer para ler grandes bancos de dados, de cerca de 600mb - esse era meu primeiro contato com bancos grandes, provenientes do Censo Escolar. Das duas respostas dadas na época, a que mais me agradou usava o pacote sqldf, que utiliza SQL para fazer a leitura e manipulação de fontes externas de dados.

R também pode ser diversão!

O R, assim como toda linguagem de programação, permite que seja feita uma grande gama de coisas, mesmo quando elas não possuem nada a ver com estatística. Dois exemplos disso podem ser encontrados no próprio site do R: os pacotes fun e sudoku, que possuem algumas funções para passar o tempo, inclusive jogos. Sim, você leu certo: jogos no R. Para passar o tempo livre que eu tinha na época de graduação (que meus professores não vejam isso…) e inspirado nos pacotes citados anteriormente, me desafiava a fazer alguns jogos no R também.

Curso de Data Science

Venho aqui apresentar a Elixir Data Science, uma empresa com um modelo de Data Science As a Service que possibilita, oferecendo um custo acessível, tanto empresas grandes quanto pequenas de tomar melhores decisões baseadas em dados. A empresa atua em todo o workflow de análise de dados, desde aquisição e manutenção dos dados até a disponibilização de modelos preditivos em ambiente de produção. Os cursos oferecidos pela Elixir Data Science focam em utilizar cases reais para estimular o pensamento crítico e analítico, sem deixar de lado a metodologia necessária para o entendimento sólido dos conceitos apresentados.

Dados públicos

Recentemente foi enviado um e-mail a lista de R perguntando por dados públicos (link). Mesmo trabalhando há mais de 1 ano com alguns desses dados, algumas das respostas eu não conhecia e por isso resolvi fazer um agregado das respostas e postar aqui no blog. Junto com as fontes, postarei links de postagens que fazem alguma análise nos bancos informados e algumas ressalvas sobre os bancos. Instituto Brasileiro de Geografia e Estatística (IBGE) Impossível começar uma lista com fontes de dados estatísticos sem ser pelo IBGE.

Carregando automaticamente funções e outras variáveis no R

Quem trabalha com R sabe que é necessário, sempre que se abre o R, recarregar todos pacotes e funções que se deseja. E isso pode se tornar trabalhoso e repetitivo, especialmente quando se utiliza sempre os mesmos. Mas existe uma maneira de automatizar isso - e bem simples até! Sempre que o R é iniciado ele irá executar o arquivo Rprofile.site (ele fica na pasta R\x.x.x\etc, e pode ser aberto com o bloco de notas).

Factors são... Números?

A utilização de objetos da classe factor no R pode surpreender usuários novos, uma vez que a representação e manipulação destes sugere que são similares a manipulação de strings, porém muitas das vezes o usuário acaba tendo uma surpresa desagradável, assim como um comportamento não esperado de objetos deste tipo. Mas antes de tudo, vamos esclarecer uma coisa: Factors não são e nem devem ser vistos como strings e sim como objetos numéricos (para ser mais preciso, inteiros).