data science

1º Workshop on Media, information and Data Science

Workshop que tive a oportunidade de apresentar projetos que desenvolvi enquanto trabalhava pela Globo.

Programando com dplyr (tidy eval)

E aí, pessoal! Depois de conhecer o dplyr (se ainda não conhece, veja aqui nosso post de introdução), começamos a escrever nossos códigos usando as funções desse pacote, e o costume de usar o dplyr acaba nos fazendo pensar em escrever nossas próprias funções usando alguns comandos do dplyr.

Introdução ao tidyr

knitr::opts_chunk$set(comment = NA) require(tidyverse) dados_wide <- tibble(uf = c("RJ", "SP"), `2017` = c(10, 11), `2018` = c(11, 10)) dados_long <- dados_wide %>% gather(Ano, valor, -uf) O pacote tidyr tem como principal objetivo transformar um data frame para o formato tidy, ou limpo.

Scoped functions do dplyr

knitr::opts_chunk$set(comment = NA) iris <- dplyr::as_tibble(iris) Este post faz parte da série de post que estamos criando sobre o dplyr. Caso ainda não conheça o pacote, veja o post de introdução ao dplyr.

Introdução ao dplyr

O que é o dplyr e por que usá-lo? dplyr é um pacote do R para manipulação de dados, sendo um dos pacotes que forma o núcleo do tidyverse. Se você nunca ouviu falar no tidyverse, ele é basicamente um pacote de pacotes que tem uma filosofia em comum, sendo cada pacote especializado em um tipo de tarefa, com a intenção de integrar todos eles facilmente no nosso fluxo de análise.

Modelagem Preditiva: Aprendendo a partir dos dados

Em 2013 foi publicada uma reportagem pela Forbes onde era afirmado que machine learning era a disciplina mais popular de Stanford com 760 alunos inscritos. E o motivo pelo qual esta disciplina se tornou popular é simples: porquê machine learning funciona bem no mundo real.

Review do livro Social Media Mining with R

Introdução Mídias sociais são o verdadeiro assunto do momento. Se antes a informação era centralizada por veículos de comunicação, hoje a coisa é um pouco diferente, seja por desconfiança da população nos veículos mais tradicionais ou pela velocidade com que as coisas acontecem e são passadas aos leitores.

Prefeitura do Rio lança portal sobre dados abertos

Foi lançado pela Prefeitura do Rio de Janeiro um portal sobre dados abertos e segundo o site são disponibilizados mais de 1200 arquivos com informações sobre a cidade. O portal é dividido nas seguintes áreas: Central 1746, Administração Pública, Desenvolvimento Social, Educação, Entretenimento, Esportes, Impostos e Taxas, Meio Ambiente, Receita e Despesa, Saúde, Transporte e Mobilidade, Turismo e Urbanismo.

Afinal, quanto ganha um cientista de dados?

Foi publicado pela O’Reilly um relatório sobre o salário e ferramentas mais utilizadas pelos cientistas de dados. A pesquisa aconteceu entre 2012 e 2013 durante o Strata Conference, que é uma conferência realizada pela própria O’Reilly sobre Data Science.