Dados Aleatórios

Dados Aleatórios

Scoped functions do dplyr

Este post faz parte da série de post que estamos criando sobre o dplyr. Caso ainda não conheça o pacote, veja o post de introdução ao dplyr. O dplyr apresenta uma série de funções similares aos verbos, que podem ser usadas para fazer operações sobre uma série de colunas, baseando-se nas suas classes ou nos seus nomes. Os sufixos _if, _at e _all são utilizados com as funções do dplyr de forma a realizar uma mesma operação a várias colunas, simultaneamente.

Help functions do dplyr

Este post supõe que estamos minimamente familiarizados com o pacote dplyr (se você não está, veja este post), especialmente com a função select e com o pipe. O dplyr traz algumas funções que podem ser muito úteis em algum momento de nossa manipulação de dados com o select, que são as help functions. Essas funções são, na verdade, do pacote tidyselect, mas são disponibilizadas ao ativar o dplyr (melhor ainda seria ativar o tidyverse).

Introdução ao dplyr

O que é o dplyr e por que usá-lo? dplyr é um pacote do R para manipulação de dados, sendo um dos pacotes que forma o núcleo do tidyverse. Se você nunca ouviu falar no tidyverse, ele é basicamente um pacote de pacotes que tem uma filosofia em comum, sendo cada pacote especializado em um tipo de tarefa, com a intenção de integrar todos eles facilmente no nosso fluxo de análise.

Google Vision API

Continuando as postagens relacionadas a machine learning, agora vamos falar sobre a identificação de objetos em fotos. Para tal, vamos utilizar uma API do Google Cloud Plataform: a Cloud Vision API. Diferente do que acontece com o Microsoft Cognitive Services (MCS), onde temos APIs diferentes para cada tipo de objetivo, o Google agrupou tudo em uma única API, permitindo detectar faces (mas não identifica-los), descrever imagens e até mesmo dizer o local onde a foto foi tirada.

Identificando pessoas em fotos

Dando sequência à postagem anterior, vamos falar um pouco agora sobre outra API do Microsoft Cognitive Services: a Face API. Esta API tem como finalidade detectar rotos em fotos e analisa-los, podendo descrever características do rosto (como gênero, idade estimada, se a pessoa está de óculos, …), informar localização de elementos faciais (olhos, boca, nariz, …) até identificar a pessoa, comparando com rostos previamente cadastrados. Nesta postagem vamos mostrar essas 3 funcionalidades, mas dando mais ênfase na identificação de rostos.

Identificando emoções em fotos

Não é novidade para nós que trabalhamos com análise de dados que a área de Machine Learning (ou no bom português, aprendizado de máquina) está evoluindo rapidamente, mas o que muitos podem desconhecer é que este conhecimento está ao alcance de todos, e muitos de forma gratuita (mesmo que limitada). Nesta postagem vamos falar um pouco sobre o Microsoft Cognitive Services, mais especificamente sobre a Emotion API, uma API que permite a análise de emoções em fotos e vídeos - mas vamos focar, por ora, só em fotos.

Lendo arquivos OFX no R

Há um tempo atrás, a Nubank (se você não sabe o que é Nubank, deveria) postou em sua página que era possível exportar as faturas fechadas, para serem levadas a programas de organização financeira. Apesar de não usar nenhum programa do tipo, resolvi dar uma olhada no arquivo disponibilizado. Admito que esperava encontrar um arquivo amigável e de fácil manipulação no R, ou até mesmo no Excel. Mas o que encontrei foi um arquivo no formato OFX.

Coletando dados do Facebook

Em nossas últimas postagens mostramos duas maneiras de extrair informações de sites: através do código fonte do site, manipulando diretamente no R e através do pacote RSelenium. Nesta postagem falaremos uma terceira maneira: o uso de API, exemplificando com a API do Facebook. O Facebook permite que certos dados sejam coletados através da Graph API, permitindo com que a análise seja feita em qualquer linguagem de programação. O uso dela é bastante simples, bem documentado e possui um ambiente de teste, que permite formular e testar as querys a serem utilizadas.

Primeiros contatos com o RSelenium

Mostramos em nossa última postagem que é possível baixar dados/arquivos de sites através do R - o site em questão era bastante antigo e simples, o que facilitou a extração das informações desejadas. Mas e quando o site é mais complexo e necessita que algumas ações sejam feitas no site antes de baixar os dados? Recentemente me foi dada a tarefa de baixar todas as tabelas do Observatório do Trabalho de Porto Alegre - um site um pouco mais complexo, que utiliza javascript.

Baixando e interpretando sites (ou: como fazer backup do seu fotolog) com R.

Se você usava a internet no início dos anos 2000, muito provavelmente teve - ou quis ter - um Fotolog. Como o próprio nome diz, era um blog voltado a fotografia, onde as pessoas podiam postar 1 foto por dia (ou 6, caso pagasse). Em 01/01/2016, o Fotolog encerrou suas atividades sem aviso prévio, gerando uma comoção nos mais saudosistas, voltando ao em final de janeiro com um aviso de que o site ficaria mais um mês online, permitindo que as pessoas fizessem backup.