Dados Aleatórios

Dados Aleatórios

Introdução ao tidyr

O pacote tidyr tem como principal objetivo transformar um data frame para o formato tidy, ou limpo. Segundo a filosofia do tidyverse, um dado limpo é o que apresenta as seguintes propriedades: Cada variável é uma coluna. Cada linha é uma observação. Cada valor é uma célula. Ilustração de dados no formato tidy A seguir vamos apresentar dois tibbles. Dê uma olhada e pense qual dos dois está no formato tidy, de acordo com a filosofia tidyverse:

Introdução ao GIT

O que é o GIT? No cotidiano de nossas tarefas acabamos por criar varias “versões finais” dos nossos projetos, como ilustrado abaixo. O sistema de controle de versão GIT vem pra ajudar a organizar essa nossa bagunça de versões. Git é um sistema de controle de versão. Mas o que é controle de versão? Os sistemas de controle de versão (VCS) registram alterações em um arquivo ou conjunto de arquivos ao longo do tempo para que você possa recuperar versões específicas mais tarde.

Introdução ao ggplot

Este material tem por objetivo passar uma ideia inicial das funcionalidades do pacote ggplot2 na visualização de dados. O ggplot2 é um pacote de visualização de dados do R criado por Hadley Wickham. É uma implementação das ideias do livro Grammar of Graphics de Leland Wilkinson - que define a visualização de dados como a criação de gráficos estatísticos a partir de componentes semânticos como escalas e camadas. O ggplot2 pode servir como um substituto para o gráfico base do R e contém vários padrões para exibição na web e impressão de escalas comuns.

Scoped functions do dplyr

Este post faz parte da série de post que estamos criando sobre o dplyr. Caso ainda não conheça o pacote, veja o post de introdução ao dplyr. O dplyr apresenta uma série de funções similares aos verbos, que podem ser usadas para fazer operações sobre uma série de colunas, baseando-se nas suas classes ou nos seus nomes. Os sufixos _if, _at e _all são utilizados com as funções do dplyr de forma a realizar uma mesma operação a várias colunas, simultaneamente.

Help functions do dplyr

Este post supõe que estamos minimamente familiarizados com o pacote dplyr (se você não está, veja este post), especialmente com a função select e com o pipe. O dplyr traz algumas funções que podem ser muito úteis em algum momento de nossa manipulação de dados com o select, que são as help functions. Essas funções são, na verdade, do pacote tidyselect, mas são disponibilizadas ao ativar o dplyr (melhor ainda seria ativar o tidyverse).

Introdução ao dplyr

O que é o dplyr e por que usá-lo? dplyr é um pacote do R para manipulação de dados, sendo um dos pacotes que forma o núcleo do tidyverse. Se você nunca ouviu falar no tidyverse, ele é basicamente um pacote de pacotes que tem uma filosofia em comum, sendo cada pacote especializado em um tipo de tarefa, com a intenção de integrar todos eles facilmente no nosso fluxo de análise.

Google Vision API

Continuando as postagens relacionadas a machine learning, agora vamos falar sobre a identificação de objetos em fotos. Para tal, vamos utilizar uma API do Google Cloud Plataform: a Cloud Vision API. Diferente do que acontece com o Microsoft Cognitive Services (MCS), onde temos APIs diferentes para cada tipo de objetivo, o Google agrupou tudo em uma única API, permitindo detectar faces (mas não identifica-los), descrever imagens e até mesmo dizer o local onde a foto foi tirada.

Identificando pessoas em fotos

Dando sequência à postagem anterior, vamos falar um pouco agora sobre outra API do Microsoft Cognitive Services: a Face API. Esta API tem como finalidade detectar rotos em fotos e analisa-los, podendo descrever características do rosto (como gênero, idade estimada, se a pessoa está de óculos, …), informar localização de elementos faciais (olhos, boca, nariz, …) até identificar a pessoa, comparando com rostos previamente cadastrados. Nesta postagem vamos mostrar essas 3 funcionalidades, mas dando mais ênfase na identificação de rostos.

Identificando emoções em fotos

Não é novidade para nós que trabalhamos com análise de dados que a área de Machine Learning (ou no bom português, aprendizado de máquina) está evoluindo rapidamente, mas o que muitos podem desconhecer é que este conhecimento está ao alcance de todos, e muitos de forma gratuita (mesmo que limitada). Nesta postagem vamos falar um pouco sobre o Microsoft Cognitive Services, mais especificamente sobre a Emotion API, uma API que permite a análise de emoções em fotos e vídeos - mas vamos focar, por ora, só em fotos.

Lendo arquivos OFX no R

Há um tempo atrás, a Nubank (se você não sabe o que é Nubank, deveria) postou em sua página que era possível exportar as faturas fechadas, para serem levadas a programas de organização financeira. Apesar de não usar nenhum programa do tipo, resolvi dar uma olhada no arquivo disponibilizado. Admito que esperava encontrar um arquivo amigável e de fácil manipulação no R, ou até mesmo no Excel. Mas o que encontrei foi um arquivo no formato OFX.