Dados Aleatórios

Dados Aleatórios

Programando com dplyr (tidy eval)

E aí, pessoal! Depois de conhecer o dplyr (se ainda não conhece, veja aqui nosso post de introdução), começamos a escrever nossos códigos usando as funções desse pacote, e o costume de usar o dplyr acaba nos fazendo pensar em escrever nossas próprias funções usando alguns comandos do dplyr. Você já tentou escrever e teve algum problema? Nós também, e por isso estudamos um pouco sobre tidy evaluation. Com isso vamos conseguir escrever nossas primeiras funções usando select, mutate, ou outras funções do dplyr, aproveitando a facilidade e rapidez que o pacote nos oferece.

Diferenças entre segmentação e clusterização

Na modelagem de marketing, o termo “clustering” é muito usado. Ao invés de agrupar pessoas, o agrupamento simplesmente identifica o que as pessoas fazem na maior parte do tempo. Isso nos permite prever o que os clientes provavelmente farão sem encaixá-los em grupos rígidos. Segmentar é o processo de colocar os clientes em grupos com base nas semelhanças, e o agrupamento é o processo de encontrar semelhanças nos clientes para que eles possam ser agrupados e, portanto, segmentados.

Cartão de Natal com o R

Já pensou em fazer um cartão de Natal utilizando a plataforma que os nerds dos dados mais gostam? Claro que estou falando do R, então aqui vamos montar uma “Árvore de Natal” utilizando o R com a possibilidade de escrever texto e adicionar quantas bolinhas de Natal desejar. Essa ideia surgiu para representar os participantes do grupo de ciencia de dados que temos no whatsApp e que foi de grande colaboração durante todo o ano.

Introdução ao tidyr

O pacote tidyr tem como principal objetivo transformar um data frame para o formato tidy, ou limpo. Segundo a filosofia do tidyverse, um dado limpo é o que apresenta as seguintes propriedades: Cada variável é uma coluna. Cada linha é uma observação. Cada valor é uma célula. Ilustração de dados no formato tidy A seguir vamos apresentar dois tibbles. Dê uma olhada e pense qual dos dois está no formato tidy, de acordo com a filosofia tidyverse:

Introdução ao GIT

O que é o GIT? No cotidiano de nossas tarefas acabamos por criar varias “versões finais” dos nossos projetos, como ilustrado abaixo. O sistema de controle de versão GIT vem pra ajudar a organizar essa nossa bagunça de versões. Git é um sistema de controle de versão. Mas o que é controle de versão? Os sistemas de controle de versão (VCS) registram alterações em um arquivo ou conjunto de arquivos ao longo do tempo para que você possa recuperar versões específicas mais tarde.

Introdução ao ggplot

Este material tem por objetivo passar uma ideia inicial das funcionalidades do pacote ggplot2 na visualização de dados. O ggplot2 é um pacote de visualização de dados do R criado por Hadley Wickham. É uma implementação das ideias do livro Grammar of Graphics de Leland Wilkinson - que define a visualização de dados como a criação de gráficos estatísticos a partir de componentes semânticos como escalas e camadas. O ggplot2 pode servir como um substituto para o gráfico base do R e contém vários padrões para exibição na web e impressão de escalas comuns.

Scoped functions do dplyr

Este post faz parte da série de post que estamos criando sobre o dplyr. Caso ainda não conheça o pacote, veja o post de introdução ao dplyr. O dplyr apresenta uma série de funções similares aos verbos, que podem ser usadas para fazer operações sobre uma série de colunas, baseando-se nas suas classes ou nos seus nomes. Os sufixos _if, _at e _all são utilizados com as funções do dplyr de forma a realizar uma mesma operação a várias colunas, simultaneamente.

Help functions do dplyr

Este post supõe que estamos minimamente familiarizados com o pacote dplyr (se você não está, veja este post), especialmente com a função select e com o pipe. O dplyr traz algumas funções que podem ser muito úteis em algum momento de nossa manipulação de dados com o select, que são as help functions. Essas funções são, na verdade, do pacote tidyselect, mas são disponibilizadas ao ativar o dplyr (melhor ainda seria ativar o tidyverse).

Introdução ao dplyr

O que é o dplyr e por que usá-lo? dplyr é um pacote do R para manipulação de dados, sendo um dos pacotes que forma o núcleo do tidyverse. Se você nunca ouviu falar no tidyverse, ele é basicamente um pacote de pacotes que tem uma filosofia em comum, sendo cada pacote especializado em um tipo de tarefa, com a intenção de integrar todos eles facilmente no nosso fluxo de análise.

Google Vision API

Continuando as postagens relacionadas a machine learning, agora vamos falar sobre a identificação de objetos em fotos. Para tal, vamos utilizar uma API do Google Cloud Plataform: a Cloud Vision API. Diferente do que acontece com o Microsoft Cognitive Services (MCS), onde temos APIs diferentes para cada tipo de objetivo, o Google agrupou tudo em uma única API, permitindo detectar faces (mas não identifica-los), descrever imagens e até mesmo dizer o local onde a foto foi tirada.