Google Vision API

Continuando as postagens relacionadas a machine learning, agora vamos falar sobre a identificação de objetos em fotos. Para tal, vamos utilizar uma API do Google Cloud Plataform: a Cloud Vision API. Diferente do que acontece com o Microsoft Cognitive Services (MCS), onde temos APIs diferentes para cada tipo de objetivo, o Google agrupou tudo em uma única API, permitindo detectar faces (mas não identifica-los), descrever imagens e até mesmo dizer o local onde a foto foi tirada. Na postagem, vamos dar uma visão geral das principais funcionalidades da API.

Assim como acontece no MCS, para utilizar a API é necessário realizar um cadastro e obter uma chave de identificação. O próprio Google fornece um tutorial de como obter essa chave, que você pode encontrar nesse link. Uma desvantagem é que para obter a chave é necessário informar um cartão de crédito, mas não se preocupem, pois o uso dessa API é gratuito para pequenas quantidades de solicitações. Uma das vantagens desta API é que a foto não precisa estar hospedada em nenhum servidor para ser analisada, podendo ser enviada junto com o comando, e outra é que todas análises são solicitadas pelo mesmo comando, tendo que especificar somente qual tipo análise você quer através do parâmetro features. As opções são:

FACE_DETECTION: Para detectar face
LANDMARK_DETECTION: Para identificar estruturas naturais ou arquitetônicas populares
LOGO_DETECTION: Para identificar logos
LABEL_DETECTION: Para descrever elementos/objetos
TEXT_DETECTION: Para leitura de texto (OCR)
SAFE_SEARCH_DETECTION: Para avaliar o conteúdo da foto (adulto, editado, medicinal e violência)
IMAGE_PROPERTIES: Propriedades da imagem (como cor dominante)