Afinal, quanto ganha um cientista de dados?

Foi publicado pela O'Reilly um relatório sobre o salário e ferramentas mais utilizadas pelos cientistas de dados. A pesquisa aconteceu entre 2012 e 2013 durante o Strata Conference, que é uma conferência realizada pela própria O'Reilly sobre Data Science. No total, pessoas de 33 países responderam a pesquisa, contemplando todos os setores profissionais, desde o governamental até o setor privado. O objetivo da pesquisa era entender melhor quais ferramentas os cientistas de dados utilizam e como as mesmas se correlacionam com o salário recebido e apesar de nem todos afirmarem trabalhar diretamente com análise de dados, quase todos afirmaram estar exposto a este ambiente. Alguns resultados seguem abaixo:
  • A ferramenta mais utilizada de longe foi SQL. No total, 71% dos respondentes afirmaram utilizar a ferramenta de banco de dados.
  • A segunda e terceira ferramentas mais utilizadas foram respectivamente R e Python. O agradável ambiente estatístico R ficou com 43% do total e a verdadeira linguagem serve-para-tudo Python ficou com 40% do total. 
  • Os salários são correlacionados positivamente com o número de ferramentas utilizadas. Enquanto que os indivíduos que afirmaram usar até 10 ferramentas possuem um salário anual mediano de $100.000, os que afirmaram utilizar mais de 15 ferramentas possuem um salário anual mediano de $130.000.
  • Foram encontrados 2 clusters de ferramentas utilizadas. Um composto de ferramentas open source (R, Python, Hadoop e mais algumas ferramentas de machine learning) e outro composto de ferramentas comerciais (Excel, SAS, Tableau e Oracle RDB).
  • Indivíduos que afirmaram utilizar mais ferramentas do grupo open source possuem um salário maior que os indíviduos que afirmaram utilizar mais ferramentas do grupo comercial.
  • Ferramentas open source (como Python e R) são tão importantes quanto (ou até mais) que ferramentas tradicionais como SAS e Excel.
  •  A utilização de ferramentas feitas com foco no big data como por exemplo MapR, Cassandra, Hive, MongoDB, Apache Hadoop e Cloudera também está correlacionada com salários maiores. 

O gráfico abaixo exibe as ferramentas utilizadas. Em azul são as pessoas que trabalham diretamente com análise de dados, e em verde as pessoas que afirmaram não trabalhar diretamente com análise de dados, apesar de estarem expostas a este ambiente.
Ferramentas mais utilizadas. Fonte: O'Reilly.
A seguir são apresentados os grupos e suas respectivas faixas salariais. As ferramentas dentro do quadro azul são referentes ao grupo de software pago, enquanto que as ferramentas em laranja pertencem ao grupo open source. E é importante observar que as ferramentas pertencentes a este último grupo possuem uma característica em comum, que é o de permitirem trabalhar com grandes conjuntos de dados.  

Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.

Conclusão

De fato este estudo pode ser útil para qualquer um que tenha interesse na área de análise de dados, seja para ver quais são as ferramentas utilizadas no mercado ou para simplesmente ver o comportamento do mercado no momento em relação a esta área. Obviamente existe um movimento crescente na busca e aperfeiçoamento de mão de obra qualificada para trabalhar com grandes conjuntos de dados, em especial na capacidade analítica de realizar tarefas avançadas de modelagem, monitoramento em tempo real  e gráfica. Apesar de ser um estudo internacional, focado no mercado norte americano, a realidade brasileira pode ser diferente, embora o tema esteja sendo bem discutido por aqui e assim ainda pode demorar algum tempo até que perceba-se a real necessidade de investir em profissionais desta área.

Um comentário: