A equipe SAS lançará versão gratuita.

O grupo SAS vai lançar a partir de Maio de 2014 (isso mesmo, no próximo mês) uma versão totalmente free destinada ao estudantes e professores universitários.

Essa é uma ótima oportunidade para todos poderem ter acesso a um dos software mais usados no mercado e sem custo.

A nova versão gratuita, diferente da já existente, pode ser utilizada localmente no seu PC e não apenas online com a limitação de espaço da versão Ondemand.

SAS University Edition dará acesso a vários produtos básicos, incluindo SAS Base, SAS/STAT, SAS/ACCESS para formatos de arquivos de PC e software SAS/IML.

De fato, a versão OnDemand ainda nos dar acesso a mais produtos podemos ver uma comparação entre as versões aqui.

E não para por ai eles vão lançar junto com SAS University Edition, uma comunidade para interação dos seus usuários. A comunidade online do SAS University será uma importante ferramenta para auxiliar os estudantes.

Será que fará frente aos software de códigos abertos que a comunidade acadêmica tanto usa?
Vamos esperar para ver!

Review do livro Social Media Mining with R

Introdução


Mídias sociais são o verdadeiro assunto do momento. Se antes a informação era centralizada por veículos de comunicação, hoje a coisa é um pouco diferente, seja por desconfiança da população nos veículos mais tradicionais ou pela velocidade com que as coisas acontecem e são passadas aos leitores. Logo percebeu-se a complexidade e riqueza das informações geradas pelas mídias sociais - livre, independente e rápida - e a real necessidade de utilizar métodos computacionais e estatísticos para analisar tais informações. Mas é claro que realizar tal atividade não é trivial, uma vez que a informação tende a ser não estruturada e com bastante ruído. Neste contexto, o livro é apresentado, focando especialmente na ideia de minerar opiniões de mídias sociais com a utilização das seguintes metodologias: Polarização com base em dicionários, classificador de Naive Bayes e por último Teoria de Resposta ao Item aplicado a análise de sentimentos. 


Pontos Positivos

Fácil leitura
O assunto sobre mídias sociais é apresentado lentamente e de uma forma bem agradável. Seja para quem desconhece totalmente o assunto ou para quem não tem experiência com o R - existe um capítulo introdutório que apresenta tudo que é necessário ao desenrolar do livro.  

Boa contextualização
Em todo momento, os autores Nathan Danneman e Richard Heimann se preocupam com a contextualização do problema ao tentar alertar ao leitor dos pontos positivos e negativos sobre o conteúdo disponível em mídias sociais, assim como as dificuldades associadas a cada uma das metodologias apresentadas.

Estudos de casos
O livro conta com um capítulo dedicado exclusivamente a aplicar cada uma das metodologias apresentadas, e é claro que a modelagem é apenas um detalhe. Assim podemos acompanhar todo o raciocínio de analisar um conjunto de dados não estruturado, começando pelas dificuldades envolvidas já no pré-processamento até a modelagem e sua validação. A discussão em torno dos modelos é interessante e gera uma ansiedade sobre qual será o próximo passo a ser tomado. 

Pontos Negativos

Curto demais
No total o livro conta com apenas 122 páginas, o que é pouca coisa, dado a complexidade do tema proposto. Só para lembrar, no livro são abordados os temas de mídias sociais, metodologias que podem ser aplicadas a mineração de opiniões e  o uso do software R.

Pouco apelo matemático
Geralmente o problema é o contrário, devido a quantidade de equações e definições, perde-se o entendimento sobre a essência do livro, mas aqui este foi um fato bem incômodo. Em todo o livro, uma única equação é apresentada, o que dá a entender que a metodologia já deveria ser de domínio do leitor.

Conclusão

Para os iniciantes o livro mostra-se uma boa opção introdutória. Todo o contexto, impacto e possibilidades existentes nas mídias sociais são apresentados. As metodologias são exploradas a passos curtos e as conclusões surgem de forma natural ao caminhar do livro. Porém o livro peca um pouco na baixa formalização matemática, apesar de avaliar qualitativamente muito bem os modelos. Para quem possui interesse no assunto, é um bom investimento inicial.


Como a Visualização de Dados pode nos ajudar?

Vivemos um momento em que nunca produzimos tanta informação. Há quem afirme que nos últimos dois anos produziu-se mais informação do que em toda a história da humanidade. Para ter noção da dimensão da coisa não é necessária uma situação complexa, basta parar e pensar na quantidade de dados gerados por você mesmo a cada dia. Vamos tentar: Acordo às 7:00h, 8:15h eu saio de casa, compro o jornal, pego um ônibus e pago com o Rio Card - provavelmente isto registra o horário que peguei o ônibus e quantas vezes faço com aquela linha - ,  acesso meus e-mails, rede social e se for quinta-feira pode ser que eu vá ao cinema. Praticamente tudo que fazemos pode virar uma informação no final, e esta pode ser consumida e utilizada - contra ou favor de você .

E é claro, que deve-se lembrar também que visualizar dados não é uma tarefa nova, existem relatos de que as visualizações mais populares - gráficos de barras e linhas - que temos foram originadas no século XVIII. Então por qual motivo deveríamos conhecer mais sobre visualização de dados? O motivo é simples, já que o nosso apetite para consumir estes dados nunca foi maior então é razoável pensar que precisamos ser mais efetivos e eficientes na forma como estes dados são comunicados.

Através da visualização podemos descrever os dados de uma forma que nos permita ver aqueles dados de um outro ponto de vista, observar padrões, exceções e possíveis histórias ocultas, ali nos dados originais e sequer sabermos disso. 

Uma importante contribuição para o campo da visualização da informação foi feita por Francis Anscombe (que pasmem, era cunhado do Tukey) em 1970. O que Anscombe fez foi apresentar o que foi chamado de o Quarteto de Anscombe, que eram 4 conjuntos de dados com propriedades estatísticas exatamente iguais.  

Prefeitura do Rio lança portal sobre dados abertos

Foi lançado pela Prefeitura do Rio de Janeiro um portal sobre dados abertos e segundo o site são disponibilizados mais de 1200 arquivos com informações sobre a cidade. O portal é dividido nas seguintes áreas: Central 1746, Administração Pública, Desenvolvimento Social, Educação, Entretenimento, Esportes, Impostos e Taxas, Meio Ambiente, Receita e Despesa, Saúde, Transporte e Mobilidade, Turismo e Urbanismo. E não podemos esquecer que os dados podem ser utilizados e redistribuídos livremente por qualquer pessoa.

Apesar de ter o objetivo de oferecer dados para desenvolvedores de softwares, temos certeza de que esta é uma fonte inesgotável de diversas aplicações envolvendo análise de dados e pesquisas, de forma geral. 

Não perca tempo e acesse logo, o link da página é http://data.rio.rj.gov.br/ . Ah, é claro que nós do Dados Aleatórios já estamos planejando algumas análises destes dados. Porém qualquer sugestão seria extremamente bem-vinda.