Summer School on Big Data

Nesta semana eu estou participando da Summer School on Big Data da EMC. Hoje, 04 de fevereiro de 2013, tivemos uma palestra de abertura com a Karin Breitman, onde ela descreve o que é Big Data e a importância do tema.

Claro que ela falou da definição clássica do big data, que envolve os três Vs (volume, velocity and variety of sources), mas também destacou algumas definições importantes, como por exemplo, as etapas de um projeto de big data: (i) develop theories; (ii) build hypotheses; (iii) identify relevante data; (iv) conduct experiments, (v) refine hypotheses in response to findings, and; (vi) repeat the process. Etapas que parecem muito mais com o desenvolvimento de uma pesquisa acadêmica do que com o desenvolvimento de um software. Talvez esteja ai a grande diferença entre projetos de TI tradicionais e projetos de Big Data (!!??).

Depois da Karin, foi a vez do Milind Bhandarkar, da Greenplum. Este cara simplesmente foi um dos responsáveis por transformar o Hadoop de protótipo para um software de verdade :). Foi muito legal ver como ele falava com grande naturalidade sobre detalhes do Map Reduce e HDFS. A apresentação utilizada na Summer School é muito parecida com esta aqui. Amanhã teremos Hadoop Hands-on Session com o Milind também. Eu acho que vai ser bem legal :)

Depois do almoço tivemos uma palestra com o Denilson Barbosa da University of Alberta sobre Information Extraction for Social Media Analysis. O Denilson apresentou alguns trabalhos sobre processamento de texto e análise de redes sociais. Os slides utilizados estão disponíveis em https://www.dropbox.com/sh/4sy6qpobjskxlz4/nZnYqw5BN0. Achei interessante a ideia de conectar entidades nomeadas aos verbetes da wikipedia (entity linking - slide 50) e o generate-and-test load sobre knowledge extraction (slide 62). Por mais simples que seja a ideia, eu tive alguns insights.

Depois do Denilson Barbosa, tivemos a apresentação sobre Scientific Workflows and Big Data da Marta Mattoso da COPPE/UFRJ. Nesta palestra a Marta apresentou alguns trabalhos sobre workflows para trabalhos científicos e sua relação com Big Data.

O dia de amanhã (05 de fevereiro) promete! Espero ter disponibilidade para escrever o resumo, assim como eu fiz hoje.