Web Data Mining com R (2016)


A área de Web Data Mining tem como objetivo descobrir conhecimento útil a partir da estrutura dos hyperlinks da Web, conteúdo das páginas e log de utilização dos sites.

O R é uma linguagem de programação e um ambiente para implementação de funções estatísticas. O R fornece uma grande variedade de funções para modelagem linear e não linear, testes estatísticos, análise de séries temporais, criação de modelos preditivos e agrupamento.

O objetivo deste tutorial é apresentar conceitos sobre Web Data Mining, fluxo de trabalho e exemplos de tarefas de Web Data Mining (i.e., análise de redes sociais, clustering de texto, anti-spam e mineração de logs de servidores web) utilizando o R.

Os slides utilizados no tutorial estão listados abaixo:

  1. Web Data Mining com R

  2. Contexto

  3. Processamento de dados [no R]

  4. Aprendizagem de Máquina

  5. Criação de regras de associação a partir da navegação de usuários em sites Web

  6. Agrupamento de mensagens do twitter

  7. Design de projetos para criação de modelos preditivos

  8. Identificação de Spam utilizando Random Forest

Os datasets que são utilizados nos exemplos estão no aqui.

E os scripts que são utilizados estão nesta conta do RPubs.