Mineração de padrões em um servidor web usando R [end-to-end]
Muito se fala sobre mineração de padrões em servidores web, mas poucos são os exemplos que apresentam todo o processo, desde o acesso ao arquivo de log do servidor (por exemplo, Apache) até a apresentação dos resultados.
Recentemente, eu publiquei no GitHub um projeto, escrito em R, que implementa todo este processo. O endereço do projeto no GitHub é https://github.com/fbarth/webMining. Na pasta data deste projeto vocês irão encontrar o arquivo de log utilizado no exemplo e outros datasets gerados durante o processo. Na pasta scripts estão os arquivos em R que realizam o pré-processamento dos dados, criam os modelos e apresentam os resultados. Na pasta reports estão os arquivos, escritos em R Markdown, que eu utilizei para criar relatórios mais amigáveis.
Para aqueles que querem dar apenas uma olhada rápida, eu aconselho ler primeiro dois documentos:
- Pré-processamento de um log de servidor web para a mineração de padrões: apresenta todas as etapas de tratamento do arquivo de log para uma tabela, remove os registros irrelevantes, apresenta algumas estatísticas triviais, realiza a descoberta das seções e cria uma matriz de transações para que possamos utilizar algoritmos para descoberta de padrões freqüentes, como por exemplo, o algoritmo Apriori.
- Criando regras de associação a partir do log de um servidor Web: apresenta as etapas para identificação das regras, como as apresentadas na figura abaixo:
Os números apresentados no gráfico acima representam páginas do site http://fbarth.net.br. No final do relatório são apresentados os nomes das páginas.