Muito se fala sobre mineração de padrões em servidores web, mas poucos são os exemplos que apresentam todo o processo, desde o acesso ao arquivo de log do servidor (por exemplo, Apache) até a apresentação dos resultados.

Recentemente, eu publiquei no GitHub um projeto, escrito em R, que implementa todo este processo. O endereço do projeto no GitHub é https://github.com/fbarth/webMining. Na pasta data deste projeto vocês irão encontrar o arquivo de log utilizado no exemplo e outros datasets gerados durante o processo. Na pasta scripts estão os arquivos em R que realizam o pré-processamento dos dados, criam os modelos e apresentam os resultados. Na pasta reports estão os arquivos, escritos em R Markdown, que eu utilizei para criar relatórios mais amigáveis.

Para aqueles que querem dar apenas uma olhada rápida, eu aconselho ler primeiro dois documentos:

Grafo com regras de associação

Os números apresentados no gráfico acima representam páginas do site http://fbarth.net.br. No final do relatório são apresentados os nomes das páginas.