Neste post eu quero compartilhar alguns scripts meus escritos em R e que estão públicos. A maioria dos scripts está disponibilizada em http://rpubs.com/fbarth. São exercícios simples, mas que exemplificam o uso de agrupamentos planos e hierárquicos, algoritmos indutores de árvores de decisão, Random Forest e identificação de regras de associação.
Eu escrevi estes relatórios usando Rmarkdown e compilando eles com Knitr. É muito prático, principalmente se utilizado com o http://www.rstudio.org/. Os relatórios apresentados abaixo ou são utilizados em aulas práticas da disciplina de Sistemas Inteligentes ou em cursos de extensão na BandTec:
  • Laboratório sobre algoritmos de clustering plano: neste relatório eu apresento dois exemplos que utilizam o algoritmo Kmeans. O primeiro exemplo (bem didático) utiliza o dataset iris. O segundo exemplo (um pouco mais próximo de uma situação real) utiliza um dataset com informações sobre abalos sísmicos em tempo real. Em ambos os casos são apresentados questões relacionadas ao pré-processamento dos dados, utilização da implementação do algoritmo Kmeans no R e identificação do número de clusters ideais usando o método elbow
  • Laboratório sobre algoritmos de clustering hierárquico: neste relatório eu apresento como construir dendrograms a partir de um dataset didático.
  • Exemplo de uso do algoritmo Random Forest: o algoritmo Random Forest (que pode ser utilizado para problemas de classificação, regressão e clustering) tem chamado cada vez mais a atenção dos profissionais da área de Big Data. Neste relatório é apresentado um exemplo bem didático de classificação usando a implementação do pacote randomForest do R. Ao longo do relatório são apresentados alguns gráficos que ilustram o potencial do algoritmo Random Forest em tarefas de classificação.
  • Exemplo de uso de algoritmos indutores de árvores de decisão: o algoritmo Random Forest gera uma floresta de árvores de decisão. Desta forma, seria muito incoerente da minha parte apresentar um exemplo que usa o algoritmo Random Forest e não apresentar exemplos de uso dos algoritmos C4.5,  J48 ou até mesmo o velho ID3. Neste relatório é apresentado a execução de um método para criação de modelo preditivo usando algoritmos indutores de árvore de decisão.
  • Exemplo de regras de associação em uma base de transações: este relatório apresenta a análise de padrões frequentes em uma base de transações. Também é um exemplo bem didático, mas já dá para ter uma idéia sobre o seu modo de funcionamento.

Existem outros exemplos que eu quero apresentar. Mas para não deixar este post muito longo eu vou parar por aqui. Assim que possível, eu publico outro post com outros exemplos. Se você tiver alguma dúvida, comentário ou sugestão, por favor, envie um e-mail para fabricio dot barth at gmail dot com.

Obs.: Eu tive que desabilitar a função que permite inserir comentários nos posts porque a quantidade de spam estava ficando insuportável.