Disciplina de Mineração de Dados (2016)
Conteúdo programático:
Introdução, KDD e Análise Exploratória
- 14/04/2016 - Relação da mineração de dados com Big Data e o contexto atual da Tecnologia da Informação.
- 14/04/2016 - Processo de Descoberta de Conhecimento.
- 14/04/2016 - Introdução a Aprendizagem de Máquina.
- 14/04/2016 - Hierarquia da Aprendizagem de Máquina Indutiva.
- 28/04/2016 - Pré-processamento (no R) e análise exploratória.
- 28/04/2016 - Exercícios sobre Análise Exploratória com R.
- 28/04/2016 - Design de projetos para criação de modelos preditivos e avaliação de classificadores.
- 12/05/2016 - Resolução dos exercícios sobre Análise Exploratória.
Aprendizagem de Máquina Supervisionada
- 12/05/2016 - Algoritmos Indutores de Árvores de Decisão
- 19/05/2016 - Aprendizado baseado em instâncias - knn
- 19/05/2016 - Exercício sobre construção de classificadores
- 02/06/2016 - Ensemble Learning: Random Forest
- 02/06/2016 - Classification and Regression by randomForest, Andy Liaw and Matthew Wiener
- 02/06/2016 - Random Forest: Algorithm
- 09/08/2016 - Continuação de Exercício sobre Construção de Classificadores
- 09/08/2016 - Entrega do enunciado do Segundo Projeto sobre Aprendizagem de Máquina Supervisionada - Exemplo de estrutura de projeto e solução.
- 11/08/2016 - Continuação de Exercício sobre Construção de Classificadores
- 25/08/2016 - Data máxima para entrega do projeto sobre detecção de atividades humanas a partir de sensores
Aprendizagem de Máquina Não-Supervisionada
- 25/08/2016 - Algoritmos de agrupamento - planos
- 01/09/2016 - Exercícios sobre algoritmos de agrupamento
- 01/09/2016 - Algoritmos de agrupamento - hierárquicos
- 08/09/2016 - Regras de Associação - Dataset exemplo para regras de associação
- 08/09/2016 - Projeto: Descobrindo segmentos de adolescentes em redes sociais
Avaliações e Text Mining
- 15/09/2016 - Avaliação individual
- 22/09/2016 - Text Mining
- 29/09/2016 - Data máxima para entrega do projeto sobre detecção de falhas em bombas de água
- 29/09/2016 - Fechamento da disciplina
- 08/10/2016 - Data máxima para entrega do projeto sobre descoberta de segmentos de adolescentes em redes sociais
Método de avaliação:
A nota final será calculada levando-se em consideração os três trabalho práticos, dois sobre aprendizagem de máquina supervisionada e um sobre aprendizagem de máquina não supervisionada, e a avaliação individual. A nota final será a média simples destas três avaliações.
Referências:
- EMC Education Services, editor. Data Science and Big Data Analytics: Discovering, Analysing, Visualizing and Presenting Data. John Wiley & Sons, 2015
- Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Springer, 4th edition, 2014.
- Redução de dimensionalidade
- Pedro Domingos. A Few Useful Things to Know about Machine Learning
- P. Branco, L. Torgo, R. P. Ribeiro. A Survey of Predictive Modelling under Imbalanced Distributions
- Outras referências serão apresentadas ao longo do curso.
Ferramentas:
- Projeto com exemplos de código da disciplina
- Linguagem de Programação R
- R Studio
- IBM Watson Developer Cloud
Dados:
- http://earthquake.usgs.gov/earthquakes/
- http://catalog.data.gov/dataset
- https://www.kaggle.com/
- UCI Machine Learning Repository
- https://www.kaggle.com/
- Outras baseas de dados serão adicionadas ao longo do curso