No dia 20 de março de 2014 eu iniciei o tema Aprendizagem de Máquina na disciplina de Sistemas Inteligentes. Neste dia eu apresentei para a turma os conceitos básicos sobre Aprendizagem de Máquina, Supervisionada e Não Supervisionada, e a linguagem de programação e ambiente R que vamos utilizar até o final do tema. Foi uma aula expositiva que utilizou este material: Aprendizagem de Máquina e Processamento de Dados no R.

Na aula do dia 27 de março eu propus aos alunos capturar dados sobre imóveis (apartamentos na cidade de São Paulo) disponíveis em sites Web para avaliar se é possível criar um modelo de regressão capaz de definir o preço de um imóvel dado alguns atributos (área, quantidade de quartos, vagas para carros, o bairro do imóvel, entre outros).

Utilizamos a ferramenta www.kimonolabs.com para fazer um wrapper de um site de imóveis. No dia 27 de março fizemos a aquisição de dados sobre imóveis da cidade de São Paulo, organizamos o projeto no GitHub, configuramos o ambiente de desenvolvimento (RStudio) e fazemos os primeiros scripts em R para a aquisição e pré-processamento dos dados. O resultado deste trabalho pode ser visto no commit 162cb39 do projeto https://github.com/fbarth/predictApartmentPrice.

Quais são as vantagens e desvantagens ao utilizar uma base de dados real ao invés de utilizar bases de dados acadêmicas (por exemplo, http://archive.ics.uci.edu/ml/)?

  • Gastamos 4 horas de aula da disciplina sem discutir técnicas e algoritmos de aprendizagem de máquina.
  • Mas, gastamos 4 horas entendendo as dificuldades com a aquisição e pré-processamento dos dados - algo que é pouco discutido na área de Aprendizagem de Máquina e Data Mining, mas na prática é um grande problema.
  • Talvez, os alunos fiquem mais empolgados com a análise deste tipo de dado. Não sei. Só sei que eu acho mais legal.

Pretendo descrever neste blog a evolução deste projeto.