RapidMiner: uma ferramenta para mineração de textos e dados.
Durante alguns anos eu tenho utilizado uma ferramenta para Data Mining, Text Mining e Web Mining chamada RapidMiner. Ao utilizar esta ferramenta é possível definir um processo de tratamento dos dados, inserindo operadores responsáveis por: I/O (entrada e saída); algoritmos de aprendizagem (supervisionados ou não); funções de on-line analytical processing; pré-processamento; validação, e; visualização.
Trata-se de uma ferramenta open-source muito útil que tem evoluído muito ao longo dos últimos anos. Maiores detalhes sobre esta ferramenta podem ser obtidos neste documento (uma apresentação que eu fiz no SouJava em 2008).
Na semana passada eu realizei um trabalho sobre análise de patentes e artigos para identificação de tendências tecnológicas para uma determinada área. Uma descrição deste trabalho pode ser encontrada aqui. Para fazer este trabalho eu utilizei a versão 5.0 do RapidMiner.
Ao utilizar a versão 5.0 do RapidMiner eu tive uma grata surpresa com relação: (i) a nova interface com o usuário; (ii) com os novos operadores disponíveis, e; (iii) com o update automático que foi implementado. Todas estas novas funcionalidades facilitaram muito o meu trabalho.
Claro que nem tudo é mil maravilhas... Utilizar a versão 5.0 do RapidMiner em uma máquina com menos de 2GB de RAM é quase impossível. Mas, mesmo assim, eu ainda aconselho a utilização do RapidMiner para qualquer pessoa ou empresa.