Análise de informações não estruturadas (texto)

Informações não estruturadas representam a fonte de informações maior, mais atual e com crescimento mais rápido disponível atualmente. Essas informações existem em muitas origens diferentes, como registros de centrais de atendimento, blogs, e-mails, relatórios, atas e muitas outras. Analisar tais fontes de informação tem um custo alto: contabilizar quantas vezes uma empresa ou pessoa é citada em um conjunto de 1.000 documentos, avaliar a opinião de consumidores em blogs sobre uma determinada marca e identificar ligações entre empresas ou pessoas nas notícias publicadas nas últimas semanas na Internet são exemplos de atividades que se realizadas por pessoas irão necessitar de muitas horas de trabalho.

Felizmente, dentro das áreas de text mining e Machine Learning é possível encontrar algumas técnicas que permitem: a identificação de entidades nomeadas (i.e., pessoas e empresas) de forma automática em textos, e; identificar o sentimento de uma determinada frase em um texto (Esta frase é positiva ou negativa? Esta frase apresenta um ponto de vista parcial ou imparcial?).

Exemplos de trabalhos que fazem uso destas técnicas são: Mineração de Textos usando Agrupamento Hierárquico e Reconhecedor de Entidades Nomeadas em um ambiente de investigação policia, Mineração de opiniões aplicada à análise de investimentos e Our Sentiments, Exactly.

Além disso, posso sugerir a leitura do survey Opinion Mining and Sentiment Analysis de Bo Pang and Lillian Lee e do livro Foundations of Statistical Natural Language Processing de Chris Manning and Hinrich Schütze para quem quiser se atualizar sobre o assunto.