O professor do Instituto de Matemática e Estatística da USP (IME/USP), Marco Aurélio Gerosa, deu uma palestra na Universidade da Califórnia (UC), em Irvine, sobre mineração de informações técnicas e sociais em repositórios de software. Ele faz parte de um grupo de pesquisa do IME que investiga como extrair informações úteis no meio de tantos dados disponíveis na rede hoje em dia e falou um pouco sobre o assunto, explicando e exemplificando, na conferência que deu na UC Irvine.
A mineração de informações consiste na seleção e interpretação desse grande volume de dados que as pessoas trabalhando online geram. Desse total, nem tudo é interessante para que se empregue tempo fazendo pesquisas a respeito. Por isso é que a mineração é importante atualmente. Essa seleção de dados úteis e suas análises são feitas a partir de algoritmos. No grupo de pesquisa do IME, o foco não é no desenvolvimento dessas soluções computacionais, mas a seleção do algoritmo mais adequado para cada caso e a interpretação dos dados coletados. "As informações não são difíceis de serem encontradas, mas o volume de dados é muito grande. Então, ela não é como você acha a informação, mas como você tira informações úteis daquele grande volume de dados", explica Gerosa.
Em geral, os dados de rede ficam armazenados em repositórios de software, que são os registros de todas as informações do que ocorre durante o desenvolvimento de software livres, ou seja, aqueles que são feitos colaborativamente. Os repositórios armazenam tanto o que cada um dos indivíduos altera no código do software que está sendo desenvolvido quanto o que conversam nas listas de discussão daquela ferramenta.
Nesse caso, a mineração pode também ser utilizada para muitos fins, como para descobrir padrões nos códigos ou para se criar uma correlação entre o que é discutido nas listas e o que é alterado no software. "Um estudo nesse campo revelou que, quando há dois desenvolvedores que mexem num mesmo arquivo sem interagirem nas listas de discussão, aumenta-se as chances de ter problema no código, porque eles não se coordenaram e isso acabou induzindo a um problema. O autor chamou essa comparação entre as duas redes de congruência e utiliza-se isso para ver se o projeto está saudável.", exemplifica o professor.
A mineração de informações é muito utilizada, hoje, em sites de comércio online, quando eles indicam produtos relacionados para quem comprou, por exemplo, o produto X. Tudo aquilo que um usuário faz no site é armazenado, porém nem todas as informações são úteis. A mineração, então, serve para que se selecione o que mais todos os consumidores do mesmo produto X compraram e, assim, sugerir os produtos que forem comuns à maioria dos compradores de X, a quem também o está adquirindo.
Não só para o comércio a técnica de garimpagem pode ser utilizada. E-science é o uso de ferramentas computacionais para melhorar a ciência da humanidade como um todo. No entanto, aqui também a quantidade de dados é muito grande, o que exige o que as informações sejam selecionadas para que se possa chegar ao que é relevante para determinadas pesquisas. Diversas áreas, como biologia, medicina e astronomia, utilizam o e-science e, portanto, a mineração de informações.