O que é mais importante para convencer alguém a comprar um produto? William Jean Fuks acredita que achar a mercadoria é o passo primordial. Sua dissertação, Estudo Estatístico do Comportamento de Usuários da Internet, apresentada recentemente na Escola Politécnica, analisa justamente essa questão.
O mercado de anúncios na rede mundial de computadores é, segundo Fuks, um assunto que está em alta, tanto nos meios empresariais quantos nos meios acadêmicos. O crescimento do setor é inegável, entre 2010 e 2016, os investimentos em marketing online mais do que dobraram.
No universo da propaganda online, “melhor” significa mais cliques. Melhorar um anúncio é fazer com que mais pessoas nele cliquem. É por isso que a pesquisa de Fuks pretende prever se confrontado com um anúncio o usuário “vai gostar desse anúncio, vai despertar interesse ou não. Isso é conhecido como CTR.” Essa medida, Click-through rate (taxa de cliques), é o dimensionamento de algo subjetivo, que é o “gostar” de um anúncio. Ou seja, objetivo do trabalho é “prever a probabilidade de um usuário se interessar e esse interesse ser expresso pelo clique”.
A construção do algoritmo
A pesquisa foi conduzida em parceria com o site Lomadee, que foi responsável pelo fornecimento de dados para os experimentos. O site atua na área de anúncios online e funciona da seguinte maneira: um cliente qualquer contrata o Lomadee, sua tarefa então é escolher o melhor anúncio para quem o contratou. Para fazer isso, é preciso prever qual anúncio tem maior chance de ser clicado. É aí que entram os algoritmos.
Eles se comportam como um passo-a-passo para a realização de um cálculo. São um método conciso para definição de uma função. Dados parâmetros finitos, uma lista de tamanho específico é executada e um resultado é obtido. São usados para os mais variados objetivos, desde cálculos simples até previsões de cliques em anúncios online.
Fuks comenta que uma possível solução para essa previsão seria obter os dados históricos de certo anúncio e ver quantas vezes aquele anúncio foi clicado em determinado site. Entretanto, ainda segundo o pesquisador, esse método é pouco robusto, possui grandes falhas óbvias – um anúncio nunca impresso não poderia ser avaliado, por exemplo – é a chamada “solução trivial”.
Para aprimorar tal solução, Fuks usou um modelo híbrido, que é a aplicação de variadas técnicas já propostas na literatura a fim de melhorar os resultados. Em especial Fuks se baseou no texto “Response Prediction using Collaborative Filtering with Hierarchies and Side-information” de Nagaraj Kota, Aditya Menon, Krishna Prasad Chitrapura, Sachin Garg e Deepak Agarwal.
As previsões são feitas, em geral, usando dois métodos. O primeiro deles utiliza os chamados “pesos de confiança” que tem como objetivo usar um banco de dados com CTR de variados anúncios para estimar a probabilidade de um anúncio ser clicado. Esse cálculo é feito de modo que o resultado é “suavizado”, ou seja, ele considera erros do preditor, leva em consideração o número de visualizações do site em geral – um anúncio com maiores visualizações tem um peso maior no cálculo, por isso o nome – e contabiliza outras características que permitem uma previsão mais confiável e distante da solução trivial. O segundo é o modelo de side information, que leva em consideração, além do que já era considerado no primeiro, as características do anúncio em si: posição, cor e tema, por exemplo.
O modelo híbrido usa ambas abordagens e ainda leva em consideração outros aspectos. A contribuição da pesquisa à literatura do assunto foi feita nesta área. Fuks adicionou a componente tempo ao algoritmo. A previsão será diferente dependendo do período que o usuário acessasse o site.
Depois dos experimentos Fuks conclui sua pesquisa com uma melhora substancial. Usando seu melhor algoritmo com a componente temporal, Fuks conseguiu melhorar o método utilizado hoje no Lomadee em quase dez vezes, ou seja, o método criado para a dissertação comete até dez vezes menos erros de previsão do que o usado atualmente no site.