Recomendação de conteúdos de plataformas de streaming utilizando técnicas de machine learning
Abstract
This work aimed to study different machine learning models for recommending films and series. Machine learning techniques provided the basis for the elaboration of the models developed in this work. Using these techniques, five machine learning models were developed for recommending films and series. A model developed was the Pearson correlation, a statistical score to evaluate the degree of linear correlation between two variables, to make recommendations, individuals with the highest degree of correlation are determined and films with a good rating are recommended for these individuals in which they were not watched by the target user. The second model was K-Means in which clusters of individuals with similar characteristics are formed, so when a new individual is presented, the distance from the center of these clusters is calculated to determine which cluster this new individual belongs
to. Thus, films that were not seen by an individual, but were seen by another individual in the
same group, are recommended to him. The third model developed was K Nearest Neighbors,
a non-parametric supervised learning classifier, which uses proximity to make classifications
or predictions about the clustering of an individual data point. The use of genres, films, cast,
director, and keywords to make recommendations with films close to those that a user has
watched. The fourth model developed was content-based, using TF-IDF to see the score
between genres and films, so films with genres with similar scores correspond with similar
films. The fifth model developed was the item-based collaborative filter method that searches
for similar items based on items that users have already liked or positively interacted with.
The qualities of the evaluations, the data sets were divided, one for training and the other for
validation. In the validation dataset, some films that users watched were “hidden”, so that when the models make recommendations, if these “hidden” films were recommended, the model recommended them well. For models where there are no users, a website was developed in which the user selects films that he liked and based on the selected films, a film is recommended. After the recommendation, a survey was carried out to check whether the recommendation was in the user's preferences. Este trabalho visou o estudo de diferentes modelos de aprendizado de máquina para
recomendação de filmes e séries. As técnicas de aprendizado de máquinas forneceram a base para a elaboração dos modelos desenvolvidos nesse trabalho. Utilizando essas técnicas foram desenvolvidos cinco modelos de aprendizado de máquinas para recomendação de filmes e séries. Um modelo desenvolvido foi a correlação de Pearson uma pontuação estatística para avaliar o grau de correlação linear entre duas variáveis, para realizar as recomendações é determinado os indivíduos com maior grau de correlação e recomendado filmes com uma boa
avaliação desses indivíduos em que não foram assistidos pelo usuário alvo. Segundo modelo foi o K-Means em que são formados agrupamentos de indivíduos com características semelhantes, assim quando um novo individuo é apresentado calcula-se a distância do centro desses agrupamentos para determinar em qual agrupamento esse novo individuo pertence.
Assim os filmes que não foram vistos por um indivíduo, mas foram por outro individuo no mesmo grupo são recomendados para ele. O terceiro modelo desenvolvido foi K Vizinhos mais próximos, um classificador de aprendizagem supervisionado não paramétrico, que usa proximidade para fazer classificações ou previsões sobre o agrupamento de um ponto de dados individual. A utilização de gêneros, filmes, elenco, diretor e palavras chaves para realizar recomendações com filmes próximos aos que um usuário assistiu. O quarto modelo desenvolvido foi baseado em conteúdo, utilizando o TF-IDF para ver a pontuação entre os gêneros e os filmes, assim filmes com gêneros com pontuações semelhantes correspondem
com filmes semelhantes. O quinto modelo desenvolvido foi o filtro colaborativo item-based método que procura itens semelhantes com base nos itens que os usuários já gostaram ou com os quais interagiram positivamente. As qualidades das avaliações,
foi dividido os conjuntos de dados sendo um para treinamento e o outro para a validação. No conjunto de dados de validação foram “escondidos” alguns filmes que os usuários assistiram, para que quando os modelos fizerem as recomendações se esses filmes “escondidos” tiverem na recomendação o modelo teve recomendou bem. Para os modelos que não há usuários foi desenvolvido um site em que o usuário seleciona filmes que ele gostou e com base nos filmes selecionados é recomendado um filme, após a recomendação foi realizado uma pesquisa para
verificar se a recomendação esteve nas preferências do usuário.