Abstract:
Le plagiat représente un grand défi pour plusieurs domaines. Dans cet article, nous proposons une méthode alternative à l’approche standard de comparaison mot à mot. Cette méthode permet la détection de plagiat dans des documents rédigés en langue française en se basant sur l’utilisation des réseaux de neurones et plus précisément les embeddings des documents. Nous comparons par la suite nos résultats obtenus avec une méthode naïve. Pour le corpus exploité, nous avons utilisé une collection de documents français collectée à partir du Web pour l’apprentissage de notre modèle Doc2Vec. Nos résultats obtenus surpassent ceux obtenus avec la méthode baseline. Nous avons pu obtenir une précision de 64%.