La détection de contenus similaires

La chasse au duplicate content

Savoir détecter les contenus similaires de son site web est crucial en SEO. Cela permet d’éviter que son contenu soit pénalisé sur les SERP. En effet, les moteurs de recherche classent les pages web en fonction de plusieurs critères. Lorsque du contenu similaire,  ou duplicate content, est détecté sur une page, son classement est dégradé.

Ce critère a été adopté par les moteurs de recherche afin de garantir l’originalité du contenu et ainsi favoriser une expérience utilisateur de qualité. En outre, cela leur permet d’éviter de déterminer comment positionner un contenu par rapport à un autre qui lui serait identique.

Comment détecter automatiquement des contenus similaires ? 

Il existe trois manières de détecter automatiquement des contenus similaires : la recherche par mots-clés, la recherche sémantique et la recherche hybride.

Si les deux premières emploient des procédés radicalement différents, la troisième les réunit, pour tenter de proposer une méthode plus complète et plus précise.

La recherche par mots-clés : la pondération des termes

Qu’est-ce qu’une recherche par mots-clés ? 

La recherche par mots-clés consiste à employer des mots ou des expressions spécifiques pour identifier les documents similaires. Pour ce faire, on construit un vecteur qui représente la fréquence d’apparition d’un terme. Par exemple, si l’on souhaite trouver des recettes de gâteau au chocolat, il suffit de chercher tous les documents contenant les mots-clés “recette”, “gâteau” et “chocolat”. 

Comment procéder ? 

Ce procédé est habituellement réalisé en utilisant la pondération TF-IDF. En bref, elle consiste à évaluer l’importance relative de chaque mot (TF) dans un document par rapport à sa présence dans une collection de documents (IDF). 

Term Frequency

Plus précisément, le Term Frequency s’effectue en comptant les occurrences d’un terme et en divisant cette somme par le nombre total de mots dans le document. On obtient la proportion de ce terme dans le document, et supposément son importance. Supposément, puisque les termes les plus souvent employés dans un document ne sont pas toujours les plus importants, à l’image des déterminants.

Inverse Document Frequency

La pondération IDF, quant à elle, désigne la récurrence d’un terme parmi un large corpus de documents pour en déterminer l’importance. On va donc diviser le nombre de documents compris dans le corpus par le nombre de documents contenant le terme étudié. 

Cette méthode connaît une variante permettant de prendre en compte la taille et la saturation des documents par un même terme : il s’agit de la formule BM25

Limites de la recherche par mots clés

La formule TF-IDF montre toutefois des limites qu’il est nécessaire de connaître pour en faire bon usage. Elle requiert de ne s’intéresser qu’à un seul mot ou une seule expression. Pour autant, l’élaboration d’un écrit nécessite souvent le recours à la synonymie ; ou encore le passage d’un vocabulaire vulgarisé à un lexique technique. Les nuances langagières ne seront pas considérées par la formule. En termes sémiologiques, l’ensemble des signes employés pour désigner un même objet ne seront pas pris en compte. De plus, elle ne permet pas de rendre compte de l’ordre d’apparition des termes dans un document.

La recherche sémantique : vectorisation du document

La recherche sémantique, en bref 

La recherche sémantique est plus complète que la recherche par mots-clés. Son degré plus élevé de précision dans la détection de similarité est permis par la compréhension du sens global d’un document. Toujours avec l’exemple de la recette du gâteau au chocolat, la recherche sémantique pourrait trouver plus de résultats en incluant des recettes à base de cacao ou de pâte à tartiner sans que jamais le mot “chocolat” ne soit employé.

Comment détecter des contenus similaires grâce à la recherche sémantique ?

Cette méthode fonctionne grâce à l’utilisation de modèles de langue, à l’image de BERT pour l’anglais et CamemBERT pour le français. Ils permettent de stocker des documents sous la forme de vecteurs qui capturent et représentent la sémantique, ainsi que les différentes relations entre les mots. Leur comparaison selon un score de similarité permet ensuite de déterminer s’il s’agit de contenus similaires ou non. La plupart du temps, on utilise la similarité cosinus

Capable d’entraîner un système sur de plus grands corpus de mots et de documents, la recherche sémantique peut avoir une idée du contexte associé aux termes, s’en servir et traiter des mots inconnus, mais surtout elle est capable de traiter les notions de sémantique.

Les limites de la recherche sémantique

Cette méthode est toutefois elle aussi confrontée à des limites. En l’occurrence, les résultats exprimés par ces modèles de langue sont complexes, et ne correspondent pas au raisonnement humain. Il est donc difficile de les interpréter. De plus, la recherche sémantique requiert plus de temps et de puissance de calcul. 

La recherche hybride : le meilleur des deux mondes 

La recherche hybride opère une recherche par mots-clés, tout en tenant compte du sens global du document. Par exemple, il est possible de trouver les recettes contenant les termes “recette”, “gâteau” et “chocolat”, tout en prenant en compte les recettes à base de cacao ou de pâte à tartiner ne contenant pas ces mots-clés.

Cette technique permet d’interroger un corpus très important, tout en ne proposant au final que les résultats les plus spécifiques et précis qui correspondent à la recherche.

Ce sujet vous intéresse ?

NOUS CONTACTER