Pour Google, le contenu généré automatiquement est contraire aux consignes qu'il a données aux webmasters et considéré comme du spam

Google Search Central propose régulièrement des heures de bureau sur YouTube où tout le monde peut poser des questions aux experts Google lors d’un appel vidéo, concernant le référencement ou la recherche Google (crawling, indexation, contenu dupliqué, pagination…). Lors d’une récente heure de bureau Google SEO, John Mueller, Search Advocate, Web Trends Analyst chez Google, a affirmé que le contenu généré automatiquement à l’aide d’outils d’écriture d’intelligence artificielle est contraire aux consignes données aux webmasters par Google et considéré comme du spam.

Les heures de bureau de Google SEO (English Google SEO office-hours hangouts) sont publiques et enregistrées, afin que chacun tire profit des informations partagées. Toute personne travaillant sur un site Web (propriétaire de site, développeur, référenceur) qu’elle soit débutante au confirmée, peut y poser des questions, les soumettre à l’avance ou rejoindre la session en direct. Les vidéos sont ensuite disponibles sur la chaîne YouTube de Google Search Central.

John Mueller, recruté en 2007 par Google, Senior Webmaster Trends Analyst à Zurich, anime ces heures de bureau et y répond aux questions posées. L’une d’elles a récemment concerné les outils d’écriture GPT-3 d’Open AI.

GPT-3 d’OpenAI

GPT-3 (Generative Pre-trained Transformer 3) est, comme son nom l’indique, la 3ème version du modèle d’OpenAI, capable générer du texte à l’aide d’algorithmes préformés. L’équipe OpenAI a entraîné les algorithmes avec 570 Go de données de texte collectées sur Internet, notamment les données en libre accès de Common Crawl et les textes de Wikipédia. Le GPT-3 peut effectuer un grand nombre de tâches comme la recherche sémantique, traduire ou résumer des textes, en écrire ou encore générer du code informatique. Annoncé en mai 2020, ce modèle de langage autorégressif de 175 milliards de paramètres était alors le plus grand réseau de neurones qu’on n’ait jamais créé. Depuis, il a été dépassé par Gopher de Deepmind, annoncé en décembre dernier, qui compte 280 milliards de paramètres.

Il y a des discussions au sein de la communauté SEO (Search Engine Optimization) ou référencement naturel, sur la pertinence de l’utilisation des outils GPT-3 et d’autre part, si elle peut être acceptée du point de vue de Google. Pour John Mueller, tout contenu écrit par l’IA entre dans la catégorie du contenu généré automatiquement et pourrait entraîner une pénalité manuelle.

Le contenu généré automatiquement est contraire aux consignes de Google aux webmasters et considéré comme du spam

Quels que soient les outils utilisés pour le créer, le contenu écrit par des machines est considéré comme généré automatiquement et comme John Mueller l’a souligné, la position de Google sur le contenu généré automatiquement a toujours été claire.

Dans les consignes de Google aux webmasters, il est stipulé « d’éviter d’utiliser la génération automatique de contenu dans le but de manipuler les classements dans la recherche Google. »

John Mueller explique :

« Pour nous, ceux-ci tomberaient essentiellement dans la catégorie du contenu généré automatiquement, ce que nous avons dans les consignes aux webmasters depuis presque le début. Les gens génèrent automatiquement du contenu de différentes manières. Et pour nous, si vous utilisez des outils d’apprentissage automatique pour générer votre contenu, c’est essentiellement la même chose que si vous ne faisiez que mélanger des mots, ou rechercher des synonymes, ou faire appel à des astuces de traduction que les gens avaient l’habitude de faire. Ce genre de choses. »

Il ajoute :

« Je soupçonne que la qualité du contenu est peut-être un peu meilleure que celle des outils de la très vieille école, mais pour nous, il s’agit toujours de contenu généré automatiquement, ce qui signifie que pour nous, il est toujours contraire aux directives aux webmasters. Nous considérons donc qu’il s’agit de spam. »

A la question suivante qui était de savoir si Google peut détecter le contenu généré par l’IA, John Mueller a répondu :

« Je ne peux pas prétendre cela. Mais pour nous, si nous voyons que quelque chose est généré automatiquement, alors l’équipe webspam peut certainement prendre des mesures à ce sujet. »

Il conclut :

« Et peut-être qu’avec le temps, ces outils d’intelligence artificielle évolueront dans le sens où vous les utiliserez pour être plus efficaces dans votre écriture ou pour vous assurer que vous écrivez correctement, comme les outils de vérification de l’orthographe et de la grammaire, qui sont également basés sur apprentissage automatique. Mais je ne sais pas ce que l’avenir nous réserve. »