IA : robots, balises Meta et règles en évolution

De nouvelles normes en cours de développement ciblent les robots d’entraînement IA pour les empêcher d’accéder au contenu web public.

Ce sont des extensions du protocole Robots.txt et des balises Meta Robots qui donnent plus de contrôle sur l’utilisation des données en ligne.

Grâce à ces nouveautés, les éditeurs ont plus de pouvoir sur les accès à leurs contenus en ligne.

IA : Des tactiques de pêche aux informations de plus en plus sophistiquées

Les balises Meta

Désormais, Méta indexe le web. L’un de ses 2 robots est capable d’ignorer le fichier robots.txt. Le premier, FacebookBot, est intercepté par seulement 10% des pages principales en ligne. Le second, Meta-ExternalFetcher, est intercepté encore plus difficilement, par moins de 1% des pages actuelles.

Seulement 1,5% des pages peuvent bloquer l’association des 2 bots :

Les entreprises devraient offrir aux sites Web la possibilité de bloquer l’utilisation des données de leurs sites à des fins de formation sans réduire la visibilité du contenu des sites Web dans leurs produits.
Jon Gillham, PDG d’Originality.ai

Malheureusement, les nouveaux robots de Meta ne tiennent pas compte des restrictions des sites vis-à-vis des robots antérieurs de Meta. Plus évoluées que les précédentes, ces deux récentes innovations constituent un danger pressant pour les créations originales disponibles en ligne.

Des robots de plus en plus perfectionnés

En fonction de l’hébergement choisi, les éditeurs n’ont pas tous accès à leur fichier robots.txt pour mise à jour. Or pour bloquer les robots d’exploration en nombre croissant, il faut être capable de les identifier, puis éditer le fichier robots.txt.

En outre, la nouvelle norme fixe à 500 KO la taille maximale du fichier robots.txt conventionnel. De plus, bloquer Googlebot ou Bingbot revient à s’auto-exclure simultanément des produits ou bots d’IA et des SERP.

Cependant, le tout ne consiste pas à bloquer l’accès à l’IA sur votre site web. En pratique, c’est plus le mode d’utilisation des données récoltées que l’accès en lui-même qui expose aux sanctions des droits d’auteurs.

Pour tout ce qui précède, le fichier robots.txt est limité face aux incursions de l’IA.

De nouvelles règles pour bloquer les robots IA

Quelques solutions pratiques permettent l’accès des IA aux données de manière licite.

Les extraits de code spécifiques du fichier robots.txt (solutions limitées)

Les règles des scrapers IA
Les règles pour le robot d’exploration IA et les assistants IA

Les solutions communes (Creative Commons)

CC0 autorise à : distribuer, remixer, adapter et développer un matériel sous n’importe quel format et sur n’importe quel support sans condition.
La licence CC BY-SA : Pareil que le précédent, à condition de mentionner l’auteur.
La licence CC BY-NC-SA : Pareil que la licence CC0, à des fins uniquement non commerciales. En cas de modification du matériel, une licence supplémentaire est nécessaire.
CC BY-NC-ND : Pareil que la licence CC0, à des fins uniquement non commerciales, sous une forme non adaptée, en mentionnant l’auteur et sans autorisation de dérivés ou d’adaptation de l’œuvre.
La licence CC BY : Pareil que la licence CC0, avec l’autorisation commerciale tout en accréditant l’auteur ou créateur.
CC BY-NC : Pareil que la licence CC0, uniquement à des fins non commerciales et à condition de donner crédit à l’auteur.
La licence CC BY-ND : Pareil que la licence CC0, pour les étudiants en Master, avec autorisation commerciale avec crédit à l’auteur mais sans adaptation.

Les balises Meta

La balise Meta noindex empêche le crawling et n’est pas suffisamment sophistiquée. Une solution plus précise s’impose.

Les balises de droits d’auteurs sont mieux adaptées :

Dublin Core
rights-standard
copyright-meta
Etc.

Pour les sites qui ont bloqué les robots précédents de Meta, ils doivent reproduire la même action avec les nouveaux bots.

Les propositions de Microsoft

Microsoft a proposé plusieurs solutions de protection à l’Internet Engineering Task Force (IETF) face à l’invasion de l’IA. Ce sont :

Les règles supplémentaires de fichier robots.txt : DisallowAITraining empêche d’exploiter les données pour entraîner l’IA, tandis que AllowAITraining l’autorise.
Les en-têtes de réponse de la couche application : Les propriétaires s’en serviront pour définir les règles similaires à celles du fichier robots.txt
Les balises méta HTML <meta name=“robots” content=“DisallowAITraining”> et <meta name=“AllowAITraining”>

Plusieurs tentatives pour une solution infaillible

Les propositions de Microsoft sont assorties d’une mise en garde :

Ce projet Internet est soumis en pleine conformité avec les dispositions des BCP 78 et BCP 79. Les projets Internet sont des documents de travail de l’Internet Engineering Task Force (IETF). Notez que d’autres groupes peuvent également distribuer des documents de travail sous forme de projets Internet. La liste des projets Internet actuels est disponible à l’adresse https://datatracker.ietf.org/drafts/current/. Les projets Internet sont des projets de documents valables pour une durée maximale de six mois et peuvent être mis à jour, remplacés ou rendus obsolètes par d’autres documents à tout moment. Il est inapproprié d’utiliser les projets Internet comme matériel de référence ou de les citer autrement que comme des ‘travaux en cours’.

Pour l’instant, les balises Meta sont plus performantes que le fichier robots.txt pour contrôler l’utilisation des droits d’auteurs par l’IA. Les recherches se poursuivent en continu, face à une technologie IA qui évolue à grande vitesse.

Cependant, leur efficacité effective dépend de l’identification claire et de la conformité des entreprises conceptrices de produits d’IA.

Mon avis perso

Privilégiez les balises qui identifient et bloquent les robots IA sans empêcher l’indexation de votre contenu dans les SERP
Restez à l’écoute des nouveautés, car les technologies IA évoluent très rapidement.

Youpi Blue® > Optimisez vos avis et votre réputation

Nicolas CHAUDHARY Nicolas est passionné par le SEO

Expert SEO depuis 10 ans, Nicolas rend le référencement accessible à tous. Il booste la visibilité web avec une approche humaine et axée sur l'IA.

Voir la biographie complète

EXPLOREZ

Actu robots IA : Nouvelle ère, nouvelles règles

Robots IA plus intelligents, nouvelles protections nécessaires. Découvrez les balises Meta avancées et règles pour robots.txt pour garder le contrôle sur vos contenus.

IA : Des tactiques de pêche aux informations de plus en plus sophistiquées

Les balises Meta

Des robots de plus en plus perfectionnés

De nouvelles règles pour bloquer les robots IA

Les extraits de code spécifiques du fichier robots.txt (solutions limitées)

Les solutions communes (Creative Commons)

Les balises Meta

Les propositions de Microsoft

Plusieurs tentatives pour une solution infaillible

Mon avis perso

Restez connecté

En avant-première

LinkedIn : à quoi sert-il ? Son utilité en détails

Quelle différence compte Pro vs Perso LinkedIn ?

Algorithme LinkedIn : visibilité & engagement

Optimiser linkedin : photo, titre, résumé recruteur

EXPLOREZ

IA : Des tactiques de pêche aux informations de plus en plus sophistiquées

Les balises Meta

Des robots de plus en plus perfectionnés

De nouvelles règles pour bloquer les robots IA

Les extraits de code spécifiques du fichier robots.txt (solutions limitées)

Les solutions communes (Creative Commons)

Les balises Meta

Les propositions de Microsoft

Plusieurs tentatives pour une solution infaillible

Mon avis perso

Restez connecté

En avant-première

Vous aimerez peut-être aussi