De nouvelles normes en cours de développement ciblent les robots d’entraînement IA pour les empêcher d’accéder au contenu web public.
Ce sont des extensions du protocole Robots.txt et des balises Meta Robots qui donnent plus de contrôle sur l’utilisation des données en ligne.
Grâce à ces nouveautés, les éditeurs ont plus de pouvoir sur les accès à leurs contenus en ligne.
IA : Des tactiques de pêche aux informations de plus en plus sophistiquées
Les balises Meta
Désormais, Méta indexe le web. L’un de ses 2 robots est capable d’ignorer le fichier robots.txt. Le premier, FacebookBot, est intercepté par seulement 10% des pages principales en ligne. Le second, Meta-ExternalFetcher, est intercepté encore plus difficilement, par moins de 1% des pages actuelles.
Seulement 1,5% des pages peuvent bloquer l’association des 2 bots :
Malheureusement, les nouveaux robots de Meta ne tiennent pas compte des restrictions des sites vis-à-vis des robots antérieurs de Meta. Plus évoluées que les précédentes, ces deux récentes innovations constituent un danger pressant pour les créations originales disponibles en ligne.
Des robots de plus en plus perfectionnés
En fonction de l’hébergement choisi, les éditeurs n’ont pas tous accès à leur fichier robots.txt pour mise à jour. Or pour bloquer les robots d’exploration en nombre croissant, il faut être capable de les identifier, puis éditer le fichier robots.txt.
En outre, la nouvelle norme fixe à 500 KO la taille maximale du fichier robots.txt conventionnel. De plus, bloquer Googlebot ou Bingbot revient à s’auto-exclure simultanément des produits ou bots d’IA et des SERP.
Cependant, le tout ne consiste pas à bloquer l’accès à l’IA sur votre site web. En pratique, c’est plus le mode d’utilisation des données récoltées que l’accès en lui-même qui expose aux sanctions des droits d’auteurs.
Pour tout ce qui précède, le fichier robots.txt est limité face aux incursions de l’IA.
De nouvelles règles pour bloquer les robots IA
Quelques solutions pratiques permettent l’accès des IA aux données de manière licite.
Les extraits de code spécifiques du fichier robots.txt (solutions limitées)
- Les règles des scrapers IA
- Les règles pour le robot d’exploration IA et les assistants IA
Les solutions communes (Creative Commons)
- CC0 autorise à : distribuer, remixer, adapter et développer un matériel sous n’importe quel format et sur n’importe quel support sans condition.
- La licence CC BY-SA : Pareil que le précédent, à condition de mentionner l’auteur.
- La licence CC BY-NC-SA : Pareil que la licence CC0, à des fins uniquement non commerciales. En cas de modification du matériel, une licence supplémentaire est nécessaire.
- CC BY-NC-ND : Pareil que la licence CC0, à des fins uniquement non commerciales, sous une forme non adaptée, en mentionnant l’auteur et sans autorisation de dérivés ou d’adaptation de l’œuvre.
- La licence CC BY : Pareil que la licence CC0, avec l’autorisation commerciale tout en accréditant l’auteur ou créateur.
- CC BY-NC : Pareil que la licence CC0, uniquement à des fins non commerciales et à condition de donner crédit à l’auteur.
- La licence CC BY-ND : Pareil que la licence CC0, pour les étudiants en Master, avec autorisation commerciale avec crédit à l’auteur mais sans adaptation.
Les balises Meta
La balise Meta noindex empêche le crawling et n’est pas suffisamment sophistiquée. Une solution plus précise s’impose.
Les balises de droits d’auteurs sont mieux adaptées :
- Dublin Core
- rights-standard
- copyright-meta
- Etc.
Pour les sites qui ont bloqué les robots précédents de Meta, ils doivent reproduire la même action avec les nouveaux bots.
Les propositions de Microsoft
Microsoft a proposé plusieurs solutions de protection à l’Internet Engineering Task Force (IETF) face à l’invasion de l’IA. Ce sont :
- Les règles supplémentaires de fichier robots.txt : DisallowAITraining empêche d’exploiter les données pour entraîner l’IA, tandis que AllowAITraining l’autorise.
- Les en-têtes de réponse de la couche application : Les propriétaires s’en serviront pour définir les règles similaires à celles du fichier robots.txt
- Les balises méta HTML <meta name=“robots” content=“DisallowAITraining”> et <meta name=“AllowAITraining”>
Plusieurs tentatives pour une solution infaillible
Les propositions de Microsoft sont assorties d’une mise en garde :
Ce projet Internet est soumis en pleine conformité avec les dispositions des BCP 78 et BCP 79. Les projets Internet sont des documents de travail de l’Internet Engineering Task Force (IETF). Notez que d’autres groupes peuvent également distribuer des documents de travail sous forme de projets Internet. La liste des projets Internet actuels est disponible à l’adresse https://datatracker.ietf.org/drafts/current/. Les projets Internet sont des projets de documents valables pour une durée maximale de six mois et peuvent être mis à jour, remplacés ou rendus obsolètes par d’autres documents à tout moment. Il est inapproprié d’utiliser les projets Internet comme matériel de référence ou de les citer autrement que comme des ‘travaux en cours’.
Pour l’instant, les balises Meta sont plus performantes que le fichier robots.txt pour contrôler l’utilisation des droits d’auteurs par l’IA. Les recherches se poursuivent en continu, face à une technologie IA qui évolue à grande vitesse.
Cependant, leur efficacité effective dépend de l’identification claire et de la conformité des entreprises conceptrices de produits d’IA.
Mon avis perso
- Privilégiez les balises qui identifient et bloquent les robots IA sans empêcher l’indexation de votre contenu dans les SERP
- Restez à l’écoute des nouveautés, car les technologies IA évoluent très rapidement.