25 juin 2024

De nombreuses IA ne respectent pas les directives du fichier robots.txt. L'utilisation non autorisée de contenu Web par des sociétés d'IA.

L’utilisation non autorisée du contenu Web par l’IA menace l’industrie des médias, provoquant une surcharge des ressources et des plantages.

Le développement rapide de l’intelligence artificielle (IA) a ouvert de nouvelles frontières dans le traitement de l’information, mais a également soulevé d’importantes questions éthiques et juridiques. Récemment, il est apparu que plusieurs sociétés d’IA ignorent les normes du Web pour l’acquisition de contenu, telles que le protocole « robots.txt », suscitant des inquiétudes parmi les éditeurs et les experts en contenu numérique. Cet article explorera les implications de ces pratiques, analysera les conséquences pour l'industrie des médias et discutera des solutions possibles.

Contexte et signification du protocole « robots.txt »

Le protocole « robots.txt » a été introduit dans les années 90 pour permettre aux propriétaires de sites Web de contrôler quelles parties de leur site pourraient être indexées par les robots des moteurs de recherche. Cette norme est devenue un pilier pour garantir que le contenu Web ne soit pas surchargé de requêtes automatisées, tout en protégeant les droits des propriétaires de contenu.

Les directives robots.txt et le délai d'exploration

Le fichier « robots.txt » indique non seulement quelles pages un robot peut et ne peut pas visiter, mais propose également des directives cruciales telles que le « délai d'exploration ». Le « crawl delay » est un paramètre qui précise le délai qu’un bot doit respecter entre une requête et une autre au serveur. Cette directive est essentielle pour éviter qu'un site Web ne soit surchargé de requêtes, ce qui pourrait entraîner une augmentation significative de la charge CPU et des ressources du serveur.

Robots.txt

Le problème des entreprises d’IA ignorant les directives

De nombreuses entreprises d’IA ne respectent pas ces directives, ce qui entraîne une augmentation significative de la charge sur les serveurs des sites Web. Ce problème est particulièrement aigu pour les grands sites comportant des centaines de milliers de pages ou de produits. Lorsque plusieurs robots, légitimes et IA, explorent un site simultanément, La charge du processeur peut croître de façon exponentielle, atteignant des niveaux insoutenables. De plus, la charge sur la base de données augmente considérablement, les requêtes continues surchargeant les ressources de la base de données. Les processus PHP, souvent utilisés pour générer du contenu dynamique, peuvent ralentir, voire planter, aggravant encore la situation.

Étude de cas : impact réel sur les ressources du serveur

Un exemple pratique de ce problème concerne l’un de nos clients, qui a subi une surcharge importante en raison de l’analyse simultanée de plus de huit robots IA émergents. Ces robots ont continué à explorer le site pendant plus de huit heures, entraînant une augmentation de la charge du processeur de plus de 900 % par rapport aux niveaux normaux des derniers mois. Cette surcharge entraînait un ralentissement des performances du site et risquait de provoquer un crash complet.

L'affaire Perplexity et la réponse des éditeurs

Un exemple emblématique de ce problème est le conflit entre Forbes et Perplexity, une startup de recherche d’IA qui développe des outils pour générer des résumés automatiques. Forbes a publiquement accusé Perplexity d'utiliser ses articles d'investigation pour générer des résumés d'IA sans autorisation, contournant les restrictions imposées par le protocole « robots.txt ». Une enquête menée par Wired a confirmé que Perplexity contourne probablement le protocole pour contourner les blocages.

Cette affaire a suscité d'importantes inquiétudes au sein de la News Media Alliance, un groupe professionnel représentant plus de 2.200 XNUMX éditeurs aux États-Unis. La présidente Danielle Coffey a souligné que le fait de ne pas mettre un terme à ces pratiques pourrait sérieusement compromettre la capacité de l'industrie des médias à monétiser son contenu et à rémunérer les journalistes.

Le rôle de TollBit

En réponse à ces problématiques est née TollBit, une startup qui se positionne comme intermédiaire entre les entreprises d’IA et les éditeurs. TollBit surveille le trafic de l'IA sur les sites Web des éditeurs et utilise des analyses avancées pour aider les deux parties à négocier les frais de licence pour l'utilisation du contenu.

TollBit a signalé que non seulement Perplexity, mais de nombreux agents d'IA contournent le protocole « robots.txt ». La société a collecté des données auprès de plusieurs éditeurs qui montrent un schéma clair de violations de protocole par différentes sources d'IA, indiquant un problème répandu dans l'industrie.

Les implications juridiques et les perspectives d’avenir

Le protocole « robots.txt » ne dispose d'aucun mécanisme d'application juridique clair, ce qui complique la capacité des éditeurs à se défendre contre ces pratiques. Cependant, certains signes indiquent que certains groupes, comme la News Media Alliance, envisagent d'éventuelles actions en justice pour protéger leurs droits.

Pendant ce temps, certains éditeurs adoptent des approches différentes. Par exemple, le New York Times a engagé des poursuites judiciaires contre des sociétés d’IA pour violation du droit d’auteur, tandis que d’autres signent des accords de licence avec des sociétés d’IA prêtes à payer pour le contenu. Cependant, de nombreux désaccords subsistent quant à la valeur des documents fournis par les éditeurs.

conclusion

L’utilisation non autorisée de contenus Web par les sociétés d’IA représente un problème important pour l’industrie des médias. À mesure que les technologies de l’IA continuent d’évoluer, il est crucial d’établir un équilibre qui protège les droits des créateurs de contenu tout en garantissant l’innovation technologique. Des initiatives telles que celle de TollBit et d'éventuelles actions en justice pourraient constituer des étapes importantes vers une solution équitable, mais le dialogue entre les parties concernées reste essentiel pour construire un avenir durable pour tous.

Vous avez des doutes ? Vous ne savez pas par où commencer ? Contactez-nous !

Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

AVIS DE NON-RESPONSABILITÉ, Mentions légales et droits d'auteur. Red Hat, Inc. détient les droits sur Red Hat®, RHEL®, RedHat Linux® et CentOS® ; AlmaLinux™ est une marque commerciale de la AlmaLinux OS Foundation ; Rocky Linux® est une marque déposée de la Rocky Linux Foundation ; SUSE® est une marque déposée de SUSE LLC ; Canonical Ltd. détient les droits sur Ubuntu® ; Software in the Public Interest, Inc. détient les droits sur Debian® ; Linus Torvalds détient les droits sur Linux® ; FreeBSD® est une marque déposée de la Fondation FreeBSD ; NetBSD® est une marque déposée de la Fondation NetBSD ; OpenBSD® est une marque déposée de Theo de Raadt ; Oracle Corporation détient les droits sur Oracle®, MySQL®, MyRocks®, VirtualBox® et ZFS® ; Percona® est une marque déposée de Percona LLC ; MariaDB® est une marque déposée de MariaDB Corporation Ab ; PostgreSQL® est une marque déposée de PostgreSQL Global Development Group ; SQLite® est une marque déposée de Hipp, Wyrick & Company, Inc. ; KeyDB® est une marque déposée d'EQ Alpha Technology Ltd. ; Typesense® est une marque déposée de Typesense Inc. ; REDIS® est une marque déposée de Redis Labs Ltd ; F5 Networks, Inc. détient les droits sur NGINX® et NGINX Plus® ; Varnish® est une marque déposée de Varnish Software AB ; HAProxy® est une marque déposée de HAProxy Technologies LLC ; Traefik® est une marque déposée de Traefik Labs ; Envoy® est une marque déposée de CNCF ; Adobe Inc. détient les droits sur Magento® ; PrestaShop® est une marque déposée de PrestaShop SA ; OpenCart® est une marque déposée d'OpenCart Limited ; Automattic Inc. détient les droits sur WordPress®, WooCommerce® et JetPack® ; Open Source Matters, Inc. détient les droits sur Joomla® ; Dries Buytaert détient les droits sur Drupal® ; Shopify® est une marque déposée de Shopify Inc. ; BigCommerce® est une marque déposée de BigCommerce Pty. Ltd.; TYPO3® est une marque déposée de la TYPO3 Association; Ghost® est une marque déposée de la Ghost Foundation; Amazon Web Services, Inc. détient les droits sur AWS® et Amazon SES® ; Google LLC détient les droits sur Google Cloud™, Chrome™ et Google Kubernetes Engine™ ; Alibaba Cloud® est une marque déposée d'Alibaba Group Holding Limited ; DigitalOcean® est une marque déposée de DigitalOcean, LLC ; Linode® est une marque déposée de Linode, LLC ; Vultr® est une marque déposée de The Constant Company, LLC ; Akamai® est une marque déposée d'Akamai Technologies, Inc. ; Fastly® est une marque déposée de Fastly, Inc. ; Let's Encrypt® est une marque déposée d'Internet Security Research Group ; Microsoft Corporation détient les droits sur Microsoft®, Azure®, Windows®, Office® et Internet Explorer® ; Mozilla Foundation détient les droits sur Firefox® ; Apache® est une marque déposée de The Apache Software Foundation ; Apache Tomcat® est une marque déposée de The Apache Software Foundation ; PHP® est une marque déposée de PHP Group ; Docker® est une marque déposée de Docker, Inc. Kubernetes® est une marque déposée de The Linux Foundation ; OpenShift® est une marque déposée de Red Hat, Inc. ; Podman® est une marque déposée de Red Hat, Inc. ; Proxmox® est une marque déposée de Proxmox Server Solutions GmbH ; VMware® est une marque déposée de Broadcom Inc. ; CloudFlare® est une marque déposée de Cloudflare, Inc. ; NETSCOUT® est une marque déposée de NETSCOUT Systems Inc. ; ElasticSearch®, LogStash® et Kibana® sont des marques déposées d'Elastic NV ; Grafana® est une marque déposée de Grafana Labs ; Prometheus® est une marque déposée de The Linux Foundation ; Zabbix® est une marque déposée de Zabbix LLC ; Datadog® est une marque déposée de Datadog, Inc. ; Ceph® est une marque déposée de Red Hat, Inc. ; MinIO® est une marque déposée de MinIO, Inc. ; Mailgun® est une marque déposée de Mailgun Technologies, Inc. ; SendGrid® est une marque déposée de Twilio Inc. Postmark® est une marque déposée d'ActiveCampaign, LLC ; cPanel®, LLC détient les droits sur cPanel® ; Plesk® est une marque déposée de Plesk International GmbH ; Hetzner® est une marque déposée de Hetzner Online GmbH ; OVHcloud® est une marque déposée d'OVH Groupe SAS ; Terraform® est une marque déposée de HashiCorp, Inc. ; Ansible® est une marque déposée de Red Hat, Inc. ; cURL® est une marque déposée de Daniel Stenberg ; Facebook®, Inc. détient les droits sur Facebook®, Messenger® et Instagram®. Ce site n'est pas affilié, sponsorisé ou autrement associé à l'une des entités mentionnées ci-dessus et ne représente aucune de ces entités de quelque manière que ce soit. Tous les droits sur les marques et noms de produits mentionnés sont la propriété de leurs titulaires respectifs des droits d'auteur. Toutes les autres marques mentionnées sont la propriété de leurs titulaires respectifs.

JUSTE UN MOMENT !

Vous êtes-vous déjà demandé si votre hébergement était nul ?

Découvrez dès maintenant si votre hébergeur vous pénalise avec un site web lent digne des années 1990 ! Résultats immédiats.

Fermer le CTA
Retour en haut de page