Tumblr et WordPress envisageraient de vendre les données de leurs utilisateurs à OpenAI et Midjourney

Selon des sources de 404 Media, un site web de journalisme indépendant lancé l’an passé par d’anciens employés de Vice Media, Automattic, qui possède Tumblr et WordPress, serait sur le point de signer un accord avec OpenAI et Midjourney qui permettrait à ces derniers d’exploiter le contenu des utilisateurs des deux plateformes pour entraîner leurs modèles d’IA générative.

Selon 404 Media, les types exacts de données de chaque plateforme destinées à chacune des entreprises ne sont pas précisés dans la documentation qu’il a examinée, mais les communications internes indiquent clairement que les accords entre Automattic et OpenAI et Midjourney sont imminents.

Il rapporte toutefois que tous les contenus publics de tumblr entre 2014 et 2023 ont été extraits. Samantha Cole, l’une des fondatrices du site, a publié sur X :

Un employé de Tumblr a écrit qu’il avait “malheureusement” compilé des données pour le premier transfert à MJ/OpenAI qui comprenaient :

  • des posts privés sur des blogs publics
  • des posts sur des blogs supprimés ou suspendus
  • des questions sans réponse
  • des réponses privées
  • du contenu NSFW.

A la suite de la publication de l’article de 404 Media, Automattic a tenté de rassurer les utilisateurs de ses plateformes, publiant un blog intitulé “Protection du choix des utilisateurs“. La société y affirme qu’elle bloque par défaut les robots d’exploration des principales plateformes d’IA, y compris ceux des plus grandes entreprises technologiques, et que, si les utilisateurs de Tumblr ou WordPress.com ont choisi d’empêcher que leur contenu ne soit indexé par les moteurs de recherche, la plateforme activera automatiquement une mesure supplémentaire pour dissuader également les entreprises d’IA d’explorer ce contenu.

Elle s’engage par ailleurs à ne partager que le contenu public hébergé sur WordPress.com et Tumblr à partir de sites qui n’ont pas choisi de s’exclure. Cependant, elle ajoute :

“Actuellement, aucune loi n’existe qui oblige les robots à suivre ces préférences, bien que cela puisse changer prochainement avec la législation en cours dans l’Union européenne. Indépendamment de la localisation géographique, nous voulons vous fournir des outils qui vous donnent le plus de contrôle possible. Étant donné que les entreprises respectables suivent ces paramètres, ils sont la meilleure méthode pour imposer la manière dont le contenu est exploré sur le web”.

Elle déclare ne travailler qu’avec des entreprises d’IA qui partagent ses valeurs, notamment la transparence, et respecteront les préférences d’exclusion définies. Elle ajoute qu’en cas de désinscription, le contenu des utilisateurs de ses plateformes sera supprimé des données d’entraînement des modèles d’IA générative.

Entraîner les modèles d’IA en toute légalité

Les accords de licence entre acteurs de l’IA générative et les médias ou plateformes leur permettant d’entraîner leurs IA pourraient se généraliser. Si ces derniers y voient l’opportunité de générer des revenus supplémentaires, les premiers ont besoin de données fiables et à jour, tout en respectant la propriété intellectuelle.

Des illustratrices et des artistes ont porté plainte contre Midjourney l’an passé pour violation du droit d’auteur. Le New York Times, à la suite de tentatives de résolution amiable non abouties depuis avril 2023, a porté plainte début janvier contre OpenAI pour le même motif, plusieurs recours collectifs l’avaient déjà placé dans une mauvaise position. Se défendant de vouloir spolier les éditeurs et créateurs, la société s’est dite prête à collaborer avec eux “afin qu’ils tirent profit d’une technologie IA avancée et d’un nouveau modèle de revenus”.

Elle a d’ailleurs signé en décembre dernier un accord avec le groupe de presse allemand Axel Springer après avoir conclu un partenariat avec l’Associated Press en juillet 2023, pour partager certains contenus et technologies d’information et examiner des cas d’utilisation potentiels de l’IA générative dans les produits et services d’actualité.

Google, de son côté vient de signer un accord de licence avec Reddit d’un montant de 60 millions de dollars annuels pour exploiter son contenu.

Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.