Les développeurs d’IA auront du mal à échapper aux poursuites pour plagiat, vol et accès illégal à des données privées. En effet, l’IA ne peut pas être entraînée sans de vastes quantités d’informations et personne n’a la permission de parcourir Internet et de collecter tout ce qu’il trouve.
Il devient de plus en plus difficile de suivre le rythme des demandes de droits d’auteur contre l’IA générative, et la semaine dernière une nouvelle action collective a été portée devant les tribunaux.
Cette fois-ci, les auteurs poursuivent Nvidia pour sa plateforme d’IA NeMo, un modèle linguistique qui permet aux entreprises de créer et d’entraîner leurs propres chatbots, selon Ars Technica. Ils affirment que l’entreprise l’a entraînée sur un ensemble de données controversé qui utilisait illégalement leurs livres sans consentement.
Nvidia a utilisé des livres volés pour entraîner son IA
Les auteurs Abdi Nazemian, Brian Keene et Stewart O’Nan ont demandé un procès avec jury et ont demandé à Nvidia de payer des dommages et intérêts et de détruire toutes les copies de l’ensemble de données Books3 utilisé pour alimenter les grands modèles linguistiques (LLM) de NeMo.
Ils affirment que cet ensemble de données copiait une bibliothèque fantôme appelée Bibliotek composée de 196 640 livres piratés.
« En résumé, NVIDIA a admis avoir entraîné ses modèles NeMo Megatron avec une copie de l’ensemble de données The Pile », affirme la demande. « Par conséquent, NVIDIA a nécessairement également entraîné ses modèles NeMo Megatron sur une copie de Books3, car Books3 fait partie de The Pile ».
Certains livres écrits par les demandeurs font partie de Books3 – y compris les œuvres contrefaites – et donc Nvidia a nécessairement formé ses modèles NeMo Megatron sur une ou plusieurs copies des œuvres contrefaites, violant ainsi directement les droits d’auteur des demandeurs, expliquent-ils.
En réponse, Nvidia a déclaré au Wall Street Journal que « nous respectons les droits de tous les créateurs de contenu et nous pensons avoir créé NeMo en totale conformité avec la loi sur le droit d’auteur ».
L’année dernière, OpenAI et Microsoft ont été confrontés à une poursuite en droits d’auteur déposée par des auteurs d’œuvres de non-fiction, qui prétendaient que les entreprises gagnaient de l’argent avec leurs œuvres, mais refusaient de les rémunérer. En début d’année, une poursuite similaire a été déposée.
Cela s’ajoute à une poursuite judiciaire intentée par des organisations de presse telles que The Intercept et Raw Story et bien sûr à l’action en justice qui a tout déclenché de la part du New York Times.