Publicité

Infos

Retournons-nous sur nos pas ? La directrice technologique d’OpenAI affirme ne pas savoir avec quelles données Sora a été entraîné

Mira Murati n'est pas sûre si Sora s'est entraîné avec des données des réseaux sociaux

Retournons-nous sur nos pas ? La directrice technologique d’OpenAI affirme ne pas savoir avec quelles données Sora a été entraîné
Pedro Domínguez

Pedro Domínguez

  • Mise à jour:

Chaque fois qu’une entreprise technologique lance une nouvelle intelligence artificielle, la première question qui se pose est « d’où viennent les données avec lesquelles elle a été entraînée? ». Les modèles d’IA sont entraînés en utilisant de grands ensembles de données, qui aident le modèle à apprendre à reconnaître des motifs, à faire des prédictions ou à comprendre le langage.

ChatGPT TÉLÉCHARGER

Et il n’est pas rare que des IA soient entraînées avec des données obtenues de manière illicite ou du moins douteuse, y compris le populaire ChatGPT de la société OpenAI. C’est pourquoi il est surprenant que la directrice technologique de cette entreprise, Mira Murati, ne soit pas sûre de la source des données utilisées pour former Sora, la nouvelle IA de l’entreprise capable de générer des vidéos.

Lors d’une interview avec The Wall Street Journal publiée le 13 mars, Murati a donné des réponses plutôt vagues lorsqu’on lui a demandé la source des données du modèle Sora d’OpenAI, capable de générer des vidéos à partir d’instructions textuelles. « Nous utilisons des données disponibles publiquement et des données sous licence », a répondu Murati concernant la façon dont l’entreprise entraîne son prochain modèle.

Joanna Stern, journaliste du WSJ, a alors demandé si Sora avait été entraîné avec des données provenant de plateformes telles que YouTube, Instagram ou Facebook, à quoi Murati a répondu : « Je ne suis pas sûre de ça », ajoutant : « Vous savez, si elles étaient à la disposition du public – à la disposition du public à utiliser. Mais je ne suis pas sûre. Je ne suis pas sûre de cela ».

Avant de passer à un autre sujet, Stern a mentionné le partenariat d’OpenAI avec l’entreprise d’images d’archives Shutterstock, demandant si leurs données pourraient être utilisées pour former Sora. « Je ne vais pas entrer dans les détails sur les données qui ont été utilisées. Mais elles étaient des données publiques ou sous licence », a ajouté Murati. Plus tard, la direction a confirmé au WSJ qu’en effet, des données de Shutterstock ont été utilisées pour former Sora.

ChatGPT TÉLÉCHARGER
Pedro Domínguez

Pedro Domínguez

Nouveautés de Pedro Domínguez

Directives éditoriales