Meta a fait un choix contestable en utilisant la base de données volée Library Genesis (LibGen) pour former son modèle d’intelligence artificielle Llama 3. Des discussions internes, divulguées lors d’un procès pour violation des droits d’auteur, révèlent que l’équipe de Llama considérait « vraiment important […] d’obtenir des livres dès que possible ». Ainsi, les ingénieurs estimaient que « les livres offrent en réalité une contribution plus importante que les informations obtenues sur le web ». L’idée d’exploiter les ouvrages par le biais de licences légales a été envisagée, cependant, les offres des éditeurs étaient considérées comme « absolument onéreuses » et leur mise en œuvre comme « extrêmement lente ». Un directeur technique a également mis en évidence une contrainte stratégique : « Si nous ne plaçons qu’un seul livre sous licence, le recours à la stratégie du fair use deviendra obsolète. »
Pour surmonter ces défis, Meta aurait obtenu l’approbation d’un certain « MZ » — les initiales de Mark Zuckerberg — autorisant l’accès à la base de données de LibGen : plus de 7,5 millions d’ouvrages et 81 millions d’articles académiques. Selon le droit américain, l’équipe aurait illégalement partagé ces fichiers en les téléchargeant via BitTorrent. « Faire du téléchargement par torrent depuis un ordinateur professionnel ne paraît pas très bien, » reconnaissait un employé. D’autres collaborateurs mentionnaient un « risque juridique moyen – élevé », suggérant même des mesures pour dissimuler l’usage de LibGen : « Effacer les données manifestement volées » ou encore « ne pas déclarer publiquement l’utilisation de LibGen ». Comme OpenAI, Meta soutient que cette pratique s’inscrit dans le cadre du « fair use », car leurs modèles modifient les contenus originaux : il n’y a ni reproduction ni diffusion au public. Bien que la question demeure sans réponse, aucun représentant de Meta n’a osé se prononcer sur le sujet. OpenAI, quant à elle, le déclare sans hésitation : aucune information de LibGen n’a été utilisée pour ses modèles de langage en vigueur.
LibGen (Library Genesis), fondé en 2008, a été élaboré pour « les gens d’Afrique, d’Inde, du Pakistan, d’Iran, d’Irak, de Chine, de Russie et de l’ex-URSS », tout comme pour « ceux qui ne font pas partie du milieu universitaire ». Depuis, le corpus s’est élargi pour inclure des millions de documents, y compris des livres de Sally Rooney, Percival Everett et divers articles de Nature, Science et The Lancet. Ce dispositif est fortement familier aux experts de l’édition, car il a été la cible de différentes actions judiciaires et d’initiatives de blocage orchestrées par les éditeurs depuis plusieurs années. En septembre 2023, un recours juridique a été engagé aux États-Unis par diverses entreprises dédiées à l’édition scolaire, sollicitant 30 millions de dollars en compensation. Au Royaume-Uni, en novembre 2024, une injonction de blocage étendue contre LibGen et d’autres plateformes similaires a été prononcée, suite à une demande de la Publishers Association et de divers éditeurs. L’organisation a aussi contribué à des investigations judiciaires en fournissant des expertises techniques concernant l’opération de LibGen. En France, c’est le Syndicat national de l’édition qui a lancé une initiative similaire en 2019.
L’utilisation extensive d’œuvres piratées, au centre d’un grand procès, pose une question cruciale : comment réguler l’usage des connaissances et œuvres littéraires à l’ère des IA génératives, sans priver leurs créateurs de leurs droits ? L’image de la naïade et d’Amalthée avec sa chèvre qui allaitait Zeus bébé est ainsi facilement manipulable. Pour les éditeurs du Royaume-Uni, l’exploitation non autorisée d’œuvres protégées – qu’elles soient issues de LibGen, du jeu de données Books3 ou d’autres sources illégales – constitue une violation sérieuse des droits d’auteur. Cette utilisation affecte directement le résultat de plusieurs années de travail créatif, humain et financier fourni par les auteurs, les chercheurs, le milieu universitaire et les éditeurs. Et elle continue d’infliger de sérieux dommages à toute la chaîne du livre. L’affirmation de Meta concernant l’usage de LibGen, Sci-Hub et Z-Library pour former ses modèles d’intelligence artificielle renforce les craintes au sein du secteur. L’instrument mis à disposition par The Atlantic illustre pour les écrivains comme pour les éditeurs l’étendue de l’usage non consenti de leurs œuvres dans la création des technologies d’intelligence artificielle générative.


