Voor het FD schreef ik een essay over de miljoenen illegale donwloads van boeken en wetenschappelijke artikelen waarmee techbaronnen waarschijnlijk hun grote taalmodellen trainen. Hieronder een paar fragmenten eruit.
'LibGen is de grootste schaduwbibliotheek die er is. De anonieme eigenaren bevinden zich waarschijnlijk ergens in Rusland. Op LibGen zijn 7,5 miljoen boeken en 81 miljoen research papers te vinden. Uit de rechtbankdocumenten van de zaak-Kadrey versus Meta blijkt dat Zuckerberg waarschijnlijk zelf toestemming aan zijn team gaf om LibGen te gebruiken. De medewerkers van Meta vonden dat wel zo gemakkelijk, blijkt uit vrijgegeven interne communicatie. Licenties afsluiten met uitgevers zou ‘unreasonably expensive’ zijn, vond een Meta-medewerker, en de vier weken die het zou kosten om de data van boeken te leveren was ‘incredibly slow’, vond een ander.
Zuckerberg verdedigt zijn illegale werkwijze door zich te beroepen op ‘fair use’, een uitzondering op het Amerikaanse auteursrecht waarbij een beschermd werk zonder toestemming mag worden gebruikt, mits dat eerlijk naar de rechthebbende toe is. Dit is te vergelijken met het citaatrecht in Nederland, al is het ruimer. Deze uitzonderingsregel bestond al voordat grote taalmodellen op de markt kwamen. Het is nog de vraag of het gebruik van auteursrechtelijk beschermd werk om een taalmodel te trainen eronder valt.
Maar zelfs áls dat toegestaan zou zijn, dan rechtvaardigt dat het illegaal downloaden van boeken en artikelen van LibGen niet. Meta maakte bij het downloaden gebruik van BitTorrent, wat zowel in de Verenigde Staten als Europa verboden is. Bij het downloaden worden de boeken tegelijk naar andere gebruikers geüpload en zo in z’n geheel verspreid. Downloaders worden zo automatisch ook ‘zaaiers’.
'Uit de rechtbankdocumenten van de zaak-Kadrey versus Meta blijkt dat Zuckerbergs medewerkers in hun interne communicatie erkennen dat ‘het trainen van Llama op LibGen een middelhoog juridisch risico vormde’. Ze bespraken met elkaar hoe ze hun manier van werken konden maskeren. Suggesties hiervoor waren om bepaalde informatie uit het trainingsmateriaal te verwijderen – denk daarbij aan ISBN-nummers, het woord ‘copyright’ of het tekentje ervoor. '
'In januari haalde Stichting Brein het Nederlandse taalmodel GEITje-7B offline, dat ook was gevoed met de collectie van LibGen. Op de site van de stichting staat dat LibGen een dienst is die door de Nederlandse rechter onrechtmatig is bevonden en wordt geblokkeerd door Nederlandse providers. Stichting Brein haalde LibGen zelf al in 2024 offline, maar schaduwbibliotheken die over de grenzen worden gehost bij een provider die niet luistert naar takedown-verzoeken, blijven een probleem.
De drempel die in Nederland wordt opgeworpen om LibGen te bezoeken en er illegaal boeken te downloaden heeft daarbij volgens advocaat Bastiaan van Ramshorst van Stichting Brein geen effect op het gebruik ervan door Amerikaanse generatieve diensten. ‘Dat er in de VS al tientallen rechtszaken lopen, neemt niet weg dat het ook broodnodig is dat er in de Europese Unie tegen techbedrijven die illegaal werk downloaden wordt geprocedeerd. Het Europese recht is anders dan het Amerikaanse en de innige relatie van big tech en Donald Trump maakt positieve uitkomsten van de Amerikaanse zaken nog minder zeker.’
Het zou naar mijn idee niet te veel gevraagd zijn om van Amerikaanse (of Chinese) techbedrijven die zich op de Europese markt begeven, te eisen dat zij zich – net als iedereen – aan de wet houden in plaats van gestolen waar aan te bieden. Nu er in Europa veel wordt gesproken over soevereiniteit, is het tijd om ook naar de grote taalmodellen te kijken – en daarbij niet alleen blind te staren op de risico’s van de output. Om AI te reguleren mag het geen zwarte doos zijn, maar moet er transparantie zijn over de inhoud. '
Lees het volledige artikel: https://fd.nl/opinie/1550834/hoe-onze-boeken-worden-gestolen-en-weer-aan-ons-terugverkocht?itm_campaign=pw_trial&itm_medium=paywall&itm_source=articles