TDM výjimka a výhrada z ní ve světle trénování jazykových modelů generativní umělé inteligence – část I.
Autor: JUDr. Jiří Čermák | Vloženo: 12. 8. 2025 19:33 | Přečteno: 50XGenerativní umělá inteligence (generativní AI) je oblast umělé inteligence, která se zaměřuje na vytváření nového obsahu, například textu, obrázků, hudby či počítačového kódu, na základě vzorů, které se „naučila“ z trénovacích dat. Pokud je AI určená k tvorbě textu, využívá k tomu tzv. (velký) jazykový model (LLM – Large Language Model). Trénování jazykového modelu probíhá tak, že model „čte“ velké množství textů a na základě předchozích slov se učí předvídat slovo následující. Tento článek se zaměřuje na otázku, zda při trénování jazykového modelu dochází k zásahu do práv nositelů autorských práv, a to zejména s ohledem na tzv. TDM výjimku a možnou výhradu z ní.
- Úvod
Pokud je AI určená k tvorbě textu, využívá k tomu tzv. (velký) jazykový model (LLM – Large Language Model). Jde o model umělé inteligence postavený na rozsáhlé neuronové síti typu transformer[1], trénované na obrovském množství textových dat. Jazykový model se učí porozumět přirozenému jazyku, analyzovat kontext a generovat nový text na základě zadaného vstupu. Mezi známé příklady takových modelů patří ChatGPT od OpenAI, Claude od Anthropic nebo Google Gemini.
Trénování jazykového modelu probíhá tak, že model „čte“ velké množství textů (například knihy, články, webové stránky) a na základě předchozích slov se učí předvídat slovo následující. Celý proces řídí algoritmy strojového učení; model se postupně optimalizuje, aby poskytoval co nejlepší výsledky.
Z hlediska autorského práva je důležité uvědomit si následující:
- Data používaná k trénování jazykového modelu (tzv. hrubá data) jsou zpravidla zkopírována z původních zdrojů (webové stránky, naskenované knihy, zpravodajství) a uložena lokálně u subjektu, který model trénuje.
- Z těchto „hrubých dat“ je následně po „vyčistění“ vytvořen tzv. dataset, tedy soubor vybraných, upravených či jinak zpracovaných dat, která vyhovují kvalitativním, technickým nebo obsahovým kritériím pro daný účel trénování.
- Jak hrubá data, tak výsledný dataset, obvykle obsahují autorskoprávně chráněná díla.
- V procesu trénování dochází k užití těchto děl, zejména jejich rozmnožováním (kopírováním).
- Samotný jazykový model však již žádná autorská díla neobsahuje, protože jde pouze o pravděpodobnostní matematický model.
Jak uvádím výše, tento článek se bývá otázkou případných neoprávněných zásahů do práv nositelů autorských práv při trénování jazykového modelu, zejména s ohledem na tzv. TDM výjimku a možnou výhradu z ní, jak je uvedeno níže.
Pro úplnost doplňuji, že článek se nezabývá situací, kdy je v rámci výstupu jazykového modelu uživateli zpřístupněno konkrétní autorské dílo nebo jeho část (například doslovný text knihy či článku).
- Proces Text and Data Mining (TDM)
Text and Data Mining (TDM), česky vytěžování textu a dat, je automatizovaný proces analýzy velkého množství digitálních dat (například textů) za účelem objevování informací, vzorců a souvislostí, které nejsou na první pohled zřejmé. Cílem TDM není „číst“ jednotlivé dokumenty, ale pomocí počítačových algoritmů v nich odhalovat skryté vztahy.
Sběr dat v rámci TDM zahrnuje různé metody získávání digitálního obsahu. Nejčastěji se využívá web scraping, tedy automatizované stahování dat z webových stránek pomocí specializovaných programů, dále přístup přes API, což je strukturovaný způsob získávání dat z platforem jako například Twitter nebo Google Scholar, případně přímé stahování obsahu (článků, knih atp.) z vědeckých či jiných databází.
Klíčovým vykonavatelem TDM je software, tedy specializovaný počítačový program, jehož hlavní úlohou je automatizovaný sběr dat, jejich následné zpracování a čištění, strukturování a ukládání do databází.
V praxi se TDM využívá například pro:
- vědecký výzkum: analýzu velkého množství studií s cílem objevit nové souvislosti, například mezi nemocemi,
- obchod: analýzu zákaznických recenzí pro identifikaci nejčastějších stížností na produkt, porovnávání cen mezi konkurencí atp.
- trénování AI: zpracování milionů webových stránek pro natrénování jazykového modelu.
Pro rozvoj a trénování umělé inteligence, zejména velkých jazykových modelů, je TDM klíčovou technikou. Touto metodou se získávají tzv. hrubá data, která se po zpracování do podoby datasetu využívají k učení jazykového modelu. V rámci TDM se zpracovávají především veřejně dostupná data, typicky z webových stránek.
Jak již bylo zmíněno výše, při TDM dochází k vytváření kopií zpracovávaného obsahu, což může zahrnovat rozmnožování děl chráněných autorským právem.
- TDM výjimka a výhrada z ní
Na úrovni Evropské unie byla v roce 2019 přijata Směrnice o autorském právu na jednotném digitálním trhu[2] (tzv. DSM směrnice). Tato směrnice ve svém článku 2, odst. 2 definuje pojem „vytěžování textů a dat[3]“ (text and data mining).
Článek 3 DSM směrnice následně zavádí zvláštní TDM výjimku z autorského práva pro TDM prováděné pro účely vědeckého výzkumu, a to pro výzkumné organizace a instituce kulturního dědictví. Tato výjimka je povinná, což znamená, že nositelé práv ji nemohou smluvně vyloučit.
Důležitý pro tento článek je však zejména článek 4 DSM směrnice, který zavádí obecnou TDM výjimku pro všechny uživatele, a umožňuje tedy vytěžování textů a dat i v obchodních a dalších neakademických kontextech. Tato obecná TDM výjimka však podléhá tzv. výhradě práv (opt-out): nositelé práv mohou ve vhodné formě vyjádřit, že si nepřejí, aby jejich díla byla pro účely TDM využívána, a tím využití pro TDM zakázat. Uplatnění těchto ustanovení (obecná TDM výjimky a výhrady z ní) je aktuální zejména s ohledem na trénování jazykových modelů generativní umělé inteligence.
Zvláštní TDM výjimka je upravena v §39d autorského zákona[4] a obecná TDM výjimka (včetně výhrady z ní) pak v § 39c autorského zákona.
Obě TDM výjimky umožňují vytěžování textů a dat chráněných autorským právem bez nutnosti získat licenci ke kopírování autorských děl, které jsou v rámci TDM ukládány či jinak rozmnožovány[5].
- Právní otázky spojené s TDM výjimkou a výhradou z ní
V souvislosti s TDM výjimkou a výhradou (opt-out) z ní se objevuje několik právních otázek, zejména:
- Vztahuje se vůbec TDM výjimka na strojové učení jazykových modelů AI? (otázka učení AI)
- Lze TDM výjimku (zvláštní či obecnou) uplatnit na obsah, který byl na internetu zpřístupněn neoprávněně, tj. bez souhlasu autora nebo jiného nositele práva? (otázka legality zdroje dat)
- Jakou formu a povahu musí mít výhrada (opt-out) z TDM výjimky, aby byla účinná? (otázka formy a povahy výhrady)
- Jaký je rozsah výhrady (opt-out) z TDM výjimky, zejména zda se vztahuje pouze na konkrétní rozmnoženinu díla, ke které je výhrada připojena, nebo na dílo obecně? (otázka rozsahu výhrady)
4.1 Vztahuje se TDM výjimka na strojové učení jazykových modelů AI?
Určité pochybnosti o tom, zda se TDM výjimka vztahuje i na vytěžování textů a dat pro účely následného učení jazykových modelů AI jsou založeny na tom, že (a) DSM směrnice, a zejména a její ustanovení tykající se TDM výjimky, byla připravována i přijata[6]předtím, než byla veřejnosti známa první významná služba generativní AI, ChatGPT,[7] a (b) že TDM výjimka nesplňuje požadavky tzv. třístupňového testu, který stanoví obecné meze a podmínky aplikovatelnosti výjimek z autorského práva.
Třístupňový test (nebo také tříkrokový test, anglicky "three-step test") je právní koncept, který stanovuje hranice, v nichž je možné omezit výlučná práva autorů a dalších nositelů práv v autorském právu, zejména výjimky a omezení k těmto právům. Stanoví, že výjimky a omezení autorských práv musí (i) být použity pouze ve zvláštních případech stanovených příslušným předpisem, (ii) nesmí být v rozporu s běžným užíváním díla a (iii) nesmí nepřiměřeně zasahovat do oprávněných zájmů autora nebo jiného nositele práv[8].
Proti těmto námitkám hovoří několik skutečností.
I když při přípravě DSM směrnice v letech 2016 až 2019 nebylo zřejmé, že generativní AI a její jazykové modely budou mít pro společnost i trh tak zásadní význam, zákonodárce záměrně formuloval definici TDM i TDM výjimky široce a “do budoucnosti” aby obstály bez ohledu na technologický vývoj.
AI Akt, nové nařízení EU o umělé inteligenci[9], výslovně navazuje na režim TDM výjimek v DSM směrnici. V článku 53(1)(c) ukládá poskytovatelům generativních AI modelů povinnost nastavit postupy, jak respektovat výhradu z TDM výjimky (opt-out) od nositelů práv, což jasně odkazuje na čl. 4 DSM směrnice. To znamená, že EU zákonodárce v AI Aktu přímo uznává, že trénování jazykových modelů AI spadá pod TDM výjimku.
I Rada EU v úvodní části veřejného dotazníku k problematice AI a autorského práva[10] potvrdila, že TDM výjimka i výhrada z ní (opt-out) se uplatní na trénování jazykových modelů AI[11].
V neposlední řadě tento závěr potvrdily (byť zatím v prvoinstančních rozhodnutích) i soudy některých členských států EU. První v tomto ohledu bylo rozhodnutí hamburského zemského soudu (Landgericht Hamburg) ze dne 27. září 2024 ve věci Kneschke vs. LAION[12].
Soud v tomto rozhodnutí v obsáhlém obiter dictum[13] řešil tzv. obecnou TDM výjimku podle čl. 4 DSM směrnice a § 44b německého autorského zákona a potvrdil, že stahování, uložení a následné užití fotografií organizací LAION za účelem trénovaní AI splňuje podmínky TDM výjimky, jelikož fotografie byly legálně dostupné online a LAION ji využil v souladu s účelem TDM výjimky.
Na výše uvedených závěrech pravděpodobně nic nemění ani případná aplikace třístupňového testu.
Samotné znění definice TDM i TDM výjimky stanoví meze a podmínky jejího užití. Tím je splněn první předpoklad tohoto testu.
Rozpor s běžným způsobem užití díla je zpravidla vykládán tak, že výjimka konkuruje normálnímu ekonomickému využití díla či užití díla na základě výjimky ohrožuje jeho primární trh. Běžným způsobem užití chráněných děl je zejména jejich klasická reprodukce, zpřístupnění veřejnosti online, rozšiřování formou hmotných rozmnoženin či jiné komerční využívání. Není jím však jejich analýza za účelem rozpoznání vazeb a vzorců. Proto strojová analýza dat (autorských děl) v rámci procesu TDM není v rozporu s výše uvedenými běžnými způsoby využití těchto děl, i když přitom může docházet k jejich více či méně dočasnému rozmnožování.
Lze však namítat, že „vytrénovaný“ model generativní AI je schopen vytvářet nová „díla“, která pak na trhu konkurují dílům původním, na kterých se model vytrénoval. Domnívám se však, že to je až druhotný efekt vytrénovaného modelu, který primárně k takovému účelu nemá sloužit a v praxi v 99,99% případů ani neslouží. Případy, kdy jsou umělou inteligencí generována díla, která konkurují dílům původním (AI napsané knihy, AI vygenerovaná hudba atp.) bezesporu existují, ale jejich podíl na celkovém využívání generativní AI je zanedbatelný (byť v absolutních číslech možná nemalý). Navíc, tato „konkurenční díla“ negeneruje AI sama o sobě, ale vždy na základě požadavku („promptu“) uživatele. V neposlední řadě je třeba připomenout, že nositelé práva, kteří si nepřejí využití svých děl pro účely TDM a strojového učení, mohou učinit výhradu (opt-out) jak je popsáno níže.
O tomto bodu lze vést polemiky a bezesporu bude široce diskutovaný, nicméně osobně mám za to, že je splněna i druhá podmínka třístupňového testu.
DSM směrnice v čl. 4 zajišťuje, že pokud si nositel práv nepřeje využití svého díla k TDM, může v jednoduché podobě (například prostřednictvím souboru robots.txt, metadat či jiným vhodným způsobem – k tomu viz dále) vyjádřit výhradu (opt-out). V takovém případě již není jeho dílo pro TDM trénování AI legálně využitelné. Navíc původní díla nejsou při procesu TDM a trénování AI zpřístupňována, šířena ani komerčně využívána jako taková, slouží pouze jako podklad pro vznik modelu, který zohledňuje určité statistické zákonitosti obsažené v těchto datech. To hovoří pro závěr, že nedochází ani k nepřiměřenému zásahu do oprávněných zájmů autora.
Lze shrnout, že rozsah TDM výjimky je přiměřeně omezen, zájmy autorů jsou chráněny možností výhrady (opt-outu) a (jak potvrdil AI Akt) existují povinnosti provozovatelů AI systémů týkající se transparentnosti původu použitých dat a respektování autorských práv.
Definitivní odpověď na tuto otázku však s největší pravděpodobností poskytne až rozhodnutí Soudního dvora EU (SDEU) v probíhající věci Like Company vs. Google Ireland.[14] Přestože se tento spor týká primárně práv vydavatele k tiskové publikaci[15], je pro posouzení TDM výjimky obecně aplikovatelný i na právo autorské a jiná s ním související práva.
V této věci zaslal maďarský soud (Budapest Környéki Törvényszék) SDEU předběžné otázky týkající se výkladu zejména DSM směrnice v souvislosti s využíváním obsahu vydavatelů (tiskových publikací) chatboty založenými na velkých jazykových modelech.
Odpovědi na ně budou relevantní i pro obecné autorské právo k chráněným dílům, protože právo vydavatelů představuje právo související s právem autorským a TDM výjimka se na něj vztahuje ve stejném rozsahu. Jednou z předběžných otázek, které má SDEU v tomto řízení posoudit, je právě zda se TDM výjimka vztahuje i na strojové učení umělé inteligence.[16].
Rozhodnutí v této věci lze očekávat v průběhu roku 2027.
Co bude ve druhém díle?
Ve druhém díle se budu zabývat otázkou, zda lze TDM výjimku uplatnit na obsah, který byl na internetu zpřístupněn neoprávněně.
Autor: JUDr. Jiří Čermák, cermak@lawyer.cz | LinkedIn
Jiří je advokátem v advokátní kanceláři Jansa, Mokrý, Otevřel & partneři s.r.o., kde se specializuje na právo informačních technologií (především na počítačové a softwarové právo, internetové právo a outsourcing informačních technologií) a právo duševního vlastnictví (zejména právo ochranných známek, autorské právo a mediální právo) a na související spory. Působil více než 21 let jako advokát a partner v mezinárodní advokátní kanceláři Baker McKenzie v Praze, kde vedl oddělení pro právo duševního vlastnictví a technologie.
______________________________
[1] Transformer je architektura neuronových sítí představená v roce 2017, která zásadně změnila způsob, jakým počítače zpracovávají jazyk. Její hlavní inovací je tzv. mechanismus pozornosti (attention mechanism), díky němuž dokáže model analyzovat všechna slova v textu současně a automaticky určovat, která z nich jsou pro daný kontext nejdůležitější – například rozpoznat, že ve větě „černá kočka spala“ se přídavné jméno „černá“ vztahuje ke „kočce“. Díky paralelnímu zpracování celého textu najednou (na rozdíl od dřívějšího postupu slovo po slovu) je transformer velmi rychlý a efektivní.
[2] Směrnice Evropského parlamentu a Rady (EU) 2019/790 ze dne 17. dubna 2019 o autorském právu a právech s ním souvisejících na jednotném digitálním trhu a o změně směrnic 96/9/ES a 2001/29/ES
[3] „vytěžováním textů a dat“ se podle DSM Směrnice rozumí jakákoli automatizovaná technika analýzy, jejímž cílem je analyzovat text a data v digitální podobě za účelem získání informací a která zahrnuje mimo jiné vzory, tendence a souvztažnosti;
[4] Zákon č. 121/2000 Sb. Zákon o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon), ve znění pozdějších předpisů
[5] ve smyslu § 13 autorského zákona a čl. 2 Směrnice Evropského parlamentu a Rady 2001/29/ES ze dne 22. května 2001 o harmonizaci určitých aspektů autorského práva a práv s ním souvisejících v informační společnosti, případně ve smyslu jiných příslušných ustanoveních vztahujících se na rozmnožování zvláštních druhů děl, jako jsou například počítačové programy.
[6] Konečný text směrnice byl podepsán 17. dubna 2019 a vydán v Úředním věstníku Evropské unie 17. května 2019.
[7] ChatGPT je chatbot založený na generativní umělé inteligenci vytvořený výzkumnou laboratoří OpenAI v San Francisku. Pro veřejnost byl oficiálně spuštěn 30. listopadu 2022.
[8] V omezeném rozsahu je tříkrokový test upraven již v čl. 9 odst. 2 Bernské úmluvy, v současném znění pak v čl. 5 odst. 5 Směrnice Evropského parlamentu a Rady 2001/29/ES o harmonizaci některých aspektů autorského práva a práv s ním souvisejících v informační společnosti a transponován do českého práva v § 29 autorského zákona.
[9] Nařízení Evropského parlamentu a Rady (EU) 2024/1689 ze dne 13. června 2024, kterým se stanoví harmonizovaná pravidla pro umělou inteligenci a mění nařízení (ES) č. 300/2008, (EU) č. 167/2013, (EU) č. 168/2013, (EU) 2018/858, (EU) 2018/1139 a (EU) 2019/2144 a směrnice 2014/90/EU, (EU) 2016/797 a (EU) 2020/1828 (akt o umělé inteligenci)
[10] https://data.consilium.europa.eu/doc/document/ST-11575-2024-INIT/en/pdf (navštíveno 4.7. 2025)
[11] Část II. Training of AI models řečeného dotazníku
[12] Landgericht Hamburg, 310 O 227/23, rozhodnutí dostupné na https://openjur.de/u/2495651.html (navštíveno 4. 7. 2025)
[13] Obiter dictum je právní termín pocházející z latiny a znamenající doslova „mimochodem řečené“. V soudní praxi označuje část odůvodnění soudního rozhodnutí, která není pro rozhodnutí případu nezbytná, ale soud ji přesto vysloví – například ve formě úvah, poznámek nebo postřehů k širším nebo okolnostem relevantním právním otázkám.
[14] C-250/25 Like Company vs. Google Ireland
[15] čl. 15 a násl. DSM Směrnice a § 87b a následující AZ
[16] Jde o otázku č. 3 ve spojení s otázkou č.2, v přesném znění:
Musí být čl. 15 odst. 1 směrnice 2019/790 a článek 2 směrnice 2001/29 vykládány v tom smyslu, že proces výcviku chatbota založeného na LLM, který je postaven na pozorování a porovnávání vzorů, což modelu umožňuje naučit se rozpoznávat jazykové vzory, představuje rozmnožování?
V případě kladné odpovědi na druhou otázku, vztahuje se na takové rozmnožování oprávněně zpřístupněných děl výjimka stanovená v článku 4 směrnice 2019/790, která zaručuje volné užití pro účely vytěžování textů a dat?