Wydawcy ośmiu amerykańskich gazet pozwali twórców ChatGPT. „Przywłaszczyli miliony tekstów bez pozwolenia” – zarzucają.
„The New York Daily News”, „Chicago Tribune” czy „Denver Post” – to tylko część tytułów, których dotyczy pozew. Amerykańskie wydawnictwa MediaNews Group i Tribune Publishing (oba zarządzane przez fundusz kapitałowy Alden Global Capital) twierdzą, że OpenAI i Microsoft bezprawnie wykorzystały pracę ich dziennikarzy.
Obie firmy zastosowały w swoich produktach modele sztucznej inteligencji (LLM) – chodzi m.in. o ChatGPT oraz Microsoft Copilot. Aby taki model powstał, musi zostać zasilony ogromną liczbą danych treningowych, dzięki którym nauczy się prawidłowości rządzących językiem. Kiedy rozpozna prawidłowości, będzie mógł poprawnie odpowiadać użytkownikowi. Podstawą pozwu jest właśnie pochodzenie tych danych. Zdaniem wydawców OpenAI, która opracowała model, pobrała je bez zgody z internetowych wydań gazet. To samo spółce zarzuciła już inna gazeta – w grudniu pozew złożył wobec niej wydawca „The New York Times”. Jego przedstawiciele stwierdzili, że model językowy zagraża dalszemu istnieniu gazety.
Dla wydawców szkolenie wielkich modeli językowych jest problemem podkopującym ich modele biznesowe. Dzięki narzędziom AI można bowiem generować treści opierające się na wiedzy z artykułów. Wytworzenie takich publikacji jest dla redakcji konkretnym kosztem, na który składają się: pensja dziennikarza, utrzymanie siedziby firmy, koszty IT czy prawników. Zwykły czytelnik, aby zyskać wiedzę pochodzącą z artykułów, musi opłacić subskrypcję lub kupić papierowe wydanie. OpenAI skorzystała jednak z mechanizmu „text and data mining”, czyli zautomatyzowanego zasysania danych z internetu. W czasie, kiedy się to działo, redakcje nie były zabezpieczone przed masowym pobieraniem ich danych. W pozwach domagają się więc rekompensaty za to, że OpenAI korzystała z ich treści.
Wydawcy twierdzą, że modele generatywnej sztucznej inteligencji nie tylko pozbawiają ich potencjalnych przychodów, lecz także nie kierują użytkowników na ich strony internetowe, wpływając na ich modele reklamowe i subskrypcyjne. Microsoft (ale też Google) testują w swoich wyszukiwarkach odpowiedzi generowane przez AI. Tak, by nie wyświetlać linków do stron, lecz gotową, opracowaną na ich podstawie informację.
Microsoft nie wydał w sprawie żadnego komentarza. OpenAI broni się jednak zasadą tzw. fair use. W jej myśl nie stanowi naruszenia prawa autorskiego korzystanie z utworu w sposób słuszny, godziwy i taki, który nie przynosi nadmiernego uszczerbku interesom twórcy. OpenAI w oświadczeniu dla mediów zwraca też uwagę, że można wycofać zgodę na trenowanie modelu na swoich danych.
Część wydawców faktycznie decyduje się na zamknięcie danych przed automatycznym pobieraniem przez OpenAI. Jak wynika z analizy Reuters Institute, do końca 2023 r. 48 proc. najczęściej używanych serwisów informacyjnych w 10 krajach blokowało automaty OpenAI. Mniejsza liczba, 24 proc., umieszczała takie ograniczenia dla robotów pozyskujących dane dla Google’a. Odsetek witryn informacyjnych, które zablokowały OpenAI, różnił się znacznie w zależności od kraju. O ile w USA zdecydowało się na taki krok ok. 79 proc. stron, o tyle w Polsce – jedynie 20 proc.
Temat rekompensaty przewijał się zresztą także w polskiej debacie publicznej. Rząd pracuje właśnie nad wdrożeniem dyrektywy Digital single market (Polska ma tu ponaddwuletnie opóźnienie). W przedstawionym w połowie lutego przez Ministerstwo Kultury i Dziedzictwa Narodowego projekcie znalazł się pomysł, by zablokować możliwość trenowania modeli na danych polskich wydawców. Po krytyce, m.in. ze strony Ministerstwa Cyfryzacji, punkt został wycofany z projektu. ©℗