Dane osobowe mogą być wykorzystywane na potrzeby uczenia się sztucznej inteligencji (AI) bez zgody użytkowników, ale tylko gdy jest to niezbędne – wynika z opinii EROD.

Europejska Rada Ochrony Danych (EROD) wydała opinię dotyczącą wykorzystywania danych osobowych do opracowywania i wdrażania modeli sztucznej inteligencji (AI). Szkolenie AI – zwłaszcza modeli generatywnych, takich jak ChatGPT – wymaga ogromnych zasobów danych, w tym właśnie danych osobowych. Wykorzystywane są m.in. wpisy użytkowników mediów społecznościowych, wrzucane przez nich zdjęcia czy filmy. Rodzi to pytania związane z ochroną prywatności. Dlatego irlandzki organ ochrony danych osobowych (DPC) zwrócił się do EROD z pytaniami.

Ważny krok w sprawie szkolenia sztucznej inteligencji na danych

– Opinia EROD to w dużej mierze wskazówki. Będą one pomocne przy ocenie zgodności modeli AI z RODO, ale ostatnie słowo pozostawiają organom krajowym, które będą badały poszczególne przypadki – mówi dr Iga Małobęcka-Szwast, radca prawny i adiunkt z Wydziału Prawa i Administracji Uniwersytetu Warszawskiego.

W swojej opinii EROD mówi raczej „może” niż „tak” albo „nie”. – I zważywszy ogromną kreatywność branży AI, to niekategoryczne podejście wydaje się sensowne – ocenia prawniczka.

Przewodnicząca EROD Anu Talus przy publikacji opinii zaznaczyła, że AI może przynieść pożytek w różnych branżach i dziedzinach życia. – Musimy zapewnić, aby te innowacje były wprowadzane w sposób etyczny, bezpieczny i z korzyścią dla wszystkich – podkreśliła.

Dla branży cyfrowej najważniejsze jest to, że zgodnie z opinią rady prawnie uzasadniony interes (PUI) może być podstawą przetwarzania danych na potrzeby trenowania i wdrażania modeli AI. Innymi słowy – nie trzeba pytać użytkowników o zgodę, by wykorzystać ich dane.

– To ważny krok w kierunku większej pewności prawnej – podkreśla Claudia Canelles Quaroni, starsza menedżerka ds. polityki w Stowarzyszeniu Przemysłu Komputerowego i Komunikacyjnego (CCIA Europe), do którego należą m.in. Apple, Google, Meta, X.

– Oznacza to, że modele AI można prawidłowo szkolić przy użyciu danych osobowych. Dostęp do danych wysokiej jakości jest naprawdę niezbędny, aby zapewnić dokładność wyników AI, ograniczyć ich stronniczość i odzwierciedlić różnorodność europejskiego społeczeństwa – przekonuje.

Trenowanie AI na naszych danych, bez naszej kontroli

Czy możliwość oparcia się na PUI zamiast proszenia o zgodę na przetwarzanie danych oznacza, że modele AI będą trenowane na naszych danych zupełnie bez naszej kontroli?

– Dopuszczenie PUI samo w sobie nie jest zagrożeniem dla podmiotów danych – uważa Iga Małobęcka-Szwast.

Zaznacza, że rada przewidziała hamulce dla nieposkromionego apetytu AI na nasze dane. Przede wszystkim jest to test trójstopniowy (zwany testem równowagi), który obejmuje ocenę: celu, niezbędności i równowagi przetwarzania danych.

– W odniesieniu do modeli AI przejście tego testu nie jest łatwe. A bez tego nie będzie się można powołać na uzasadniony interes – podkreśla dr Małobęcka-Szwast. – Na przykład ChatGPT od OpenAI nie przeszedłby, moim zdaniem, testu równowagi – dodaje.

Jakimi danymi karmi się AI?

W połowie ub.r. big tech – powołując się na PUI – chciał użyć do trenowania AI danych osobowych z postów, zdjęć i innych treści umieszczanych na Facebooku i Instagramie. Pomysł spotkał się z oburzeniem w całej Europie. Austriacka organizacja Noyb złożyła na Metę skargi do organów w 11 krajach, w tym do polskiego Urzędu Ochrony Danych Osobowych. Obrońcy prywatności podkreślali, że Meta nie zdefiniowała swojego uzasadnionego interesu – i że nie może nim być samo zwiększanie zysków firmy lub zbieranie danych. Noyb argumentowała, że skoro użytkownik platformy nie może mieć uzasadnionych oczekiwań, że jego dane są przetwarzane w celu profilowania reklam (mówi o tym wyrok Trybunału Sprawiedliwości UE w sprawie C-252/21), to tym bardziej nie może oczekiwać, że posłużą one do szkolenia AI.

Meta zawiesiła wtedy realizację swojego pomysłu.

– Moim zdaniem Meta nadal będzie miała problem, aby wykazać niezbędność przetwarzania danych. A nawet gdyby to się udało, to nie ma szans na zrównoważenie interesów platformy i korzystających z niej osób. Meta gromadzi za dużo danych o swoich użytkownikach, aby można było mówić o równowadze – ocenia Iga Małobęcka-Szwast.

Kiedy twórca AI dostanie karę?

Irlandzki organ spytał też radę, co się stanie, jeżeli model AI zostanie opracowany z wykorzystaniem danych osobowych, które były przetwarzane niezgodnie z prawem.

– To jest kontrowersyjna część opinii – komentuje Iga Małobęcka-Szwast.

EROD rozgranicza etap trenowania modelu od etapu jego wdrożenia do użytkowania. Może się więc zdarzyć, że twórca AI dostanie karę za naruszenie RODO w fazie treningu, ale wdrożenie tak przygotowanego modelu będzie zgodne z RODO. Taką możliwość w opinii rady nazwano trzecim scenariuszem – w którym administrator bezprawnie przetwarza dane osobowe w celu opracowania modelu AI, a następnie zapewnia ich anonimizację, zanim ten sam lub inny administrator zainicjuje kolejne przetwarzanie danych osobowych w kontekście wdrożenia tego modelu.

EROD stwierdza, że „niezgodność z prawem początkowego przetwarzania nie powinna mieć wpływu na późniejsze działanie modelu”. Doktor Łukasz Olejnik, niezależny konsultant, badacz związany z King’s College London Institute for Artificial Intelligence, uważa ten scenariusz za kluczowy element opinii.

– Opinia nie pozostawia wątpliwości: można pozyskiwać dane całkowicie bez podstawy prawnej i poszanowania RODO, a nawet z jego pogwałceniem. O ile zostaną one następnie przetworzone w określony sposób, takie przetwarzanie miałoby stać się legalne – komentuje dr Olejnik.

Koniecznym warunkiem jest anonimizacja

– EROD wysoko zawiesza poprzeczkę w tej kwestii, dlatego można się spodziewać, że ten scenariusz nie będzie nadużywany – wskazuje dr Małobęcka-Szwast. Dane nie zostaną uznane za anonimowe, m.in. jeśli będzie możliwe ich odtworzenie – np. w ataku hakerskim czy dzięki odpowiednio dobranym pytaniom (promptom).

Jak zapewnić odpowiednią anonimizację, aby „zalegalizować” dane pozyskane w wątpliwy sposób?

– Poprzez zastosowanie technik prywatnego przetwarzania danych, takich jak przetwarzanie homomorficzne czy prywatność różnicowa, które pozwalają na prywatne przetwarzanie danych bez ich odszyfrowywania i z gwarancjami matematycznymi – odpowiada Łukasz Olejnik, zaznaczając, że takich technik nie da się zastosować do wszystkiego.

– Analiza techniczna powinna uwzględniać ocenę takich właśnie środków. Jeśli założyć, że są one stosowane prawidłowo, rzeczywiście mogą gwarantować ochronę prywatności – stwierdza. ©℗

ikona lupy />
Firmy wobec sztucznej inteligencji / Dziennik Gazeta Prawna - wydanie cyfrowe