Jest ryzyko, że modele językowe będą powielać błędne struktury, których się nauczą, analizując przesłane im teksty. W dodatku będą te struktury upowszechniać - mówi Rafał Mazur, doktor językoznawstwa.

ikona lupy />
Rafał Mazur, doktor językoznawstwa, Katedra Współczesnego Języka Polskiego Uniwersytetu Jagiellońskiego / Materiały prasowe / Fot. materiały prasowe
Anna Wittenberg: ChatGPT zdałby maturę z polskiego?

Rafał Mazur: To trudne pytanie, bo dużo zależy od kryteriów oceny. Sądzę, że miałby problem z zaliczeniem rozprawki.

Dlaczego?

ChatGPT popełnia bardzo dużo błędów, także merytorycznych. A jeśli taki poważny błąd, nazywany przez Centralną Komisję Egzaminacyjną kardynalnym, zdarzy się w wypracowaniu, egzaminator stawia za nie zero punktów. Takie błędy to wynik tzw. halucynacji – w wyniku procesów, których, jak się wydaje, nawet twórcy nie rozumieją, wielkie modele językowe mogą podawać nieprawdziwe informacje. Zresztą na stronie ChatGPT twórcy piszą małym druczkiem, że informacje, które narzędzie generuje, nie muszą być prawdziwe.

A czy chociaż z ortografią można na niego liczyć?

Też nie! Przeprowadziłem analizę, z której wynika, że czat popełnia takie błędy językowe, których wykształcony użytkownik języka polskiego popełniać nie powinien. Choć błędów ortograficznych znalazłem stosunkowo mało, to już składniowe czy interpunkcyjne popełniał bardzo często. Wstawiał na przykład przecinek między podmiotem a orzeczeniem. To taka rzecz, która dla nas jest oczywista, ale program ma z nią problem, zwłaszcza w złożonych strukturach. Polska interpunkcja jest naprawdę trudnym zagadnieniem nawet dla skomplikowanego algorytmu. A co do składni, czasem forma orzeczenia nie pasowała do podmiotu, czasem pojawiały się też błędnie uzgodnione formy w związkach pobocznych, np. Adam i Ewa zostali przez chatbota opisani jako „niewinni istoty” – takie połączenia rażą chyba każdego przeciętnego użytkownika języka.

Jak wyglądała analiza, o której pan mówi?

Na Wydziale Polonistyki Uniwersytetu Jagiellońskiego prowadzę zajęcia z kultury języka i redakcji językowej, w czasie których pracuję z przyszłymi nauczycielami, korektorami, redaktorami. Na tym kierunku zawsze jest problem z odpowiednio dużą pulą tekstów, na których studenci mogliby się uczyć. Potrzebujemy takich, które byłyby odpowiednio dobrane do tematu zajęć, czyli zawierały konkretne rodzaje błędów.

Żeby usprawnić sobie pracę, zacząłem je generować, korzystając właśnie z ChatGPT. Oczywiście wymagały one jeszcze dodatkowego dostrojenia, ale przy okazji zauważyłem, że to narzędzie samo z siebie generuje dość dużo budzących wątpliwości konstrukcji. Pomyślałem, że może dobrym pomysłem byłoby to zbadać. Wymyśliłem, żeby przetestować ChatGPT na wypracowaniu maturalnym. W pytaniu, czyli prompcie, nie tylko wpisywałem temat wypracowania, lecz także załączałem listę lektur obowiązkowych na

maturze. W ten sposób uzyskałem 25 wyników.

Kolejne wersje różniły się między sobą?

Szczerze mówiąc, zdziwiło mnie, jak różne były wypowiedzi wygenerowane przez ChatGPT. Jedne były niemal bezbłędne, ale były też takie, w których znalazło się dość dużo błędów. Trafiały w okolicę górnej granicy dopuszczalnej na maturze.

Błędy powtarzały się w kolejnych wersjach?

Tak, przede wszystkim składniowe. Jeśli chodzi o interpunkcję, to czat często stawiał niepotrzebny przecinek po zestawieniach typu: zarówno, jak i. Model stosował też takie połączenia wyrazów, których nie użyłby przeciętny użytkownik polszczyzny. Stosunkowo rzadkie były błędy fleksyjne i słowotwórcze, choć przyznaję, że był jeden zabawny, który bardzo często się powtarzał. Otóż ChatGPT, zamiast napisać, że Makbet był tyranem, twierdził, że był tyranozaurem. Gdzieś w modelu musi być jakieś przekłamanie.

Porównywał pan, jak radzą sobie różne modele językowe?

Ograniczyłem się do tego, najbardziej popularnego, chatbota, ale w publikacji, którą napisałem, zwracam uwagę, że to ciekawy kierunek dalszych badań. Bo, wracając do pierwszego pytania, być może jakieś inne modele językowe poradziłyby sobie z maturą lepiej. To zapewne także kwestia danych, na jakich były trenowane – tam, gdzie treści polskojęzycznych było więcej, model jest bardziej efektywny dla naszego języka. Oczywiście ChatGPT najlepiej radzi sobie z językiem angielskim, dlatego że takich danych jest w internecie najwięcej. Szczególne nadzieje wiązałbym z modelami wytrenowanymi w całości na polskich danych.

Czy takie modele jak przygotowany przez zespół SpeakLeash i Cyfronet AGH Bielik 7B, czy powstający w konsorcjum pod przewodnictwem Politechniki Wrocławskiej PLLuM mają szansę być bardziej poprawne?

Kiedy rok temu zaczynałem pracę nad artykułem, nie były one jeszcze dostępne. Moje wstępne analizy Bielika dają nadzieję, że rzeczywiście model popełnia mniej błędów, jednak wciąż to robi. Niektórzy mówią, że to tylko kwestia czasu, że modele w pewnym momencie będą już na tyle sprawne w posługiwaniu się językiem, że dorównają nawet naprawdę dobrze wykształconym użytkownikom. Natomiast ja uważam, że tak nie jest.

Bo?

Oczywiście nie jestem informatykiem, więc może nie do końca rozumiem, jak działają te modele, ale jestem językoznawcą i wiem, jak funkcjonuje język. Wydaje mi się, że zaawansowane reguły składniowe i interpunkcyjne wymagają dobrego rozumienia tekstu, poszczególnych słów, kontekstów. A, jak rozumiem, modelu językowego nie da się tego nauczyć, bo nie rozumie on znaczenia generowanych przez siebie tekstów. Nie rozumie znaczenia słów tak jak my. Maszyna wie tylko, czy poszczególne słowa mogą ze sobą współwystępować. W dużym stopniu ten mechanizm polega na analizie statystycznej. Wydaje mi się, że ta technologia nigdy nie będzie generować tekstów wolnych od błędów.

Chociaż też jest pytanie, czy użytkownicy polszczyzny tworzą teksty, które są wolne od błędów.

Takie pełne błędów teksty trafiają później do zestawu treningowego...

Rzeczywiście, intuicja podpowiada, że model, który generowałby idealne pod względem poprawności językowej teksty, musiałby zostać wytrenowany na materiałach, które nie zawierają błędów. A takich tekstów jest bardzo niewiele, zwłaszcza w przestrzeni internetowej. Jest więc ryzyko, że modele językowe będą powielać błędne struktury, których się nauczą, analizując przesłane im teksty. W dodatku będą te struktury upowszechniać.

To znaczy?

Na początku zajęć zadaję studentom pytania: „kto decyduje o tym, czy coś jest poprawne, czy niepoprawne?” i „w jaki sposób kształtuje się norma językowa?”. Zwykle słyszę, że językoznawcy, a to nieprawda. Rada Języka Polskiego zabiera głos w jakichś dyskusyjnych sprawach, ale normę językową tak naprawdę kształtuje uzus, czyli teksty, które tworzą użytkownicy języka. I ChatGPT, czy tego chcemy, czy nie, także staje się użytkownikiem języka. Jeżeli coraz więcej z nas będzie korzystać z modeli językowych do generowania tekstów, które później są publikowane, to te błędne struktury będą wpływać na to, jak się kształtuje norma językowa i jak się kształtuje język.

Jakie to będzie miało konsekwencje dla polszczyzny?

Jest ryzyko, że wpadniemy w błędne koło. Wielkie modele językowe będą służyły do generowania treści, ale wypluwane przez nie konstrukcje będą błędne. Użytkownicy języka, którzy będą publikować tego rodzaju teksty bez wcześniejszej korekty, mimo woli będą te konstrukcje upowszechniać. Wszyscy będziemy się do nich przyzwyczajać i coś, co dziś wydaje nam się błędne, za jakiś czas może wejść do powszechnego użycia.

Poza tym nowe modele językowe będą się musiały na czymś uczyć. W internecie będą dostępne właśnie te błędne konstrukcje, więc nowe modele będą trenowane już na takich spaczonych danych. To jest dość pesymistyczna wizja. Trudno przewidzieć, dokąd doprowadzi na koniec.

Może przestaniemy używać AI?

A może po prostu nauczymy się traktować tego typu modele jako narzędzia, a nie jako gotowe rozwiązanie. Nie chcę demonizować, straszyć, że sztuczna inteligencja to zło, które doprowadzi do upadku polszczyzny. To jest bardzo dobre narzędzie, które może usprawniać pracę nad redagowaniem tekstów, nad tłumaczeniem, pomóc w generowaniu nowych pomysłów. Niekoniecznie musimy wymagać od modelu gotowych treści.

Myślę, że będzie tak, jak z upowszechnieniem się internetu. Kiedy stał się popularny, słyszeliśmy, że ludzie przestaną pisać i myśleć, bo przecież nie trzeba już chodzić do biblioteki, żeby napisać pracę. Nic takiego się nie stało.

Ale jednak pracę dla studenta AI może wygenerować.

Jasne, sam zastanawiałem się, czy ChatGPT przeszedłby przez studia polonistyczne, przynajmniej jeśli chodzi o pisanie prac. Doskonale zdaję sobie sprawę z tego, że studenci już dziś oddają prace semestralne przynajmniej częściowo redagowane przez AI. Więcej, słyszałem o wątpliwościach dotyczących prac dyplomowych.

A pańscy studenci mogą napisać coś z ChatGPT?

Tak, nawet ich do tego zachęcam. Próbujemy na zajęciach generować teksty z użyciem modeli językowych i patrzymy, na ile są spójne, zadajemy sobie pytanie, co musimy z tymi tekstami jeszcze zrobić, żeby się nadawały do publikacji. Myślę, że to dziś jest dużym wyzwaniem dla dydaktyków, żeby nie demonizować sztucznej inteligencji, ale właśnie starać się jej samemu nauczyć. Musimy się zaadaptować, bo nie mamy jeszcze nawet narzędzi, by udowodnić, że coś zostało wygenerowane przez sztuczną inteligencję. Możemy podejrzewać studenta, ale nawet gdybym chciał, nie mogę go oblać, bo nie jestem w stanie dowieść, że oszukiwał.

Ośrodek Przetwarzania Informacji wypuścił specjalny dodatek w oprogramowaniu antyplagiatowym.

Z tego, co wiem, tego typu narzędzia nie dają stuprocentowej pewności, że tekst jest wygenerowany. Gdybym więc podał pracę w wątpliwość, student mógłby zaskarżyć moją decyzję. Iść do dziekana i zapewniać, że wcale nie wygenerował tekstu za pomocą AI. Myślę, że jako wykładowcy musimy po prostu ocenić, czy student przyniósł dobry tekst. Sądzę, że dałoby się zaliczyć moje zajęcia, oddając mi tylko prace wygenerowane przez sztuczną inteligencję. Natomiast jest też pytanie o istotę studiowania. Czy o to chodzi? Co z tego, że ktoś zaliczy zajęcia? Co z tego, że dostanie dyplom, jeśli niczego się nie nauczy? Etyka będzie odgrywała coraz większą rolę.

Zupełnie nie ma pan problemu z pracami generowanymi w AI?

Nie prowadzę seminariów licencjackich ani magisterskich. W ich przypadku pewnie miałbym dużo większe opory. W pracach dyplomowych student musi złożyć oświadczenie, że pracę napisał samodzielnie. Pytanie, czy wygenerowanie fragmentów za pomocą ChatGPT to jest jeszcze samodzielność, czy już współpraca z drugim autorem. Są przykłady prac naukowych, w których sztuczna inteligencja jest wymieniana wśród autorów.

A czy pańską pracę o ChatGPT pisał ChatGPT?

Korzystam z tych narzędzi w pracy naukowej, szczególnie kiedy muszę tłumaczyć coś na język angielski. Natomiast nigdy nie generuję tekstów w całości. Jeszcze kilka lat temu zupełnie sobie tego nie wyobrażałem – na rynku były asystent Google, Siri i już wtedy wydawało się to niesamowitym osiągnięciem. Bardzo jestem ciekaw, jak to się dalej rozwinie.

Na razie straszymy, ale może mogą wyniknąć z tego jakieś dobre konsekwencje?

Sądzę, że bardzo wiele – są badania, które dowodzą, że ChatGPT radzi sobie z pytaniami pacjentów o wiele lepiej niż lekarze. Odpowiedzi udzielane przez sztuczną inteligencję zostały określone przez tych pierwszych jako dużo bardziej empatyczne. Jeśli nie będzie też wątpliwości co do strony merytorycznej takich porad, to może się okazać, że w przyszłości będziemy dzięki sztucznej inteligencji bardziej samodzielni i niezależni nawet od specjalistów. Jeśli natomiast chodzi o język, to myślę, że takie modele językowe jak właśnie np. Bielik, o którym rozmawialiśmy, będą sobie w przyszłości dobrze radziły np. z korektą tekstów. Z całą pewnością mogą pomóc szczególnie mniej doświadczonym użytkownikom polszczyzny. Proszę zwrócić uwagę, że my cały czas rozmawiamy o poziomie tekstów dziennikarskich, naukowych.

A badanie PISA pokazało, że co piąty 15-latek jest funkcjonalnym analfabetą.

A przecież oni też będą musieli napisać pierwszy list motywacyjny, pierwsze CV, e-maile zawodowe. Jeśli sztuczna inteligencja będzie pomagała w ich redagowaniu, to zwiększy szanse komunikacyjne takich osób. To może być naprawdę ważny krok. Konieczna jest jednak edukacja użytkowników. Myślę, że warto podkreślić, że sztuczna inteligencja to dobre narzędzie, ale tylko narzędzie. Nie jest naszym partnerem ani osobą, na której możemy w stu proc. polegać. ©Ⓟ

Sztuczna inteligencja to dobre narzędzie, ale tylko narzędzie. Nie jest naszym partnerem ani osobą, na której możemy w 100 proc. polegać