– Dla zapytań w języku polskim Bielik radzi sobie na podobnym poziomie co duże modele językowe światowych dostawców. Tak oceniają go użytkownicy – chwali się Sebastian Kondracki z fundacji SpeakLesh. Współtworzony przez niego polski duży model językowy (LLM) Bielik v2 miał w środę premierę w sieci. Autorzy udostępniają go niekomercyjnie i mają nadzieję, że w przyszłości pomoże rozwijać się zarówno polskim firmom, jak i instytucjom publicznym.
Duże modele językowe to systemy sztucznej inteligencji, które przetwarzają tekst i generują wypowiedzi, streszczenia czy tłumaczenia jak najlepiej odpowiadające na potrzeby użytkownika. Do niedawna były przedmiotem zainteresowania przede wszystkim naukowców, pod strzechy trafiły wraz z premierą ChatGPT w listopadzie 2022. Od tego czasu swoje LLM wypuściły do szerokiego użytku m.in. największe amerykańskie korporacje, w tym Meta i Google. Jak jednak przekonują twórcy Bielika, to nie do końca rozwiązuje polskie problemy.
– Problem z zastosowaniem zagranicznych modeli w naszym kraju polega na tym, że te nie rozumieją niuansów języka polskiego: mają problemy z gramatyką i słownictwem, odniesieniami kulturowymi. Posługiwanie się modelami wyszkolonymi na polskich danych jest potrzebne, by uniknąć amerykanizacji naszej kultury – mówi Maciej Krystian Szymański, również zaangażowany w Bielika.
Bielik jest dostępny za darmo
Firmy używają wielkich modeli językowych np. do analizowania opinii o swoich produktach pobranych z internetu. Jeśli model trafi na zdanie „wasze usługi są tak tanie, że zostaje mi tylko na chleb i margarynę”, może zakwalifikować je jako pozytywną ocenę. Wytrenowany na polskich zbiorach danych powinien rozpoznać ironię.
Kondracki dodaje, że polskie modele to nie tylko kwestia zastosowań biznesowych, lecz także ochrona dziedzictwa kulturowego i suwerenności państwa. – Czy ktoś wyobraża sobie, by wojsko używało modeli, które pozostają pod kontrolą USA albo Chin? – pyta retorycznie.
Jako projekt open-source Bielik jest dostępny dla wszystkich za darmo. Użytkownicy mogą pobrać model z platformy Hugging Face i dostosować go do konkretnych zastosowań. To druga wersja tego modelu. Pierwszą, dostępną w sieci od kwietnia, pobrano 220 tys. razy.
Aby zbudować wielki model językowy, potrzebne są trzy rzeczy: ludzie, którzy potrafią to robić, dane oraz moce obliczeniowe. Wszystkie to ogromne koszty – tylko w roku 2023 Micro soft zainwestował w budowę ChatGPT 10 mld dol. W Polsce takich pieniędzy na budowę modelu nie ma. Bielik korzysta więc częściowo z gotowej architektury, opartej na modelu stworzonym przez francuską spółkę Mistral. Polski LLM rozbudowują własnymi siłami entuzjaści AI, regularnie pracuje nad nim w tej chwili ok. 30 osób, ale w serwisie Discord, który jest główną platformą komunikacji projektu, jest zaaganżowanych ok. tysiąca użytkowników. Udzielają sobie między innymi wsparcia technicznego związanego z wykorzystaniem modelu.
Kluczowe dla projektu stało się pozyskanie mocy obliczeniowej. Dostarczyło ją Akademickie Centrum Komputerowe CYFRONET AGH. – Początkowo mieliśmy projekt, by utworzyć dobry zbiór danych treningowych, naszym celem był 1Tb danych. Kiedy byliśmy blisko celu, okazało się, że potrzebne są zadania do testowania superkomputera Helios. Zaproponowano nam współpracę – wspomina Kondracki. Moc Heliosa odpowiada mniej więcej 50 tys. standardowych laptopów (pisaliśmy o tym: „Czas na Piątkę dla AI”, DGP Magazyn na Weekend, 26 lipca 2024).
Pomoc dla przedsiębiorców
Docelowo takie rozwiązania jak Bielik mają ulżyć polskim przedsiębiorcom. – Aby korzystać z LLM, muszą oni płacić ogromne kwoty dostawcom zachodnich rozwiązań chmurowych, gdzie hostowane są wielkie modele. Liczyliśmy, że Bielik może przejąć w firmie ok. 80 proc. zadań, a więc dla średniego biznesu to wielkie oszczędności – przekonuje Krzysztof Chibowski, na co dzień Advisory & Professional Services w Hewlett Packard Enterprise, po godzinach rozwijający Bielika.
Polski LLM mógłby się również przydać w administracji publicznej. Takie rekomendacje znalazły się w raporcie, jaki na zlecenie ministra cyfryzacji przygotowała grupa ekspertów zrzeszonych pod szyldem PL/AI.
PLLuM konkurentem dla Bielika?
Bielik to niejedyny polski model, nad którym pracują naukowcy. W grudniu światło dzienne ma ujrzeć również PLLuM, tworzony przez konsorcjum: Politechniki Wrocławskiej, Instytutu Podstaw Informatyki PAN, Instytutu Slawistyki PAN, Naukowej i Akademickiej Sieci Komputerowej (NASK), Ośrodka Przetwarzania Informacji oraz Uniwersytetu Łódzkiego na zlecenie Ministerstwa Cyfryzacji. Budżet PLLuM to 18 mln zł. Jak zapewnia w rozmowie z DGP Aleksandra Tomaszewska z IPI PAN, jedna z liderek projektu, prace przebiegają zgodnie z harmonogramem.
O ile Bielik jest modelem, to PLLuM ma być ekosystemem. Zgodnie z zapowiedziami ma się znaleźć w nim seria modeli oraz inne półprodukty, takie jak korpusy danych treningowych czy narzędzia do budowania takich zbiorów danych.
Zdaniem ekspertów prace nad polskimi modelami mają stymulować cały ekosystem technologiczny w Polsce. Inną motywacją dla firm może być również Fundusz AI, który chciałby powołać wicepremier Krzysztof Gawkowski. Negocjacje o jego wysokości trwają – rząd pracuje właśnie nad przyszłorocznym budżetem, w którym Fundusz miałby się znaleźć. ©℗