Co, jeśli się okaże, że eksperci i kadra zarządzająca firm o wartości akcyjnej rzędu bilionów się mylili? Co, jeśli specjaliści od geopolityki i polityki AI byli absolutnie w błędzie? Co, jeśli podział Bidena dla geopolityki AI był oparty na prostackich założeniach, że w AI liczą się wyłącznie dostęp do danych i moc obliczeniowa?
W ciągu zaledwie kilku dni chińska firma DeepSeek doprowadziła światowe giełdy do ogromnych spadków. Jednocześnie obnażając mity branży sztucznej inteligencji i błędne założenia geopolityki technologicznej.
DeepSeek, firma specjalizująca się w działalności hedgingowej, wcześniej niezauważana w wyścigu AI, opracowała jako poboczny projekt model o osiągach porównywalnych z produktami OpenAI. Do tego wielokrotnie tańszy. Powstał bez wielomiliardowych inwestycji, a na jego wytrenowanie poszło kilkadziesiąt razy mniej, niż wydały amerykańskie firmy. Stworzenie modelu V3 miało kosztować 5–6 mln dol. Jego trenowanie miało zająć dwa miesiące na klastrze złożonym z 2048 procesorów NVIDIA H800, starszych i mniej wydajnych, których nie dotyczą amerykańskie zakazy eksportu. Na bazie modelu V3 stworzono R1, wyposażony w zdolność do ciągu rozumowania, czyli rozbijania złożonych problemów na logiczne etapy prowadzące do ostatecznej odpowiedzi. To właśnie ten przełom zszokował świat, choć kluczowe innowacje pojawiły się już w grudniowym modelu V3.
DeepSeek czyli inteligentne podejście do zasobów
Za sukcesem DeepSeek stoi mądra i starannie zaprojektowana zoptymalizowana architektura systemu, wspierana odpowiednią infrastrukturą, technikami uczenia transferowego oraz inteligentnym podejściem do ograniczonych zasobów sprzętowych. DeepSeek osiągnęło sukces dzięki zastosowaniu zaawansowanych technik, takich jak mechanizm mieszanki ekspertów (Mixture of Experts), który pozwala modelowi aktywować tylko najbardziej potrzebne części podczas działania, wielopoziomowa uwaga (Multi-Level Attention) usprawniająca analizę długich tekstów czy przewidywanie aktywnych tokenów, co pozwala trenować model bardziej efektywnie. Te innowacje pozwoliły znacząco obniżyć koszty obliczeniowe. DeepSeek osiągnęło również przełom w zakresie taniego wnioskowania. Niższe koszty operacyjne, wynikające z tanich energii oraz pracy w Chinach, również musiały mieć znaczenie w redukcji wydatków.
Meta wpadła w panikę
Według przecieków z Mety kadra zarządzająca firmy miała wręcz wpaść w panikę, gdy wyszło na jaw, że DeepSeek stworzyło swój model po kosztach równych wypłacie jednej z osób z najwyższego kierownictwa. Przewrotnie może się okazać, że sztuczna inteligencja będzie zwalniać ludzi, ale zacznie od tych od AI. Bardziej poważnie: ten przypadek pokazuje ograniczone rozumienie rzeczywistych potrzeb rozwoju AI. Okazuje się, że rozwój sztucznej inteligencji nie musi sprowadzać się do wstawiania do serwerowni większej liczby procesorów GPU. To oczywiście nie oznacza, że ten sprzęt jest zbędny. Przywołuje się paradoks Jevonsa, wedle którego w miarę wzrostu efektywności rośnie popyt, w tym przypadku także na sprzęt obliczeniowy.
Jednak model DeepSeek budzi również kontrowersje związane z cenzurą. Nie udziela on odpowiedzi na pewne pytania, takie jak np. wydarzenia na placu Tiananmen w 1989 r. czy dotyczące Xi Jinpinga. Obawy dotyczące wolności informacji i rzetelności nie wykluczają wykorzystania modelu na przykład do programowania. Użytkownicy, którym przeszkadza takie okrojenie, mogą korzystać z różnych modeli, każdy ma jakieś ograniczenia, lub sprawdzać konkretne informacje w innych źródłach. Na platformie GitHub, gdzie zarządza się różnymi projektami oprogramowania, pojawiły się już pierwsze zgłoszenia poprawek stworzonych przy użyciu chińskiego modelu. Programista wysłał zoptymalizowany automatycznie niskopoziomowy kod napisany w 99 proc. przez DeepSeek. Model automatycznie wygenerował fragment oprogramowania, który działa poprawnie i wyjątkowo szybko, co świadczy o jego wysokim poziomie zaawansowania. W tym samym dniu DeepSeek wypuścił kolejny model – na podstawie tekstu generujący grafiki. Również otwarty, a co więcej – na odpowiednim sprzęcie można go uruchomić lokalnie w przeglądarce internetowej. Żadnych danych nie trzeba przesyłać na serwery firmy. Nie trzeba dzielić się np. wrażliwymi lub prywatnymi informacjami.
Przełom dla modeli open source
Są też dostępne „wydestylowane” modele DeepSeek, o zmniejszonej wydajności, ale i niższym zapotrzebowaniu sprzętowym. Można je zainstalować na średniej i wysokiej klasy laptopie typu Macbook. Innymi słowy, pochodzący z kraju komunistycznego DeepSeek oferuje za darmo model o otwartych wagach – każdy może sobie go ściągnąć i uruchomić lokalnie (o ile ma odpowiedni sprzęt), bez przesyłania informacji na jakiś zdalny serwer. Dzięki temu użytkownik zachowuje pełną kontrolę nad swoimi danymi, które nie są przesyłane ani na serwery amerykańskie, ani na chińskie, co zwiększa bezpieczeństwo i prywatność. O znaczeniu modeli open source pisałem już 23 czerwca 2023 r. w Magazynie DGP. Początek 2025 r. zaczyna się od wielkiego przełomu właśnie w tym obszarze, na X ktoś ironicznie stwierdził, że darmową sztuczną inteligencję dostaliśmy od firmy hedgingowej z państwa komunistycznego, podczas gdy organizacja non profit w USA oferuje ją za 200 dol. miesięcznie.
DeepSeek obnażyło fundamentalną prawdę, że sztuczna inteligencja, dotychczas uznawana za domenę miliardowych inwestycji, jest teraz bardziej dostępna, niż się wydawało. Prawdą jest też, że korekty na giełdzie spodziewano się od dawna. Oraz że niektórzy eksperci informatyki oceniali, że postępy w opracowywaniu systemów i algorytmów mogą dużo zmienić w kwestii wydajności. Także dzięki temu niektórzy zwykli ludzie z w miarę dobrym sprzętem (Macbook Pro, iPhone) mogą sobie wariant takiego modelu uruchomić już dziś – co prawda jest on mniej użyteczny niż pełen, ale wciąż bardzo pomocny.
Deep Seek to dla USA sygnał ostrzegawczy
Nawet prezydent USA zabrał głos. Trump powiedział, że postępy w AI chińskiego DeepSeek są „sygnałem ostrzegawczym” dla amerykańskiego przemysłu i że jeśli twierdzenia firmy są prawdziwe, to ocenia je jako „pozytywne”. Pod koniec swojej kadencji administracja Bidena ogłosiła wizję geopolitycznego podziału świata na trzy kategorie technologiczne. System ten zakłada ścisłą kontrolę nad dyfuzją technologii AI. Polska trafiła do krajów drugiej kategorii, czyli tych objętych restrykcjami uniemożliwiającymi rozwój i wdrażanie modeli AI dużej skali bez zgody USA i bez udziału firm z kategorii pierwszej. Głównym celem jest to, by nie powstał niezależny od USA ekosystem AI. Firmy z krajów kategorii I, takich jak USA, mają mieć uprzywilejowaną pozycję przy wdrażaniu infrastruktury AI w Polsce, podczas gdy lokalne podmioty będą ograniczone limitami mocy obliczeniowej oraz wymogami autoryzacji. W efekcie Polska i inne kraje kategorii drugiej mogą zostać zredukowane do roli odbiorców technologii, co zagrozi ich autonomii i innowacyjności i wystawi je na kolonizację technologiczną, ograniczając ich suwerenność.
Tego dżina nie da się już zamknąć w butelce. Unia Europejska powinna natychmiast zwrócić uwagę na te zmiany. Czy jednak KE zdaje sobie sprawę z ich znaczenia? A czy sytuację rozumie polski rząd? Świat dokonał skoku naprzód; mamy realny przełom technologiczny.
Polska musi działać, aby nie zostać w tyle. Udostępnienie modelu takiego jak DeepSeek w ośrodkach badawczych oraz wsparcie dla jego wdrożenia to inwestycja w konkurencyjność kraju i nauki – nie tylko w informatyce czy sztucznej inteligencji, ale we wszystkich dziedzinach, które mogą skorzystać z tak potężnych narzędzi. Resorty cyfryzacji i nauki powinny pilnie zareagować i zapewnić środki na taki projekt. W dwa dni można np. postawić ten model w Cyfronecie (AGH) i udostępnić urzędnikom i naukowcom. Zapewne ktoś musi wziąć za to odpowiedzialność i złożyć kilka podpisów. Stawką jest jednak to, czy Polska pozostanie w grze na globalnym poziomie nauki i technologii. Po co iść na dno? Czas na decyzje. ©℗
Jako senior research fellow związany z Wydziałem Nauk o Wojnie King’s College London