Analiza publicznie dostępnych w sieci danych - blogów, forów internetowych, artykułów - pozwala dokładniej niż badania sondażowe przewidzieć wyniki demokratycznych wyborów. Pokazują to w swoich badaniach naukowcy z Uniwersytetu Warszawskiego.

W samej Polsce jest teraz ponad 27 mln internautów. Publicznie udostępniają oni co dzień w sieci ogromne ilości komentarzy, postów na blogach, plików, dokumentów. Jeśli wie się, jak w tych danych wyszukiwać konkretnych informacji, uzyskuje się niespotykany wcześniej wgląd w to, co ludzie ci myślą, jakie mają poglądy, co jest dla nich ważne, a co mniej.

Analizując publicznie dostępne w internecie treści, można np. z kilkudniowym wyprzedzeniem przewidzieć wyniki wyborów parlamentarnych czy prezydenckich. I to z dokładnością większą niż sondażownie. Pokazali to naukowcy z Wydziału Dziennikarstwa Informacji i Bibliologii Uniwersytetu Warszawskiego. Badacze próbują też - analizując Big Data - przewidzieć trendy gospodarcze czy kierunki rozwoju technologii.

"Odpowiedzi na pytanie, co ludziom w duszy gra, uzyskujemy drogą całkowicie legalną" - komentuje uczestnik badań dr hab. Wiesław Cetera. I podkreśla, że wszystkie dane wykorzystywane w badaniach, dostępne są publicznie, dla każdego. Badacze jedynie zbierają i „obrabiają” te informacje.

"Wyszukiwarki internetowe wyświetlają mniej niż 0,1 proc. informacji cyfrowych dostępnych w sieci. Reszta jest, z różnych powodów, pomijana" - mówi w rozmowie z PAP kierownik badań prof. Włodzimierz Gogołek. Dlatego jego zespół wykorzystuje własne roboty - programy, które przeczesują zadane im źródła informacji w poszukiwaniu konkretnych słów. "Przed wyborami prezydenckimi w 2015 r. skierowaliśmy roboty do wszystkich źródeł polskich informacji, które pisały na temat wyborów. To były np. gazety, książki, fora, blogi, publiczne posty na Facebooku" - mówi badacz. Roboty poszukiwały stron, na których padały słowa związane z wyborami, np.: "wybory" "Duda" i "Komorowski".

W zebranych tekstach - po odpowiedniej obróbce - wyszukiwano tzw. sentymentów. W uproszczeniu chodzi o emocje, jakie łączone były z poszukiwanymi słowami. Pozytywnymi sentymentami były np. słowa "zadziwiać", "cel", "lubić", "pewny", "wygrana". A negatywnymi sentymentami np. "winien", "zniszczenie", "upadek". Sprawdzano, jakie sentymenty pojawiały się w otoczeniu słów "Duda" oraz "Komorowski". I na tej podstawie wyliczano poparcie dla każdego z kandydatów. "Tydzień przed wyborami wiedzieliśmy, kto wygra. Nasze wyniki były dokładniejsze niż udostępnione przez CBOS" - chwali się prof. Gogołek. System przetestowano już podczas wyborów parlamentarnych w 2011 r. i w 2015 r., a także podczas wyborów prezydenckich w 2015 r.

Dr hab. Wiesław Cetera wyjaśnia, że sondażownie wykonują badania na próbach np. 1 tys. - 2 tys. osób. A w analizie Big Data zbiory są znacznie, znacznie większe. "To próba badawcza tak duża, że nie można jej osiągnąć w tradycyjnych badaniach. A wiadomo, że im większa próba badawcza, tym dokładniejsze wyniki badań. Nawet jeśli w tej próbie znalazły się opinie małowartościowe" - opowiada naukowiec. I dodaje, że nawet jeśli poszczególne partie przed głosowaniem zatrudniały trolle - osoby opłacone do pisania komentarzy, nie miało to dotąd większego wpływu na wyniki naszych badań.

Prognozowanie wyników wyborów to tylko jeden z przykładów tego, jak można wykorzystać Big Data. Naukowcy z UW pomagają np. ekspertom z Narodowego Centrum Badań i Rozwoju wskazywać kierunki innowacyjnych działań, w które warto inwestować.

Prof. Gogołek opowiada, że jednym z zadań, jakie jego zespół dostał od NCBR, była próba wskazania perspektyw rozwoju cloud computingu - operowania informacją w chmurze. "Jeśli są pieniądze na cloud computing, to możemy wskazać, w którym kierunku warto iść, a który to chybiona droga" - opowiada.

Naukowcy przeanalizowali ogromne zbiory danych, w tym wyniki z przetargów publicznych. "Zaczęliśmy sprawdzać, kto w Polsce jest zainteresowany cloud computingiem" - opowiada prof. Gogołek. W tych badaniach również analizowano sentymenty - emocje, które pojawiały się w informacjach związanych z cloud computingiem. Jak podsumowuje wyniki badacz, duże firmy, o ustabilizowanym własnym informatycznym potencjale, do rozwiązań cloud computingowych podchodzą niechętnie, uważając je za zbyt drogie. Za to zainteresowanie tego typu rozwiązaniami daje się zauważyć wśród mniejszych firm, głównie start-upów i dużych, które wcześniej nie inwestowały we własny potencjał informatyczny.

Wiesław Cetera z kolei miał inny pomysł na analizę Big Data. Jak opowiada, przeanalizował występowanie słów związanych z terroryzmem w portalu arabskiej stacji telewizyjnej Al-Dżazira. Z kolei studenci prof. Gogołka wykorzystywali analizę Big Data do próby przewidzenia notowań polskich spółek giełdowych.

"Ameryki nie odkrywamy. Takie systemy analizy dużych zasobów informacyjnych istnieją od wielu lat i są wykorzystywane głównie przez ekonomistów, a szczególnie bankowców. My pokazujemy kolejne przykłady zastosowania takich rozwiązań, m.in. w badaniach nauk humanistycznych, wcześniej zdominowanych badaniami jakościowymi" - kończy prof. Gogołek.