Gigabajty danych sieciowych z wypowiedziami internautów i artykułami prasowymi stają się dziś bazą m.in. dla oceny preferencji wyborczych. Analiza sympatii politycznych przy użyciu Big Data może dostarczyć bardziej precyzyjnych wyników, niż klasyczne sondaże.
Zespół badawczy kierowany przez prof. Włodzimierza Gogołka z Uniwersytetu Warszawskiego, od kilku lat stosuje tzw. rafinację danych Big Data, na podstawie której prognozuje m.in. wyniki wyborów parlamentarnych i prezydenckich.
- Wyłuskiwanie wartościowych informacji z Big Data wymaga kilku specjalistycznych narzędzi programowych. Ich działanie polega na zbieraniu "wpisów" - informacji z sieci (robią to roboty), wyszukiwaniu fraz zawierających określoną nazwę, np. firmy, nazwisko, które są w sąsiedztwie słów określanych jako sentyment. Np. "polityk Abacki jest dobrym ekonomistą". Zliczając liczby fraz z pozytywnymi i negatywnymi sentymentami (w przykładzie pozytywnym sentymentem jest "dobry") uzyskujemy opinię o Abackim, np. 100 tys. dobrych opinii 1000 złych - wyjaśnia w rozmowie z PAP Gogołek.
Profesor z zespołem stosował metodę rafinacji dużych zbiorów danych przy okazji wyborów prezydenckich i parlamentarnych w 2011 r., dowiodła ona wtedy swojej wysokiej wiarygodności. Podobną analizę przeprowadzono także podczas finału kampanii w tegorocznych wyborach prezydenckich.
- W wyborach parlamentarnych i prezydenckich w 2011 r. wyniki zostały przewidziane bezbłędnie. W ostatnich wyborach prezydenckich wymowna jest procentowa różnica (zaledwie 0,66 proc.) pomiędzy liczbami pozytywnych sentymentów dotyczących każdego z kandydatów, zgromadzonymi przez nasze narzędzia w przeddzień wyborów prezydenckich 2015, która wynosiła 2,44 proc., a rzeczywistą różnicą jaka dzieliła Andrzeja Dudę i Bronisława Komorowskiego - 3,10 proc. - tłumaczy profesor.
Ekspert wyjaśnia, że rafinacja dużych zbiorów danych stanowi wartościową alternatywę dla ilościowych badań sondażowych, zaś dzięki automatyzacji procesów, jej koszt w porównaniu do klasycznych metod jest o wiele mniejszy.
- Klasyczne badania opierają się na analizie, najczęściej skategoryzowanych, odpowiedzi na pytania, które zadawane są określonej reprezentatywnej liczbie, setek, rzadziej tysięcy, osób. Rafinacji poddawane są natomiast miliony wpisów. Np. w ostatnich badaniach dotyczących Jana Pawła II rafinacji poddaliśmy około 5 mln wpisów. O wiarygodności badań klasycznych stanowi reprezentatywność próby np. tysiąc osób, w rafinacji wiarygodność implikują wcześniej uzyskane wyniki - podkreśla profesor. - W stosunku do tradycyjnych badań koszty rafinacji są marginalne, szczególnie jeśli dysponuje się względnie wystandaryzowanymi narzędziami: roboty kolekcjonujące wpisy, identyfikacja sentymentów, obliczanie krotności sentymentów.
Rafinacji Big Data nie należy rozpatrywać jako badawczego eksperymentu, profesor przekonuje, że to i podobne narzędzie znajdują zastosowania komercyjne.
- Rafinacja obejmuje bardzo szerokie spektrum możliwych badań min.: monitoring marki - identyfikacja bieżących zagrożeń pozytywnego obrazu marki, możliwości zbierania sentymentów dotyczących notowań spółek giełdowych - testy wskazały nadzwyczaj dużą korelację przewidywań z rzeczywistymi notowaniami czterech spółek giełdowych (Enea SA, KGHM SA, Synthos SA i Tauron SA). Podobnie do badań marki łatwe jest, korzystając z rafinacji, monitorowanie notowań organizacji, partii i poszczególnych osób. Identyfikacja zagrożeń: przestępstwa, wady masowych produktów itp. - przekonuje Gogołek.
Jeżeli chcesz codziennie otrzymywać informacje o aktualnych publikacjach ukazujących się na portalu netTG.pl Gospodarka i Ludzie, zapisz się do newslettera.