Big data - co to takiego?

PAP |

dodane 12.05.2013 23:45

"Big data", czyli analiza różnorodnych i dostępnych w ogromnych ilościach zbiorów danych jest prowadzona na nowe, coraz bardziej zaskakujące sposoby. Nowy Jork dzięki temu nowemu narzędziu poprawił walkę z przestępczością i lepiej zapobiega pożarom.

Nie ma jednej prostej definicji "big data". Pojęcie to określa możliwości analizowania i przetwarzania ogromnych zbiorów informacji, jakie są obecnie dostępne. "Niezależnie od dziedziny, możemy zbierać dziś znacznie więcej danych i nauczyć się z nich w nowy sposób korzystać" - tłumaczy współautor wydanej niedawno książki "Big Data: A Revolution that will transform how we live, work and think", Kenneth Cukier. Książka już stała się w USA bestsellerem.

Eksplozja "big data" jest stosunkowo nowym zjawiskiem, co wynika z faktu, że dane są obecnie przechowywane w sposób cyfrowy, co ułatwia ich przetwarzanie. W 2000 roku tylko jedna czwarta światowych danych była zapisana cyfrowo; obecnie mniej niż 2 proc. informacji nie jest przechowywanych w tej formie. Niegdyś analitycy musieli ograniczać się do badania małej próbki danych, gdyż ich zbieranie było kosztowne, a przetwarzanie skomplikowane. Teraz, przy pomocy programu komputerowego można analizować nieograniczone ilości danych.

"Big data", przekonują autorzy książki, głęboko wpłynie na sposób w jaki pracują rządy i zmieni uprawianie polityki. Przykładem innowacyjnego wykorzystania danych już teraz jest miasto Nowy Jork, którego burmistrz Michael Bloomberg dorobił się fortuny w biznesie danych finansowych.

Nowy Jork wykorzystuje "big data", by poprawić usługi publiczne i obniżyć ich koszty, ale także, by walczyć z przestępczością - powiedział dyrektor ds. analiz w biurze burmistrza Michael Flowers, podczas wspólnej konferencji z Cukierem, zorganizowanej przez waszyngtońską Radę ds. Stosunków Międzynarodowych (CFR).

Te nowe narzędzia pomogły np. zwalczać proceder nielegalnego ubiegania się o refundację leków. Analizując dane z ponad 20 tys. aptek analitycy odkryli, że w ponad 20 aptekach wartość wniosków o refundację pewnego lekarstwa znacznie odbiegała od normy. Oczywiście to nie był wystarczający dowód, by oskarżyć te apteki o łamanie prawa - zastrzega Flowers. "Ale kazaliśmy przeprowadzić tradycyjne audyty w tych właśnie aptekach i okazało się, że w 18 rzeczywiście doszło do nadużyć - powiedział. +Big data+ to więc bardzo skuteczny sposób, by sprawdzić, gdzie powinniśmy szukać".

Innym przykładem wykorzystania "big data" jest zapobieganie pożarom. Wiadomo, że pożary częściej wybuchają w domach nielegalnie podzielonych na mniejsze lokale, gdzie mieszka zbyt dużo osób. Miasto dostaje rocznie aż 25 tys. skarg w tej sprawie, ale mając tylko 200 inspektorów, nie jest w stanie wysłać ich na kontrole do wszystkich miejsc.

Analitycy stworzyli więc bazę danych 900 tys. budynków w Nowym Jorku, poszerzoną o wszystkie możliwe dane z różnych urzędów miejskich, dotyczące podatków, spóźnionych opłat, wskaźników przestępczości, wizyt karetek pogotowia, anomalii w wykorzystaniu wody czy prądu itp. Te dane porównano z informacjami o pożarach w ciągu ostatnich pięciu lat, w nadziei na odnalezienie korelacji, które zwiększają ryzyko pożaru.

Jak można się było spodziewać, okazało się, że pożary występowały częściej w budynkach określonego typu i zbudowanych w konkretnych latach. Ale znaleziono też inne, mniej oczywiste korelacje. Teraz urzędnicy mogą określić, które z otrzymywanych od mieszkańców skarg w sprawie przeludnienia budynków wymagają pilnej interwencji. Metoda okazała się niezwykle skuteczna. W przeszłości po kontrolach budynków tylko w około 13 proc. przypadków inspektorzy wydawali nakaz opuszczenia domu. Teraz czynią to w aż 70 proc.

Najbardziej znanym przykładem wykorzystania "big data" jest stworzone przez Google narzędzie do szacowania zachorowalności na grypę w czasie niemal rzeczywistym, opisane w magazynie "Nature" w 2009 roku. Mając dostęp do miliarda przechowywanych informacji o korzystaniu z wyszukiwarki w USA, analitycy danych wyodrębnili te, które w latach 2003-2008 były związane z grypą (np. gdy ludzie wpisywali w wyszukiwarkę takie terminy jak katar, ból głowy czy gorączka). Następnie porównali te dane z informacjami Centrum Kontroli i Prewencji Chorób w USA i okazało się, że w sezonie grypowym w danej części kraju bardzo wzrastała liczba zapytań w wyszukiwarce Google o objawy grypy. Analizując w czasie rzeczywistym częstotliwość zapytań związanych z grypą, można więc pokusić się o ocenę nasilania się aktywności wirusa w różnych częściach świata i mu przeciwdziałać.

Ale, jak zauważają autorzy książki "Big data...", to narzędzie jest obarczone ryzykiem błędu, gdyż zbierane dane mogą okazać się mylące. W grudniu ubiegłego roku Google znacznie przeszacował liczbę zachorowań na grypę w USA. Należy pamiętać, zastrzegają eksperci, że prognozy jakie można uzyskać analizując "big data" są tylko prawdopodobieństwami, które nie zawsze są poprawne, zwłaszcza gdy zadziałają inne nieprzewidziane czynniki.

Oprócz ogromnych korzyści "big data" niosą też ze sobą zagrożenia, np. jeśli chodzi o wykorzystanie danych osobowych. Firmy takie jak Facebook, Google czy Amazon zbierają ogromne informacje o każdym z nas. Dotychczas, jak wskazuje Cukier, obowiązywały ustalone 30 lat temu przez OECD zalecenia, by dane niszczyć, jeśli został osiągnięty cel, w którym zostały zebrane. "Ale dziś wiemy, że te dane, odpowiednio przetworzone, można będzie w przyszłości wykorzystać na miliony sposobów. Nie ma wiec sensu ich wykasowywać, lepiej je zachować" - zauważa Cukier. Dlatego, jego zdaniem, konieczna jest nowa debata na temat prawa o ochronie danych osobowych.