Kiekvienas iš mūsų – duomenų kūrėjas
Duomenys šiais laikais yra mūsų gyvenimo dalis, nesvarbu, kur dirbame, kiek ir kokių technologijų naudojame ir kaip gauname informaciją apie tai, kas dedasi mus supančiame pasaulyje. Paėmę išmanųjį įrenginį į rankas ir įkėlę nuotrauką ar vaizdo įrašą į socialinius tinklus, tampame duomenų kūrėjais.
Nors dar 2005 m. apie tai nė nebūtume pagalvoję, kadangi neturėjome taip kokybiškai fotografuojančių ir filmuojančių mobiliųjų telefonų.
Iki 2003 m. vien „Google“ sugeneravo 5 eksabaitus (daugiau kaip 5 milijardus gigabaitų) duomenų. Iki 2010 m. toks duomenų kiekis buvo sukuriamas kas dvi dienas, o iki 2021 m. – kas 40 minučių. Remiantis naujausiais, 2023 m. paskelbtais vertinimais, kasdien sukuriama 328,77 mln. terabaitų duomenų.
Kito ne tik sukuriamų duomenų kiekis, bet ir jų įvairovė. Greta kategorinių ir kiekybinių duomenų, apibūdinančių atitinkamai kokybines ir kiekybines tiriamųjų objektų savybes, skaitmeninį pavidalą įgavo ir laike ar erdvėje kintantys duomenys: tekstai, garsai, vaizdai, socialinių tinklų įrašai ir t. t.
Pasaulyje išpopuliarėjo terminas „didieji duomenys“, kuris vartojamas petabaitų ar didesniems duomenų, kurie, be to, pasižymi tiek įvairove, tiek kitimo greičiu, kiekiams apibūdinti. Duomenys virto turtu, „šiuolaikine nafta“.
Be abejo, kaip ir su bet kuriuo turtu, su duomenimis reikia elgtis atsakingai. Neužtenka juos vien kaupti, turime juos įdarbinti, kad gautume naudą. Taigi ką daryti su tokia duomenų gausa? Ar mes teisingai juos suprantame? Ar mokame išgauti informaciją ir sukurti naujas žinias?
Kas yra funkciniai duomenys?
Spartus informacinių technologijų tobulėjimas atvėrė plačias galimybes duomenų analizei. Pradėjo kurtis nauji metodai. Tarp jų yra ir funkcinių duomenų analizė (FDA).
Funkciniai duomenys daugiamačius objektus pakeičia begalinės dimensijos objektais. Šių duomenų šaltiniai yra patys įvairiausi: nuo rinkodaros, kai analizuojami vartotojų įpročiai, į internetą keliami jau minėti duomenys, iki medicinos, kai sekamas vaisiaus širdies susitraukimų dažnis, fiksuojamas mirtingumas nuo krūties vėžio pagal amžių ar inkstų anemija sergančių asmenų hemoglobino koncentracija.
Lingvistinė duomenų analizė vyksta, kai analizuojami vaikų ir suaugusiųjų priebalsių tarties ypatumai, stebimi lūpų judesiai kalbant. Apibendrinant galima sakyti, kad visa mus supanti informacija – tai funkciniai duomenys.
FDA yra statistikos kryptis, skirta darbui su funkciniais duomenimis. Ji remiasi paradigma, kad kreivė, paviršius ar kitas begalinės dimensijos elementas yra nagrinėjami kaip vienetinis stebėjimas, o jų rinkinys sudaro funkcinę imtį, kuri ir yra FDA tyrimų objektas (1 pav.).
1 pav. Funkcinių duomenų pavyzdžiai
Kadangi funkciniai objektai neišreiškiami matematinėmis formulėmis, labai svarbiais jų analizės įrankiais tapo kompiuteriai. Išaugus jų pajėgumui, atsirado ir programinė įranga, skirta funkciniams duomenims vizualizuoti, pirminei analizei ir įvairiems sudėtingesniems metodams panaudoti.
Galimybė tyrinėti žmogaus augimo procesus
Pirmieji FDA privalumais galėjo pasidžiaugti auksologai – mokslininkai, kurie tiria žmogaus augimo procesą.
Kruopštus žmogaus augimo dokumentavimas yra būtinas norint apibrėžti tai, ką vadiname normaliu augimu, kad galėtume kuo anksčiau pastebėti, kada augimo procese atsitinka kas nors negero.
Felso institutas Ohajo valstijoje renka augimo duomenis nuo 1929 m. ir dabar matuoja kai kuriuos pradinius trečiosios kartos duomenis. Įrašai apie vyresnius vaikus rodo ypatybes, kurias duomenų analitikui sunku modeliuoti klasikinės statistikos metodais. Geriausi modeliai turi aštuonis ar daugiau parametrų ir vis dar manoma, kad jiems trūksta kai kurių faktinio augimo aspektų. FDA padėjo atsakyti į daugelį rūpimų klausimų (2 pav.).
2 pav. Mergaičių augimo kreivės. 10 mergaičių ūgio funkcija, apskaičiuota iš 31 stebėjimo, atlikto 1–18 metų laikotarpiu
Pritaikius monotoninio suglodinimo metodus, duomenys konvertuojami į tolydžias du kartus diferencijuojamas kreives. Tai leidžia pažvelgti į vaikų augimo greitį bei pagreitį ir gauti naudingos informacijos, pavyzdžiui, apie tai, kada vaikai auga greičiausiai. Galimybė analizuoti funkcijų išvestines yra išskirtinis FDA privalumas.
Analizuojant augimo greičio bei pagreičio kreives galima pastebėti, kaip keičiasi vaiko augimas brendimo laikotarpiu – fiksuojamas didelis teigiamas greičio šuolis brendimo laikotarpio pradžioje ir neigiamas greičio pokytis paskutinėje brendimo fazėje. Dar svarbesnis šio ankstyvojo tyrimo atradimas yra tas, kad kelioms mergaitėms buvo būdingas vienas ar daugiau mažesnių pagreičio svyravimų prieš lytinio brendimo spurtą.
Kitas FDA privalumas – galimybė atskirti duomenų amplitudės ir fazės kintamumus. Tai vadinama kreivių registravimu. Fazės kintamumą galima sureguliuoti pagal įvairius požymius – ekstremines reikšmes, nulius ir pan. arba pagal kurį nors pasirinktą scenarijų (3 pav.).
3 pav. Mokesčių surinkimo kreivės. Pirmasis paveikslėlis rodo mokesčių surinkimo mėnesio duomenis (ne funkcinius), antrasis – suglodintas funkcines mokesčių surinkimo kreives, trečiasis – intensyvumo duomenis, registruotus pagal dvi svarbias mokesčių surinkimo mėnesio dienas
Funkcinių duomenų analizė leidžia įvertinti COVID-19 poveikį
Nemažai mokslinių publikacijų skirta COVID-19 duomenų analizei FDA metodais, kurie pasirodė efektyvūs nustatant įvairias pandemijos plitimo ir poveikio tendencijas.
Tarp tirtų parametrų, kurie domino epidemiologus, yra pasveikimų, mirčių, užsikrėtimų procesai ir jų intensyvumas užsikrėtimų skaičiaus atžvilgiu.
FDA metodai leidžia analizuoti įvairius statistinius klausimus. Kokie yra tipiški Europos ar Baltijos regiono šalių epidemiologinių parametrų profiliai? Koks yra tipiškas šalių mirtingumo arba išgydymo lygio profilis? Kokios šalys yra panašiausios į Lietuvą pagal skirtingus rodiklius, pvz., mirtingumo ir išgydymo? Kuriose šalyse skirtingais laikotarpiais epidemiologiniai parametrai yra ekstreminiai? Kaip ilgai trunka ekstremalieji laikotarpiai?
FDA metodai buvo taikyti analizuojant dirbančių asmenų pajamų nelygybės pokyčius COVID-19 pandemijos metu. Dėl įvestų karantino ribojimų visame pasaulyje buvo baiminamasi, kad labiausiai nukentės pažeidžiamiausi gyventojų sluoksniai.
Iš „Sodros“ pateikiamų mėnesinių duomenų buvo nustatytas darbo pajamų nelygybės indeksas ir, atsižvelgiant į amžių bei lytį, sudarytos metinės kreivės. FDA leido lanksčiau įvertinti, ar 2020-ieji išsiskyrė iš kitų metų pajamų nelygybės požiūriu.
Buvo nustatyta, kad 2020 m. kreivės forma išsiskyrė tarp 18–35 metų moterų ir 24–35 metų vyrų, kitose amžiaus grupėse reikšmingų skirtumų nenustatyta.
FDA – į pagalbą medicinos diagnostikoje
Vilniaus universiteto Matematikos ir informatikos fakulteto mokslininkai kartu su Nacionalinio vėžio instituto mokslininkais analizavo prostatos funkcinio magnetinio rezonanso (fMRI) vaizdus, skirtus prostatos vėžio diagnostikai.
Paprastai prostatos vertinimas atliekamas naudojant įvairias magnetinio rezonanso vaizdavimo sekas, o dinaminis kontrastas leidžia pastebėti didesnį kraujagyslių pralaidumą ir tankį, kurį sukelia piktybinis audinys. Preliminarūs tyrimai rodo, kad FDA gali būti taikoma atskiriant vėžines ir sveikas prostatos zonas.
Mokslininkams atliekant tyrimą prostatos vaizdai suskirstomi į regionus ir pagal juos apskaičiuojamos laiko ir signalo intensyvumo kreivės, kurios suglodinamos į funkcines kreives (4 pav.). Vėžio paveiktos zonos greičiau užsipildo kontrastu nei sveikos zonos. Kadangi greitis yra svarbus, tai skaičiuojamos funkcinių kreivių išvestinės. Tada funkciniams duomenims taikomas mašininio mokymosi klasifikavimo algoritmas, vadinamas k-artimiausių kaimynų metodu.
4 pav. Prostatos laiko ir signalo intensyvumo kreivės
Taigi FDA taikymai apima itin platų tiek mokslinių, tiek praktinių sričių spektrą. Netgi daugelis svarbių muzikos atlikimo ir suvokimo aspektų gali būti suprasti ir kiekybiškai įvertinti kaip dinaminiai procesai, besivystantys kaip laiko funkcijos. Todėl FDA yra statistinis metodas, puikiai tinkamas taikyti net ir tokioje srityje kaip muzikos atlikimo kiekybinė analizė.