Duomenų daug ir jų vis daugėja. Klausimas: ką ir, svarbiausia, kaip, su tais duomenimis daryti? „Pasaulis keičiasi milžiniškais tempais ir kiekvieną dieną kuriami vis tobulesni įrankiai didžiuliams duomenų kiekiams saugoti ir valdyti“, – teigia duomenų mokslininkas, Kauno technologijos universiteto Matematikos ir gamtos mokslų fakulteto (KTU MGMF) absolventas Artūras Katvickis, šiuo metu dirbantis olandų kapitalo programinės įrangos kūrimo įmonėje „Hyarchis“.
Pikas dar nepasiektas
Kasdien sugeneruojamų duomenų kiekiai yra milžiniški. Nors tiksliai apskaičiuoti yra labai sunku, bet manoma, kad 2020 metais skaitmeninį pasaulį sudarys 44 zetabaitai duomenų, o 2025-aisiais kas 24 valandas visame pasaulyje bus sukuriama maždaug 463 egzabaitai, t.y. 1 bilijonas gigabaitų.
Pasaulio ekonomikos forumo duomenimis, 2020 metų pradžioje egzistavo 40 kartų daugiau baitų duomenų nei visatoje stebimų žvaigždžių, o tokie gigantai kaip „Google“, „Microsoft“ ar „Amazon“ saugo mažiausiai 1200 petabaitų – 1200 milijonų gigabaitų – klientų informacijos.
Tokius stulbinančius skaičius suvokti nėra paprasta ir lengva, bet jie tik didės. Pasitelkiant šiuos duomenis kasdien atsiranda vis naujų įrankių bei paslaugų, sukurtų remiantis duomenų mokslu.
„Šiandien turbūt retas kuris sugebėtų įvardinti kiekvieną atvejį, kuomet susiduria ar naudojasi duomenų mokslo, plačiąja prasme, pasiekimais kasdieniame gyvenime. Manau, duomenimis grindžiamos technologijos vis dar yra augimo stadijoje ir toli gražu nepasiekė savo piko“, – įsitikinęs A. Katvickis.
Svarbiausia žinoti „kaip“
Pasak duomenų mokslininko, kad ir kiek duomenų būtų sukuriama, suvaldyti juos esame pajėgūs, bet kyla kur kas didesnių iššūkių: „suvaldyti, t.y. saugoti ir tvarkyti, esamus duomenų srautus žmonija yra pajėgi. Tačiau kur kas svarbesnis klausimas – kaip tuos duomenis „įdarbinti“, t. y. gauti iš jų naudos“.
Tinkamas duomenų rinkimas, sisteminimas ir analizavimas įmonėms ar viešojo sektoriaus įstaigoms gali atnešti labai daug naudos: nuo sprendimų priėmimo ir produktų, procesų ir paslaugų gerinimo – iki veiklos automatizavimo ir kaštų mažinimo.
Specialistas įsitikinęs, kad pirmas svarbus žingsnis apdorojant duomenis yra tikslus problemos suformulavimas: aiškiai apibrėžtas tikslas, numatyti galimi apribojimai ir priimtinos paklaidos. Kitas svarbus dalykas yra duomenų kokybė.
„Kuomet duomenys renkami neturint aiškaus plano, dažnai jie gaunami nepilni, „užtriukšminti“ arba net pametami reikšmingi ryšiai, kas vėliau stipriai apsunkina arba net padaro neįmanomą jų tolesnę analizę“, – apie duomenų valdymo iššūkius pasakoja A. Katvickis.
Nauja revoliucija – nauji ir iššūkiai
4-ajai pramonės revoliucijai įsibėgėjant, kasdien atsirandant vis daugiau duomenimis grįstų technologijų – o jų neabejotinai daugės ir bus vystomos dabartinės, – vis svarbesni darosi teisiniai, etiniai ir moraliniai aspektai. Pasak duomenų mokslininko, vis dažniau yra kalbama apie įvairius apribojimus ir reikalavimus kuriamiems įrankiams.
„Šie aspektai ypač aktualūs dirbtinio intelekto (DI) sistemoms ir neišvengiamai yra ir bus aptarinėjami artimiausioje ateityje“, – apie tendencijas duomenų mokslo srityje svarsto A. Katvickis.
Specialistas mano, kad teisinės bazės sureguliavimas gali trumpam pristabdyti duomenimis grįstų technologijų augimą, bet, bet kuriuo atveju, jos plėsis ir tobulės.
Dirbti gali ne bet kas
Šiuolaikinės bendrovės investuoja į duomenų mokslininkus, kurie sumaniai turimus duomenis „įdarbina“. Atsižvelgiant į pasaulines tendencijas, sunku būtų įsivaizduoti modernų verslą be duomenimis grįstų technologijų – DI, mašininio mokymo (MM) ar duomenų analizės, taip pat ir be duomenų specialistų. Tačiau jau kurį laiką ryškėja tendencija – jų trūksta visame pasaulyje. Verslai ieško gerų specialistų, bet kas yra geras duomenų specialistas?
A. Katvickis pabrėžia, kad geras duomenų specialistas turi pasižymėti plačiomis matematinėmis ir programavimo žiniomis, turėti išlavintą algoritminį mąstymą. Bet ne mažiau svarbios yra ir „minkštosios“ kompetencijos bei žmogaus būdo bruožai: komunikavimo įgūdžiai, gebėjimas pristatyti idėją ir paaiškinti sudėtingus dalykus paprastai, smalsumas – tiek plačiąja prasme, t. y. domėtis naujais įrankiais, technologijomis bei idėjomis, – tiek vykdant konkrečią užduotį. Labai svarbus noras (ir gebėjimas) nuolat mokytis, tobulėti bei įgyti naujų žinių.
„Reikia suprasti labai paprastą dalyką – pasaulis nestovi vietoje, o nuolat keičiasi, vystosi ir tobulėja. Ir, norint būti paklausiu darbo rinkoje, reikia nuolat mokytis. Tad žinias, kurias įgijau studijuodamas KTU MGMF aš palyginčiau su namo pamatais“, – įsitikinęs duomenų mokslininkas.
Įmonės „Hyarchis“, kurioje dirba A. Katvickis, vykdančiojo direktoriaus Adriaan Hoogduijn manymu, geras duomenų mokslininkas – gebantis savarankiškai išanalizuoti iškeltą uždavinį, parinkti tinkamus sprendimo metodus, įvertinti galimus privalumus ir trūkumus bei pasiūlyti realizuojamą sprendimą.
Darbdaviai vieningi
Pasak A. Hoogduijn, didžioji dalis verslų pastaruoju metu pereina nuo ekspertinio veiklos planavimo link duomenimis paremto veiklos planavimo modelio (angl. data-driven decision making): „Norint įgauti konkurencinį pranašumą, ypač technologijų sektoriuje, būtina naudoti naujausius duomenimis grįstus įrankius ir technologijas, viena kurių yra DI sistemos“, – įsitikinęs vykdantysis direktorius.
Įmonėje „Hyarchis“ duomenų mokslininkai, pasitelkdami DI ir MM metodus, dirba su automatiniu dokumento turinio apdorojimu.
„Per daugybę metų mūsų klientai sukaupia šimtus tūkstančių ar net milijonus dokumentų, kuriuos saugo ne tik elektroniniame, tačiau ir popieriniame pavidale. Net ir tuomet, kai popieriniai dokumentai yra perkeliami į elektroninį formatą, informacija tokiuose dokumentuose yra sunkiai prieinama, nes reikalauja rankinio (angl. manual) apdorojimo. Mūsų orientacija – kurti ir teikti rinkai sprendimus, kurie, remiantis jų turiniu ir klientų poreikiais, automatizuotai apdorotų tokius dokumentus“, – apie sprendimus, kuriamus „Hyarchis“ duomenų mokslininkų, pasakoja vykdantysis direktorius.
Duomenų mokslo, jų specialistų nauda ir būtinybe neabejoja ir kitas KTU absolventas Kęstutis Daugėla, didžiųjų duomenų inžinieriumi dirbantis SEB grupės paslaugų centre Vilniuje.
„Informacinės platformos departamentas mūsų banke ne tik konstruoja duomenų srautus, rūpinasi duomenų saugumu, kokybe, bet ir prižiūri MM algoritmų gyvavimo ciklą bei taiko minėtus algoritmus, siekiant užtikrinti tinkamą sistemos darbą“, – apie duomenis ir jų valdymą SEB banke pasakoja K. Daugėla.
Šios srities darbuotojas, pasak Kęstučio, turi būti ne tik geras matematikas, bet ir pažengęs inžinierius, mokantis integruoti mašininio mokymo algoritmus verslo aplinkoje bei gebantis „žongliruoti“ duomenimis tarp skirtingų informacijos šaltinių.