„Pastebėjome, kad atvirų duomenų rinkiniai yra naudojami ne pagal paskirtį.
Kokia yra atvirų duomenų paskirtis? Bendroms tendencijoms, reiškiniams stebėti, paplitimui, vidurkiams, dinamikai vertinti, bendrinėms išvadoms daryti, statistinėms analizėms, įžvalgoms, prognozėms, edukacijai.
Kokia nėra atvirų duomenų paskirtis? Sensacingų istorijų apie pavienius atvejus paieškai, detektyviniam tyrinėjimui, potencialių aplinkkelių, galimai palengvinančių netiesioginį asmens identifikavimą, ieškojimui ir išnaudojimui.
Nuo šiol COVID atvirų duomenų rinkiniuose nebeliks jokių papildomų duomenų apie jaunesnius nei 20 metų amžiaus asmenis. Pavyzdžiui, nuo COVID mirus 0–19 metų amžiaus asmeniui, nebus įmanoma nustatyti, kokia to asmens lytis, koks tikslus amžius, kokioje savivaldybėje asmuo gyveno; paskiepijus 0–19 metų amžiaus asmenį, nebus įmanoma nustatyti, kur asmuo buvo skiepytas, kokioje asmens sveikatos priežiūros įstaigoje registruotas, ar kuri įstaiga skiepijo“, – rašoma gruodžio 30 d. paskyroje Valstybės duomenų analitika paskelbtame įraše.
Duomenų mokslininkas kritikuoja sprendimą
„Euromonitor International“ duomenų mokslininkas Vaidotas Zemlys-Balevičius nusivylė šiuo Statistikos departamento sprendimu ir tikisi, kad jis bus pakeistas.
„Praėję metai duomenų atžvilgiu buvo visai neblogi. Lietuvos statistika perėmus duomenų skelbimą iš NVSC, Lietuvos COVID-19 duomenys tapo vieni iš detaliausių pasaulyje. Atvejų duomenys pagal vakcinaciją, mirčių duomenys po vakcinacijos ir po užsikrėtimo COVID-19 buvo vieni iš geriausių atvirų duomenų pavyzdžių.
Todėl ypač liūdna, kad metų pabaigoje dėl nelabai suprantamų priežasčių iš atvirų duomenų buvo sugadinti visi 0–18 metų amžiaus grupių duomenys. Tiek atvejų, tiek mirčių, tiek vakcinacijos duomenys tapo cenzūruoti. Nesimato lyties ir savivaldybės. Tai gana informatyvios amžiaus piramidės prarado savo pagrindą. Be to, visiškai neaišku, kurioje Lietuvos vietoje vaikų sergamumas yra didžiausias. Prisimenant, kad būtent vaikų atvejai sudarė didelę dalį delta bangos atvejų, ateinant omikron bangai tai žinoti yra labai svarbu.
Vaikų duomenys yra jautrūs, be to, turėjom nemalonių incidentų, kurie gana plačiai nuskambėjo (turiu omenyje antivakserių šlykščiai išviešintas jaunų žmonių mirtis). Jautrius duomenis reikia cenzūruoti, bet tai reikia daryti taip, kad nebūtų pažeidžiamas visuomenės interesas žinoti, kokia yra objektyvi epidemiologinė situacija Lietuvoje. Tam tikras cenzūravimas duomenyse anksčiau jau buvo, nes visados buvo tam tikras mažas atvejų (susirgimų, vakcinacijų ir mirčių) skaičius, kuriam dėl duomenų suvedimo klaidos nebuvo galima nustatyti savivaldybės, amžiaus ar lyties. Tokių atvejų buvo mažiau nei procentas.
Tai jautrius atvejus galima labai paprastai priskiri prie neišaiškintų, trumpai nurodant, kodėl jie ten atsidūrė. Tai yra visiškai normali praktika su statistiniais duomenimis. Triukšmas juose yra neišvengiamas, tai jautrius duomenis galima „slėpti“ triukšme. Aišku, taip darant svarbu pasirūpinti, kad bendras vaizdas nėra iškreipiamas, bet tai ir yra statistikos, kaip mokslo, esmė: eliminuoti triukšmą neiškraipant signalo. Tai Lietuvos statistika pasirinktas 0–18 amžiaus grupių duomenų cenzūravimas prieštarauja pačiai statistikos esmei. Tikiuosi, kad šis sprendimas bus peržiūrėtas ir pasirinktas toks, kuris leis vėl matyti visą vaizdą kartu neatveriant jautrių duomenų“, – rašo savo paskyroje „Facebook“ V.Zemlys-BValevičius.