2021 07 01

Papasakojo, kaip renka ir koduoja COVID-19 duomenis, kad kaimynas per daug nesužinotų

Ketvirtadienį Statistikos departamentas pristatė, kaip yra apdorojami duomenys, susiję COVID-19 užsikrėtimais ir vakcinavimu, bei kaip informacija apie žmogų tampa užkoduotomis raidėmis, kad nieks negalėtų jo atpažinti.

Statistikos departamento atstovės Laimos Grižaitės teigimu, apie tai nuspręsta kalbėti po to, kai viešojoje erdvėje ir vėl pasirodė mitų apie skelbiamus COVID-19 duomenis ir klaidas statistikoje.

Pirmiausia – į e.sveikatą

Lietuvos statistikos departamento duomenų analitikas Jonas Bačelis detaliau pristatė schemą, kaip keliauja duomenys.

Pasak jo, viskas prasideda nuo e.sveikatos sistemos. Duomenys, asmens kodas ir, pavyzdžiui, vakcinos tipo informacija, keliauja į vietinę informacinę sistemą.

Dienos gale visų paskiepytų žmonių duomenys yra susiunčiami į e.sveikatą ir tampa dokumentu, kuris nuo tos dienos sistemoje saugomas net ir po gyventojo mirties.

Tuomet darbas prasideda su Valstybės duomenų valdysenos informacine sistema (VDV IS).

„Vakcinų duomenys kartą per parą labai anksti ryte paimami iš e.sveikatos, visi mediciniai įrašai, susijęs su COIVD-19 vakcina“, – pirmą žingsnį nurodė J.Bačlis. Ši informacija atsiranda VDV IS sistemoje.

Kad nieks neatpažintų

Tie duomenis pasiekia labai mažą dalį žmonių, administratorių, kurie šiuos peržiūri ir užšifruoja raidžių kratiniu, „jie vis dar yra jautrūs, bet nebus galima jokiu būdu identifikuoti, kas tas žmogus yra“, – pažymėjo jis.

Tada vykdomas kelios valymo stadijos, pašalinamos akivaizdžios klaidos.Toliau turimi duomenys yra jungiami su kita duomenų baze.

„Yra duomenų bazė, kurioje yra įvairūs demografijos rodikliai ir duomenys, jie lygiai taip pat patenka į VDV IS, yra užšifruojami <...> kad toliau duomenų analitikai matytų tik konkrečius duomenis, pavyzdžiui, savivaldybes, kuriose žmonės registravosi“, – aiškino J.Bačelis.

123RF.com nuotr./Kompiuteris
123RF.com nuotr./Kompiuteris

Šioje lentelėje atliekami skaičiavimai ir nustatoma, kur tam tikras tebegyvas žmogus gyveno paskutiniu metu. Iš gausos duomenų, kurių vis daugėja gyventojams keičiant gyvenamą vietą, atrenkami tik aktualūs įrašai.

Ir tuomet šie duomenys – visi vakcinuoti asmenys ir duomenys apie gyvenamą savivaldybę – yra sujungiami.

„Jeigu taip atsitiko, kad į e.sveikatą kažkokiu būdu pateko klaidingi duomenys, tarkime, buvo pažymėta, kad buvo paskiepytas asmuo, bet yra neteisingai įvestas asmens kodas, <...> ištaisyti tą procesą gali tik tas gydytojas arba medicinos įstaiga, tad procesas gali ilgai užtrukti“, – aiškino jis.

Tačiau tam yra sukurta papildoma funcija su instrukcija, kaip tokias klaidas taisyti. Sukuriama papildoma lentelė.

Sunčiama ir tarptautinėms organizacijoms

Iš šių trijų lentelių pagal atitinkamą formulę gimsta dukterinė lentelė, kurioje kiekvienam žmogui jau yra priskiriamas vienas įvykis, pavyzdžiui, Jonas Jonaitis paskiepytas „Pfizer“ vakcina.

Taip pat iš čia, kaip geležinkelio vėžėmis, išplaukia šalutinė linija, į kurią patenka įtartini atvejai, pavyzdžiui, įrašas, kuriame rašoma, kad buvo paskiepytas jau numiręs žmogus.

„Tokių egzotinių suvedimų tikrai visada bus, jeigu kalbame apie milijonus įrašų, visos populiacijos skiepijimą, visą laiką pasitaikys įvairiausių keistenybių“, – pažymėjo jis. Tad šioje vietoje tokie neįprasti duomenų atvejai yra „sugaudomi“.

Šiame etape turime lentelę, kurioje yra pilnai sujungti duomenys apie vakcinuotus asmenis, informacija apie vakcinas ir savivaldybes. Iš šios lentelės, kiek įmanoma, jau yra pašalintos klaidos.

Tokių egzotinių suvedimų tikrai visada bus, jeigu kalbame apie milijonus įrašų.

Tada susiteminta teik informacija siunčiami tarptautinėms organizacijoms, tokioms kaip Pasaulio Sveikatos organizacija (PSO) ir Europos ligų prevencijos ir kontrolės centrą (ECDC).

Pagal jų reikalavimus yra sukuriamas mašininis kodas ir sugeneruojama lentelė, kurią nori matyti atitinkamos įstaigos. Jos, pavyzdžiui, domisi, kiek yra paskiepyta medikų, kiek paskiepyta tam tikros grupės asmenų.

Į švieslentes – neatpažįstama informacija

Pateikus duomenis organizacijoms, iš bendrai sujungtų duomenų yra kuriama lentelė ne apie atskirus įvykius žmonėms, kaip buvo padaryta anksčiau, bet lentelė, kurioje gyventojui priskiriami visi su juo susiję įvykiai, tai yra – nebe vienas, o abu skiepai.

„Mes jį iš karto paruošiam skelbimui atviruose duomenyse. Ne iliustracijose, bet grynai mokslininkams, analitikams, dėstytojams, studentams, kad jie galėtų pasikapstyti, ieškoti nesklandumų ir jeigu randa, mes kreipiamės į Sveikatos apsaugos ministeriją ir pildome klaidų lentelę“, – aiškino duomenų analitikas.

Toliau turimi duomenys dar labiau nujautrinami, pašalinant kaip įmanoma daugiau informacijos, pagal kurią galima identifikuoti žmones, pavyzdžiui, vietoje gimimo datos, lieka tik amžiaus grupės. Viskas sustambinama į didesnes skirstymo grupes.

„Šitos lentelės paskirtis yra, kad tie duomenys būtų ir informatyvūs, bet kad ir neprasidėtų visokios detektyvinės istorijos“, – teigė jis.

Toliau šie duomenys iš VDV IS yra siunčiami į Statistikos departamento serverį, o iš jo į ArcGIS duomenų atvaizdavimo paslaugą teikiantį serverį ir pagaliau patenka į viešai matomas švieslentes.

Ekrano nuotr. /Statistikos departamento švieslentė
Ekrano nuotr. /Statistikos departamento švieslentė

Tie patys duomenys taip pat keliauja į atvirų duomenų portalą. Į jį, anot J.Bačelio, ilgainiui pateks vis daugiau gyventojų duomenų, jie bus archyvuojama, stebimas kintamumas.

Kai kurie duomenys, pavyzdžiui, apie tai, kiek paskiepyta žmonių tam tikroje seniūnijoje, viešai nėra teikiami, nes kai kurios jų yra labai mažos, todėl kyla galimybė atpažinti žmogų, kuris, sakykime, nepasiskiepijo. Tokius duomenis gali matyti tik tam tikri savivaldybių atstovai.

SAM elektroninės sveikatos sistemos ir informacinių išteklių skyriaus vyriausiasis specialistas Lukas Galkus teigė, kad nereikėtų stebėtis dėl randamų klaidų statistikoje, nes duomenis pateikia gydymo įstaigos.

„Tikrai kai kurios įstaigos padaro per dieną tūkstančius skiepijimų, slaugytojos padaro šimtus skiepijimų, tai natūralu, kad tiesiog gali pasitaikyti duomenų vedimo klaidos“, – pažymėjo jis L.Galkus.

Pranešti klaidą

Sėkmingai išsiųsta

Dėkojame už praneštą klaidą
Reklama
Pasisemti ilgaamžiškumo – į SPA VILNIUS
Akiratyje – žiniasklaida: ką veiks žurnalistai, kai tekstus rašys „Chat GPT“?
Reklama
Išmanesnis apšvietimas namuose su JUNG DALI-2
Reklama
„Assorti“ asortimento vadovė G.Azguridienė: ieškantiems, kuo nustebinti Kalėdoms, turime ir dovanų, ir idėjų