Syntetická data lze definovat jako „data uměle vygenerovaná prostřednictvím účelového nástroje pomocí vytvořeného matematického modelu nebo algoritmu s cílem vyřešit definovaný vědecký úkol“ [1]. Primární data NZIS obsahují velmi citlivá zdravotnická data pacientů a přístup k nim je striktně omezen na pověřené zaměstnance ÚZIS. Přesto se ÚZIS snaží o jejich zpřístupnění odborné i laické veřejnosti v souladu s platnou legislativou. Pokročilou formou zpřístupňování dat NZIS, vedle ročenek či datových sad, jsou právě syntetická data.
Syntetická data jsou určena pro zájemce, kteří chtějí provádět pokročilé analýzy nad daty NZIS, ale nelze je provést nad jinou formou otevřených dat. Princip syntetických dat spočívá v tom, že jde o databázové prostředí s totožnou strukturu databáze, v jaké jsou uložena primární data. Samotný obsah syntetických dat je uměle vytvořený a nelze z něj přímo vytěžit žádný smysluplný výsledek, nicméně umožňuje vysoce erudovanému odborníkovi připravit databázové skripty a následně požádat ÚZIS o jejich spuštění nad primárními daty.
Celý systém si zakládá na otevřeném přístupu a směřuje k dlouhodobému budování spolupráce, sdílení ověřených řešení a budování komunity v oblasti zdravotnických dat. Mezi nosné principy patří:
- Transparentní přehled požadavků v souladu s pravidly pro ochranu osobních údajů žadatele.
- Spravedlivý přístup k žadateli, kdy každý žadatel může odeslat v daný okamžik právě jednu žádost; po jejím vyřízení (zamítnuto nebo publikováno), může podat další žádost. Žádosti jsou zpracovávány v pořadí, v jakém byly doručeny.
- Pravidelná komunikace s odbornou komunitou zahrnuje organizaci online webinářů a prezenčních konferencí s cílem diskutovat zkušenosti a náměty od uživatelů zdravotnických dat.
Zájemce tyto syntetické soubory použije k seznámení se s dostupnou strukturou dat (typicky odrážející strukturu vybraného registru NZIS), může připravit výpočetní skript, o jehož spuštění následně požádá ÚZIS. V tomto režimu poskytování dat správce připravuje, kontroluje nebo přímo realizuje spuštění výpočtů nad originálním souborem, posuzuje stupeň anonymizace výstupního souboru a pokud výstup neumožňuje identifikaci subjektu údajů, poskytuje výsledek žadateli.

Z výše uvedeného plyne, že syntetická data jsou určena primárně pro užší skupinu odborníků, kteří jsou jednak seznámeni s metodikou vykazování zdravotní péče v ČR, jednak zvládají práci v databázovém prostředí. Ostatním zájemcům jsou určeny jiné formy výstupů, případně mohou požádat přímo o analýzu ÚZIS ČR.
Aktivní zapojení a zpřístupnění syntetických dat NZIS žadatelům je rozděleno do dvou kroků, které pokrývají formální evidenci požadavků a podporují efektivní práci s nastaveným systémem.
- Vytvoření přístupu (jednorázová žádost a registrace uživatele, neveřejná) a předání základních informací o způsobu zveřejňování výstupů získaných ze systému syntetických dat NZIS
- Žádost o výstup (každý požadovaný datový výstup má vlastní žádost, v případě předání výstupu publikováno dle nastavených pravidel)
Detailní popis jednotlivých kroků a dokumentaci najdete v níže uvedených dokumentech:
- Metodická dokumentace (pdf, 710 kB)
- Technická dokumentace (pdf, 2,8 MB)
- Technická dokumentace k onkologickým datům (pdf, 490 kB)
- Žádost o registraci do systému syntetických dat NZIS (online)
- Žádost o registraci do systému syntetických dat NZIS (docx, 260 kB)
- Žádost o výstup ze syntetických dat NZIS (docx, 260 kB)
- Metodický popis výstupu ze syntetických dat NZIS – šablona (docx, 240 kB)
- NZIS Open Journal
ÚZIS ČR pořádá pravidelné webináře zaměřený na práci se syntetickými daty NZIS a proces žádosti o výstupy, které se na jejich základě budou zpracovávat a publikovat. Výstupy z těchto webinářů (zejména videozáznamy a prezentace) naleznete v našich reportážích:
Odpovědi na další otázky vám poskytne rozhovor s dr. Danielem Klimešem, který je technickým garantem agendy syntetických dat na ÚZIS.
1. Proč syntetická data NZIS?
2. Jak začít se syntetickými daty NZIS pracovat?
3. Kdo je uživatelem syntetických dat NZIS?
4. Syntetická data NZIS a nástroje umělé inteligence
5. Syntetická data NZIS a správná interpretace výstupů
6. Příklady reálného použití syntetických dat NZIS
7. Pro koho jsou a nejsou syntetická data NZIS určena?
Související odkazy
- Jordon, James & Szpruch, Lukasz & Houssiau, Florimond & Bottarelli, Mirko & Cherubin, Giovanni & Maple, Carsten & Cohen, Samuel & Weller, Adrian. (2022). Synthetic Data -- what, why and how?. DOI: 10.48550/arXiv.2205.03257.