Kauzalne strukture opservacionih medicinskih studija

Klasično se opservacione studije u medicini dele po kategorijama na osnovu dizajna. Didaktički nije uvek jasno zašto su baš takvi pristupi dizajnu poželjni iz kauzalne perspektive. Iza svakog dizajna stoji kauzalna struktura koja ih objedinjuje. Teorija identifikacije kauzalnih efekata putem gafova nam omugućava da ih sagledamo iz ovog drugog ugla.
dizajn studija
kauzalnost
baze podataka
statistika
medicina
srpski
Autor
Objavljeno

17/08/2024

1 Uvod

Opservacione studije imaju dva osnovna tipa dizajna na osnovu vremena u kojem se prikupljanje podataka dešava. U studijama preseka sva merenja se beleže u jednom trenutku (najčešće je to kratak vremenski interval koji obuhvata presek). Dok se u kohortnim studijama merenja prikupljaju čekanjem ishoda tokom dužeg vremenskog perioda u grupi ispitanika koja je definisana na početku studije (tzv. “kohorta”). Studija slučaj-kontrola počinje od ishoda koji se već desio i traži njegove uzroke unazad (retrospektivno) kroz vreme.

Usmereni aciklični grafovi (engl. directed acylic graphs) predstavljaju grafički metod analiziranja kauzalnih struktura u prirodi (McElreath, 2020, p. 128). Čvorovi predstavljaju varijable u pretpostavljenom modelu uticaja, dok linije sa strelicama pokazuju tok uzroka i efekata među njima. Same linije ne označavaju nikakav specijalan odnos, već samo da postoji funckija (\(f(x)\)) kojom su te varijable povezane. Uz pomoć teorije koju je postavio Džudea Perl moguće je izolovati samo efekte (strelice) koji nas interesuju, čak i u prisustvu pridruženih varijabli (engl. confounder) (Pearl i ostali, 2016). Svaki kauzalni graf ima četiri osnovna gradivna elementa.

(a) Račva
(b) Posrednik
(c) Ušće
(d) Posledica
Figura 1: Gradivni elementi kauzalnog grafa.

Asocijacije mogu slobodno da teku između \(X\) i \(Y\) preko \(Z\) u svim slučajevima osim ako je varijabla ušće. Uticaji nepoželjnih varijabli se mogu isključiti metodom statističke stratifikacije i time izolovati samo uticaj željene varijable. Vizualni pristup analiziranja ih čini jako pogodnim didaktičkim alatom. U narednim poglavljima ćemo opistai neke tipične medicinske opservacione studije i ilustrovati zašto su uspešne u analizi uzroka i posledica.

Figura 2: Usmereni aciklični graf. Pretpostavljeni uzrok \(X\) utiče na pojavu \(Y\), dok pridružena varijabla \(C\) svojim efektima utiče na oba. Crvenom bojom je označena linija čiji efekat nas interesuje.

2 Studija preseka

Studije preseka podrazumevaju prikupljanje željenih podataka u jednom vremskom intervalu kako bi se ispitale associjacije između varijabli (Stephen B. Hulley, 2013). Pošto asocijacije same po sebi nemaju kauzalnu strukturu (smer uticaja), na istraživaču je da odredi šta smatra ishodom, a šta prediktorom. Posto je presek u vremenu, istraživač se ne može osloniti na vremenski tok kao pomoć u određivanju uzroka i posledica. Olakšavajuća okolnost je što se neki demografski podaci se ne menjaju u odnosu na druge varijable, te su oni uvek prediktori (starost, pol). Još jedna posledica fiksiranosi u vremenu je da ovaj tip studije ne pruža informacije o incidenci (novonastalim slučajevima), već samo o prevalenci, proporciji trenutnih slučajeva.

(a)
(b)
Figura 3: (a) Osnovna stuktura varijabli u studiji preseka. Istraživač je taj koji definiše model. (b) Primer gde gojaznost utiče na poboljšano preživaljavanje pacijenata na dijalizi sa hroničnom bubrežnom insuficijencijom. Bez eliminacije uticaja gojaznosti na preživljavanje dobićemo nestavrno precenjen odnos gojaznosti i hronične bubrežne insuficijencije.
Primer istraživačkog pitanja
  • “Da li postoji odnos između telesne težine i hipertenzije?”
  • “Kauzalni efekat telesne težine na nastanak hipertenzije?”
  • “Asocijacija prediktora i ishoda
Prednosti
  • Nema čekanja za ishod
  • Nema praćenja pacijenata
  • Mogu se produžiti u kohortne studije
Problemi
  • Nepovoljne za retke ishode
  • Teže je arugmentovati kauzalnost
  • Lako je pomešati uzroke i asocijacije

Usmereni aciklički graf je alat koji nam služi da odgonetnemo moguće odnose u studijama ovog tipa. Uvek je zahvalno opisati istraživani fenomen kauzalnim dijagramom (Figura 3 (b)) kako se ne bismo zavarali pri računanju uticaja između varijabli. Pošto ove studije ne mere incidencu, već samo prevalencu, posebno je bitno izmeriti sve pridružene varijable.

Tabela 1: ID pacijenta se uvek odnosi na istu jedinicu posmatranja. Uvek je poželjno sakupiti osnovne demografske podatke. Za one podatke koje je skupo prikupljati konstruisati kauzalni graf kako bi se eliminisali oni nepotrebni.
tinytable_tofnaj2szlja7k1c57vz
id pol starost obrazovanje prihodi_tercil sistolni_ta komorbiditeti holesterol faktor_rizika faktor_rizika_2 stadijum
1 Z 30 Sekundarno 2 128 DM 1.97 Ne Ne Drugi
2 M 65 Primarno 2 124 DM|HTA 4.52 Ne Ne Prvi
3 Z 49 Primarno 2 104 DM 2.09 Ne Da Prvi
4 M 49 Primarno 3 139 DM 2.98 Ne Da Prvi
5 M 52 Više 2 132 DM 3.29 Ne Ne Drugi

2.1 Serijske studije preseka (upitnici)

Popis ili demografski upitnici su primeri serijskih studija preseka. U tom slučaju se studija preseka ponavlja na određen period vremena, recimo, svakih 5 godina. Razlikuje se od kohortnih studija jer se svaki put uzima novi uzorak ispitanika. Kako uzorak potiče iz populacije koja se menja (migracije, rođenja, smrti), promene na podacima će biti uslovljenje promenama u strukturi početne populacije. Analiza prikazana na Figura 4 se može odnositi na vremensku seriju preseka ili više različitih populacija uključenih u analizu. Kako god, korisno je uočiti da se osnovni trougao uticaja (prikazan na Figura 3 (a)) i dalje nalazi u sredini grafa, ma koliko njegovo proširenje delovalo komplikovano. Nepristrasna analiza uzroka u ovakvim mrežama uticaja prevazilazi obim ovog članka.

Figura 4: Serijske (longitudinalne) studije preseka imaju veoma komplikovanu kauzalnu strukturu. Promene u populaciji utiču na preciznost merenja prediktora (\(P\)) i ishoda (\(I\)). Zajednička pridružena varijabla \(C\), kao i \(P\) i \(I\) više nisu merene precizno več sa greškama \(e_c, e_p, e_i\). Pored toga, zaokružene varijable su nisu opservirane direktno, već su funkcija pomenutih greški i njihovih opserviranih vrednosti \(C^*, P^*\) i \(I^*\). Mi kao istraživači, imamo samo pristup opserviranim vrednostima koje su merene sa greškom.

3 Kohortna studija

Osnovne karakteristike kohortnih studija su definisanje grupe ispitanika na početku istraživanja i longitudinalno praćenje (Stephen B. Hulley, 2013). Kohortne studije se mogu posmatrati kao više ponovljenih studija preseka nad istim ispitanicima (npr. presek u 6, 12, i 24 mesecu). Postoje prospektivne, retrospektivne i multiple kohortne studije. Ključna prednost kohortnih studija je što poseduju vremensku dimenziju te ispitivanje kauzalnih odnosa nosi veću težinu. Pored toga moguće je izračunati incidencu ishoda.1 Česti problemi su gubitak informacija usled nemogućnosti zadržavanja cele kohorte u istraživanju (Figura 5).

(a) Gubitak pacijenata je nasumičan. Uglavnom možemo da izbacimo slučajeve koji nedostaju ali time smanjujemo uzorak i statističku moć.
(b) Gubitak pacijenata je uslovljen prediktorom (npr. stariji pacijenti neće da nastave lečenje). U ovom slučaju je bitno pogoditi funkcionalnu formu odnosa \(P\) i \(G\) tačno.
(c) Najteži slučaj (analiza preživljavanja). Gubitak ishoda (\(I\)) je uslovljen samim sobom (npr. najteži pacijenti odbijaju da se pojave na lečenje hemioterapijom čiji ishod nas zanima).
Figura 5: Osnovni kauzalni dijagram kohortne studije. Uticaj prediktora (\(P\)) na ishod (\(I\)) nije opserviran direktno zbog differencijalnog gubitka (\(G\)) pacijenata tokom praćenja. Opserviran je pristrasan ishod (\(I^*\)) uslovljen različitim uzrocima.
Primer istraživačkog pitanja
  • Da li postoji odnos između telesne težine i raka dojke?
  • Koja je stopa nastanka depresije ukoliko je pacijent izložen hroničnom stresu?
  • Kakav je rizik od nastanka leukemije kod dece koja su bila izložena CT skeneru?
  • Koji je kauzalni efekat prediktora na prethodno definisan ishod
Prednosti
  • Vremenski odnos prediktora i ishoda omogućava jače kauzalne argumente
  • Smanjuje uticaj istraživača na ishod
Problemi
  • Praćenje kohorte, gubitak pacijanata
  • Ponovljenja merenja, preciznost merenja
  • Dugo vreme izvođenja studije

3.1 Prospektivna i retrospektivna kohorta

U prospektivnoj kohorti merenje prediktora pre ishoda uspotavlja vremenski odnos između uzroka i posledice. Ovo ojačava kauzalni argument studije. Međutim, ako je ishod redak, neće se desiti dovoljno puta kako bi omogućio analizu.2 Retrospektivna kohorta se razlikuje od prospektivne kohorte jer su se ishod, svi prediktori, kao i uspotavljanje kohorte već desili. Ovakva studija je moguća samo ako postoje adekvatni podaci već prikupljeni u nekom administrativnom registru za druge potrebe. Prednost je to što je istraživanje praktično već završeno i potrebno je samo prikupiti podatke. Nedostaci su što istraživač nema kontrolu nad kvalitetom postojećih podataka i traženim ishodom, te je moguće da podaci nisu dovoljni da odgovare na postavljeno instraživačko pitanje.

Tabela 2: Tabela podataka prikupljenih za analizu prospektivne kohorte. Varijabla grupa se odnosi na multiple kohorte. datum_pocetka je potrebno zabeležiti ako praćenje ne počinje u isto vreme za sve ispitanike; takođe omogućava naprednije verzije ugnježdenih studije slučaja i konrole unutar kohorti. vreme_ishoda ima jedinice u danima, mesecima, godinama, itd. Varijabla cenzura je potrebna kako bismo razlikovali pacijente koji su napustili studiju pre njenog završetka i one koji nisu imali događaj po njenom završetku.
tinytable_qt3nr25zt9ozo3elnefi
id grupa datum_pocetka duzina_pracenja cenzura ishod faktor_od_interesa starost tezina sistolni_ta stadijum
1 izlozen 2011 21 1 Ne 4.58 53 100 153 Prvi
2 izlozen 2015 24 1 Da 8.50 46 79 140 Drugi
3 izlozen 2014 25 0 Da 5.42 51 51 116 Prvi
4 kontrola 2010 25 1 Da 7.43 39 61 128 Prvi
5 kontrola 2010 23 1 Da 3.67 34 52 114 Prvi

Kohorne studije nisu standardno smatrane za studije ponovljenih merenja jer su obično dizajnirane sa idejom reevaluacije po njenom završetku. Međutim, kada je prospektivna kohorta uspotavljena, moguće je ponavljati merenja tako da se ona pretvori u longitudinalnu sturiju sa ponovljenim merenjima.

Tabela 3: Tabela podataka prikupljenih za analizu prospektivne kohorte. vreme_ishoda ima jedinice u danima, mesecima, godinama, itd.
tinytable_nvoa9eu9ny97v6gjw991
id vreme_ishoda ishod starost tezina sistolni_ta holesterol dijabetes stadijum
1 2.7 Ne 47 106 111 5.27 Da Prvi
2 0.3 Ne 55 45 105 5.74 Da Prvi
3 1.8 Ne 39 63 122 5.69 Ne Prvi
4 3.6 Ne 60 82 120 2.00 Da Drugi
5 4.1 Da 44 78 93 6.60 Ne Drugi

3.2 Multipla kohortna studija

Multiple kohortna studije je potencijano jedan od retkih dizajnova koji omogućava proučavanje radnih i sredinskih rizika. Podaci iz administrativnih registara se mogu koristiti kao eksterne kontrole kohorti koja je pod praćenjem.

(a) Osnovni kauzalni dijagram multiple kohortne studije.
(b) Primer kauzalnog dijagrama studije efekta rada u uranijumskim rudnicima na razvitak karcinoma pluća. Populacija radnika i populacije njima sličnim ljudima je praćena za razvitak ishoda.
Figura 6: Kohorte uzete iz različitih populacija utiču na grešku merenja prediktora (\(e_p\)). Pored toga, moguće su i druge pridružene varijable koje otežavaju nepristrasnu analizu.

Naravno, raznolike greške merenja su moguće. Jedna od manje benignih je činjenica da ispitanici iz različitih populacija mogu biti izgubljene iz kohorte različitim stopama (spoj Figura 6 (b) i Figura 5 (b)), te će to izmeniti asocijaciju ukoliko ne budemo pažljivi.

Tabela 4: Tabela podataka prikupljenih za analizu multiple kohorte. Varijabla grupa se odnosi na multiple kohorte. vreme_ishoda ima jedinice u danima, mesecima, godinama, itd.
tinytable_beys6sx809m5vfpf1xdt
id grupa vreme_ishoda ishod starost tezina sistolni_ta holesterol dijabetes stadijum
1 izlozen 2.3 Da 64 63 102 2.82 Ne Treci
2 izlozen 3.6 Ne 54 81 130 8.50 Ne Prvi
3 izlozen 2.1 Ne 43 52 156 5.92 Ne Drugi
4 kontrola 2.7 Ne 48 83 112 10.13 Ne Prvi
5 izlozen 3.6 Ne 47 83 133 0.79 Ne Prvi

4 Longitudinalna studija

Longitudinalni podaci su multidimenzionalna3 merenja u vremenu. Kada se iste opservacione jedinice beleže kroz vreme one se još nazivaju i panel podacima. Vremenske serije i studije preseka se mogu smatrati specijalnim jednodimenzionalnim oblicima panel podataka (npr. isti pacijenti su praćeni kroz vreme).4 Kohortne studije su podtip longitudinalne studije gde se definiše kohorta na počteku studije. Opšte longitudinalne studije ne moraju pratiti usko definisanu grupu ispitanika. Njihovi kauzalni grafovi mogu podrazumevati vremenski promenljive uticaje (videti Figura 7).

Figura 7: Kauzalni graf vremenskog praćenja uticaja različitih doza eritropoetina na preživaljavanje pacijenata.\(Hg\), hemoglobin; \(Epo\), eritropoetin; \(Status\), status pacijenta (npr. živ/preminuo). Indeksi označavaju vreme merenja, tako da je \(Hg_0\) izmeren hemoglobin u vremenu \(t_0\). Neopservirana varijabla \(U\) predstavlja pridužene varijable (npr. težina bolesti). Strelica iz \(Status_1\) u \(Status_2\) je podrazumevana.
tinytable_2acizjug3mfda4b5yedg
id godina starost tezina holesterol
1 2010 42 91 1.884221
1 2011 43 93 1.883294
1 2012 44 92 1.719462
1 2013 45 92 2.365345
1 2014 46 94 3.206937
2 2010 45 100 5.803859
2 2011 46 98 4.210551
2 2012 47 98 5.929867

5 Studija slučaja i kontrole

Studije slučaja i kontrole su nužno retrospektivne jer zahtevaju identifikaciju pacijenata sa ishodom koji se već desio (Stephen B. Hulley (2013)). To ih čini pogodnim za istraživanje retkih događaja u nedostatku adekvatnih nacionalnih registara. Kada se identifikuje grupa sa ishodom, potrebno je dodeliti njima adekvatnu kontrolnu grupu. Kada su formirane obe grupe ispitanika, istraživač poredi verovatnoću prisustva prediktora koji objašnjava razlike između grupa. Ono što je čini drugačijim od studije preseka, koje ispituje trenutne faktore rizike, je što ispituje faktore rizika iz prošlosti koji bi objasnili razvitak ishoda (tj. da ispitanik postane slučaj).5

(a) Osnovna kauzalna stuktura studije slučaj-kontrola.
(b) Kontrole birane u bolnici. Zajednički faktori su varijable na osnovu kojih smo izvršili uparivanje (engl. matching).
(c) Kontrole birane u bolnici gde postoji preklapanje u faktoru rizika koji je od interesa. Preklapanje faktora rizika moze lažno ublažiti ili preuveličati traženu asocijaciju.
(d) Kontrole birane na osnovu državnog registra. Kako raste sveobuhvatnost registra, tako studije slučaja-kontrole postaje ugnježđena unutar kohortne studije ili kliničkog eksperimenta.
Figura 8: Osnovni kauzalni grafovi studije slučaj-kontrola. Neizmerene pridružene varijable (\(U\)) su zaokružene.
Primer istraživačkog pitanja
  • Da li neonatalna profilaksa vitaminom K utiče na razvoj dečije leukemije?
Prednosti
  • Dobra za retke ili događaje sa dugim latentnim periodom
  • Velika količina informacija za mali broj ispitanika
  • Studija primarno da generisanje hipoteza
  • Laka za izvođenje
Problemi
  • Incidencu i prevalencu je nemoguće izračunati
  • Samo jedan ishod je moguće analizirati
  • Pristrasnost (odvojeno uzorkovanje i retrospektivno merenje)

Pristrasnost uzorka

Uzorak u studijama slučaja i kontrole se mora napraviti na pacijentima koji već imaju dijagnozu bolesti i dostupni su za uključivanje u studiju. Takav uzorak nije reprezentativan za sve pacijente jer ne predstavlja one ispitanike koji nisu dijagnostikovani, dostupni za uključenje, ili već mrtvi zbog oboljenja.

Tabela 5: Primer podataka za studiju slučaja i kontrole.
tinytable_nxekaybrmku4g76fde2k
id starost pol grupa pusac fizicka_aktivnost nasledno holesterol
11 64 Z Slucaj Nikad Nekad Ne 179
388 39 Z Kontrola Trenutno Nekad Ne 217
1 50 M Slucaj Nikad Redovno Da 212
66 53 M Slucaj Trenutno Redovno Ne 224
365 45 M Kontrola Nikad Redovno Ne 274

6 Zaključak

Česti oblici pristrastnosti se mogu prikazati grafički uz pomoć usmerenih acikličih grafova. Pošto se ovi grafovi mogu analizirati vizuelno, lakše je prepoznati značaj kontrolisanja za pridružene varijable, greške u merenju, i pretpostavljenje mehanizme napuštanja studija. Sastavljanje grafa informisanog naučnom teorijom jasno prikazuje pretpostavke koje je istraživač napravio i od velike je koristi u komunikaciji. Pored toga, iscrtavanje sopstvenih pretpostavki može uticati na to da istraživač otkrije da je njegov traženi efekat nemoguće identifikovati bez dodatnih podataka.

(a) Studija preseka.
(b) Kohortna studija.
(c) Studija slučaja i kontrole.
Figura 9: Osnovne kauzalne forme pomenutih studija.

Reference

McElreath, R. (2020). Statistical Rethinking: A Bayesian Course with Examples in R and STAN (2nd edition). Chapman and Hall/CRC.
Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics - A Primer (1st edition). Wiley.
Samet, J. M., & Muñoz, A. (1998). Evolution of the Cohort Study. Epidemiologic Reviews, 20(1), 1–14. https://doi.org/10.1093/oxfordjournals.epirev.a017964
Stephen B. Hulley, W. S. B. M., Steven R. Cummings. (2013). Designing Clinical Research (Fourth edition). LWW.

Fusnota

  1. Ishodi u kohortnim studijama mogu biti događaji po osobnim-godinama (engl. event person-years), vreme-do-događaja (engl. time-to-event), dinamična-izloženost i vreme-do-događaja (engl. dynamic exposure time-to-event), slučaj za ugnježdenu studiju slučaja i kontrole (engl. case in nested case-control), slučaj za ugnježdenu sludiju slučaj-kohorta (engl. case in nested case-cohort), kao i ponovljenja merenja ishoda. Za više pogledati Samet & Muñoz (1998).↩︎

  2. Čak i bolesti za koje smatramo da su relativno česte, kao što je rak dojke, predstavljaju problem jer se ispitanici moraju pratiti veoma dugo.↩︎

  3. Baze sadrže veliki broj varijabli.↩︎

  4. Vremenske serije prate iste opservacione jedinice kroz vreme, a studije preseka se dešavaju u samo jednom vremenu.↩︎

  5. Kao bitna napomena je da da su kohortne studije pogodne za istraživanje rizika (\(R_{pop} = P(X|Y)\)) i odnosa rizika (\(RR_{pop} = \frac{P(X|Y)}{P(X|\lnot Y)}\)) u populaciji jer imaju reprezentativan uzorak. Pošto studije slučaja i kontrole podrazumevaju selekciju ispitanika \(R_{pop}\) i \(RR_{pop}\) se ne mogu izračunati jer verovatnoće nisu iste \(R_{slučaj-kontrola} = \frac{P(Y|X)}{P(Y|X) + P(Y|\lnot X)} \not = R_{pop}\). Osmišljena mera \(OR\) (odnos šansi) je adekvatna za kohortne i studije slučaja i kontrole.↩︎

Navođenje

BibTeX navođenje:
@online{n. grubor2024,
  author = {N. Grubor, Nikola},
  title = {Kauzalne strukture opservacionih medicinskih studija},
  date = {2024-08-17},
  url = {https://nikola-grubor.github.io/myblog/posts/sr/studije},
  langid = {sr-Latn}
}
Za pripisivanje autoru, molimo navedite ovaj rad sa:
N. Grubor, N. (2024, August 17). Kauzalne strukture opservacionih medicinskih studija. https://nikola-grubor.github.io/myblog/posts/sr/studije