Uvod u Statistiku

Dr Nikola Grubor

2024-11-25

Čime se bavi statistika u medicini?

  • Naučnim metodom
  • Otkrivanje veličine efekta terapije (lek, intervancija)
  • Predviđanje rizika (npr. od tromboze)
  • Medicinskim odlučivanjem (preciznost medicinskih testova)

Efekat terapije pritiska

Na osnovu čega je preporuka postavljena? Da li ona ima smisla?

Predviđanje rizika

Da li je za najveći deo rizika hemoragičnog moždanog udara odgovoran pulsni pritisak ili sistolni pritisak?

Koliko je ultrazvuk bolji u otkrivanju žučnog kamenja od CT-a?

Laboratorijske vrednosti

Da li ovaj pacijent sa ovom laboratorijskom vrednošću ima rizik od bolesti koji zahteva dodatnu istragu?

Kurs

  • Lekcija (\(\gt\) 50% \(\rightarrow\) otvara kviz)
  • \(\text{Bodovi} = \text{lekcija} + \text{kviz (vremenski ograničen)} + \text{kolokvijum} + \text{ispit}\)
  • Ispit (praktični i teorijski deo; u učionici na kompijuterima)

Struktura kursa

tinytable_ogv523k22t86hjrv8eny
Nedelja Tema
1 Uvod u medicinsku statistiku
2 Sređivanje podataka
3 Statističko opisivanje podataka
4 Verovatnoća i raspodele verovatnoća
5 Populacija i uzorak
6 Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama
7 Testiranje hipoteza o učestalostima
8 Testiranje hipoteza o rangovima
9 Korelacija
10 Regresija / Kolokvijum
11 Podaci, informacije i znanje
12 Zdravstveni informacioni sistem
13 Mere dijagnostičke tačnosti
14 Medicinsko odlučivanje
15 Bioinformatika

Kritično stanje nauke u medicini

Richard Horton, M.D., Lancet Editor-in-Chief

“The case against science is straightforward: much of the scientific literature, perhaps half, may simply be untrue. Afflicted by studies with small sample sizes, tiny effects, invalid exploratory analyses, and flagrant conflicts of interest, together with an obsession for pursuing fashionable trends of dubious importance, science has taken a turn towards darkness.”

1,693,059 publikacija na PubMed-u u 2023. god!

Koliko često se replikuju rezultati?

2000. se zahteva preregistracija

Definicija

Statistika je nauka o odlučivanju

u uslovima nesigurnosti

Osnovni pojmovi

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%
%%| fig-align: center
%%| fig-height: 10

flowchart LR
  A[Osnovni skup] --> B[Uzorak]
  B --> C[Jedinica posmatranja]
  C --> D[Varijable]
  D --> E[Merenje]
  E <--> TT["Tačnost\nPreciznost\nPouzdanost\nValjanost"]
  TT <--> F
  E <--> TP["Tip podataka"]
  TP <--> F
  E --> F[Podaci]
  F --> G[Analiza]
  G --> H[Zaključak]
  H -->|generalizacija|A

Istraživačko pitanje

Definisanje istraživačkog pitanja (engl. estimand) je nešto što je najviše zaboravlja kad se osmišlja rad.

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%
%%| fig-align: center
%%| fig-width: 4

flowchart TD
  I[Istraživačko pitanje] -.-> A
  A[Osnovni skup] --> B[Uzorak]
  B --> C[Jedinica posmatranja]
  C --> D[Varijable]

Primer: istraživačko pitanje

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%
%%| fig-align: center
%%| fig-width: 8

flowchart TD
  I[Istraživačko pitanje] -.-> A
  A[Osnovni skup] --> B[Uzorak]
  B --> C[Jedinica posmatranja]
  C --> D[Varijable]

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%
%%| fig-align: center

flowchart TD
  I["Da li je stepen degeneracije\nlumbosakruma na radiografiji\npovezan sa bolom?"] -.-> A
  A[Pacijenti sa lumboishialgijom] --> B[n pacijenata]
  B --> C[Pacijent]
  C --> D["Stepen degeneracije, bol"]

James Lindovo istraživanje

James Lind (1716-1794)

HMS Salisbury (1747)

Prva medicinska baza podataka

tinytable_m6of7no3ts3m87e1om6y
study_id treatment gum_rot_d6 skin_sores_d6 fit_for_duty_d6
Beleške: Skraćena baza originalnih podataka prikupljenih od strane Džejms Linda; d6, na dan 6.
001 cider 2_moderate 2_moderate 0_no
002 cider 2_moderate 1_mild 0_no
003 dilute_sulfuric_acid 1_mild 3_severe 0_no
004 dilute_sulfuric_acid 2_moderate 3_severe 0_no
005 vinegar 3_severe 3_severe 0_no
006 vinegar 3_severe 3_severe 0_no
007 sea_water 3_severe 3_severe 0_no
008 sea_water 3_severe 3_severe 0_no
009 citrus 1_mild 1_mild 0_no
010 citrus 0_none 0_none 1_yes
011 purgative_mixture 3_severe 3_severe 0_no
012 purgative_mixture 3_severe 3_severe 0_no

Merenje

  • Način merenja je jako bitan
  • Preciznost, pouzdanost, validnost, podaci koji nedostaju

Pikasov crtez psa.

Odgovori pacijenata na merenje pritiska

Vrste podataka

Podaci se sastoje od varijabli. Varijabla predstavlja meru neke pojave.

  • Kvalitativni (opisuju pojavu)
  • Kvantitativni (dodeljuju numeričku vrednost)

Bitno

“Koja je vaša omiljena hrana?”, na šta su odgovori: grožđe, čokolada, karbonara, pica i mango. Ovi podaci nisu numerički; ali im često dodeljujemo brojeve (1 = grožđe, 2 = čokolada, itd.), međutim u ovom slučaju brojeve koristimo kao oznake, ne kao prave vrednosti.

Kvalitativni podaci

tinytable_n84mqzachdsrn1g0vvx6
Koji vam je omiljeni predmet? Broj učenika
Patologija 105
Statistika 20
Patofiza 4

Beleška

Primetiti da su odgovori studenata kvalitativni, ali smo ih sumiranjem pretvorili u kvantitativne.

Tipovi brojeva

  • Binarni brojevi (Da/Ne; 1/0; TRUE/FALSE)
  • Celi (\(\mathbb Z\)) brojevi (“Koliko se slažete na skali od 1 do 7?”)
  • Realni (\(\mathbb R\)) brojevi (najčešći, \(3.12...\), \(9.81...\))

Diskontinuirana (diskretna) i kontinuirana merenja

  • Diskontinuirano (diskretno) merenje (podatak) je ono koje je kvalitativno ili se može izraziti preko celog broja

Broj porođaja: 3, nema nikakvog smisla pričati o 3.5 porođaja!

  • Kontinuirano merenje je ono koje se izražava pomoću realnog broja

Kada merimo težinu u \(kg\) obično zaokružujemo, ali ima smisla pričati o preciznijim merenjima (\(70 \; \text{kg}\), \(70.3467 \; \text{kg}\)).

Merne skale (1)

Varijable moraju da imaju barem dve vrednosti (inače bi bile konstante).

Vrednosti varijable imaju različite odnose:

  • Identitet: Svaka vrednost je jedinstvena.
  • Veličina (magnituda): Neke vrednosti su veće od drugih.
  • Jednaki intervali: Razlika između 1 i 2 je iste veličine kao 19 i 20.
  • Apsolutna nula: Skala ima nulu koja znači nešto.

Merne skale (2)

  • Nominalna skala (identitet; 1 - Dijabetes, 2 - Hipertenzija)
  • Ordinalna skala (identitet i veličina; 1 - Primarno obrazovanje, 2 - Srednja škola)
  • Intervalna skala (identitet, veličina, i jednaki intervali; Celsius, Fahrenheit)
  • Ratio skala (sve + apsolutna nula; Kelvin, visina, težina)
tinytable_hykezzi6kq0599dkg1n3
Dozvoljene operacije u odnosu na skalu
Skala Jednako/nije jednako >/< +/- Množenje/deljenje
Nominalna OK
Ordinalna OK OK
Intervalna OK OK OK
Ratio OK OK OK OK

Nominalni podaci

  • Jedinstvene vrednosti
  • Nemaju minimum ni maksimum
  • Nemaju red

Ordinalni podaci

  • Diskretni (celi brojevi)
  • Definisan minimum i maksimum
  • Definisan red
  • “Udaljenost” između kategorija je nepoznata

Numerički podaci

  • Diskontinuirani su samo celi brojevi
  • Kontinuirani mogu biti proizvoljno precizni

Upozorenje

Ordinalni i diskontinuirani podaci mogu da liče. Razlikuje ih to što su brojevi kod ordinalnih podataka samo obeležja, ne prave vrednosti. Kontinuirani i diskontinuirani podaci mogu da liče ako se zaokruže (50kg, 60kg, 75kg), ali uvek imamo opciju da ih prikažemo preciznije.

Ko zna zna (tip podatka)?

  • ABO
  • Bol (NRS 0-10 skala)
  • M/Ž
  • Stadijum (I-IV)
  • TA (mmHg)
  • Srčana fr (otk/min)
  • Starost
  • Nominalni
  • Ordinalni
  • Nominalni (binarni)
  • Ordinalni
  • Numerički (kont.)
  • Numerički (diskretni)*
  • Numerički (kont.)

Šta ćemo sa vremenom?

Bitna pitanja u istraživanjima

  • Putevi uticaja, mehanizmi
  • Najbolji način da se koriste genska i proteinska ekspresija za dijagnozu i lečenje
  • Koji biomarkeri su najprediktivniji i kako da se oni koriste?
  • Koji je najbolji način formiranja dijagnoze i prognoze?
  • Da li je faktor rizika stvaran ili samo posledica pridruženih varijabli?
  • Kako da merimo ishode pacijenata?
  • Da li je lek efikasan za određen ishod?
  • Ko treba da dobije lek?

Alergija na informacije

  • Ignorisanje dostupnih informacija (osnovne demografske)
  • Osnovne kliničke informacije \(\gt\) neki biomarkeri
  • Ignorisanje pridruženih varijabli (“konfaunding”)
  • Ignorisanje heterogenosti pojedinaca
  • Kategorisanje kontinuiranih varijabli ili odgovora
  • Kategorisanje predviđanja kao “tačno” ili “netačno”

Excel se koristi za unos podataka

Principi uredne baze (tidydata)

uh…

Učitavanje gotove baze u EZR

Zadatak:

  • Učitati zadovoljstvo zdravstvenom zaštitom.xlsx u EZR
  • Učitati KVS.xlsx bez da se izgubi prethodna baza

Bitno

Izabrati Sheet1 (obično se tu nalaze podaci) pri učitavanju baze. Pritiskom na View proveriti da je ispravna baza učitana!

Šta je šifrarnik i čemu služi?

Česte greške u pravljenju baza

Dihotomanija

Kategorizovanje kontinuiranih podataka dovodi do gubitka informacija i preciznosti

  • “Cut-point” ne postoji u prirodi
  • Čak i da postoji, optimalno odlučivanje se bazira na rizicima

Prikaz slučaja: Antiaritmici (1)

  • Prevremene ventrikularne kontrakcije su primećene kod pacijenata nakon infarkta miokarda
  • Česte VES \(\uparrow\) incidencu naprasne smrti

Prikaz slučaja: Antiaritmici (2)

Profilaktički program protiv naprasne smrti mora uključiti i antiaritmike kako bi se suzbili prevremeni ventrikularni kompleksi.

— Bernard Lown (1978)

Prikaz slučaja: Antiaritmici (3)

Da li su VES nezavisan faktor rizika naprasne smrti?

Istraživači su napravili model:

  • LVEF \(\lt\) 0.4
  • VES \(\gt\) 10/h
  • Auskultatorni pukoti
  • NYHA klasa II, III, IV

Prikaz slučaja: Antiaritmici (4)

  • LVEF sam po sebi daje isti prognostički spektar
  • Nisu kontrolisali za LVEF; VES \(\uparrow\) kad LVEF \(\lt\) 0.2
  • Arritmije su prognostičke u izolaciji, izgube svu vrednost nakon kontrole za EF
  • Lokalna disfunkcija kontraktilnosti i globalna funkcija (EF) predviđaju aritmije

CAST: Cardiac Arrhythmia Suppression Trial

  • Randomizacija: placebo, moricizin, antiaritmici klase IC (flecainid, encainid)
  • Kardiolozi: “Nije etički da randomizujemo i na placebo”
  • Placebo grupa uključena nakon duge rasprave
  • Studija prekinuta pre vremena usled \(\uparrow\) mortaliteta
  • Smrti \(\frac{56}{730}\) lek, \(\frac{22}{725}\) placebo, \(RR = 2.5\)

Granularni podaci (razdvajanje)

Granularni podaci (spajanje)

Ponovljenje kolone (neprepoznate varijable)

Ponovljena merenja (lakše upisivanje)

Zadatak: različite baze

Napravi bazu kako bi:

  • Poredili vrednosti sistolnog pritiska između dijabetičara i zdravih ljudi?
  • Poredili vrednosti glukoze između istih pacijenata pre i posle terapije?
  • Upisali CRP meren serijski u intervalu: 1h, 12h, 24h?

Teško (opcionalno)

  • Pratili pacijente da saznamo ko je imao recidiv posle operacije?
  • Merili vreme do tromboze između pacijenata koje lečimo agresivno i konzervativno.
  • Merili vreme do tromboze ako pratimo vrednosti d-Dimera serijski 3 dana za redom.

Rešenje: dijabetičari i zdravi ljudi

tinytable_cy7elc6ar4jw92c8apml
Gluk Grupa
7.2 DM
5.1 Zdrav
5.9 Zdrav
4.7 Zdrav
11.1 DM

Rešenje: pre i posle

tinytable_n3mpnph0gvc2pt1suaht
gluk_pre gluk_posle
7.2 6.1
5.1 5.1
5.9 5.5
4.7 5.9
11.1 7.1

Rešenje: serija merenja

Varijanta 1:

tinytable_blcf6brbp4srs5cqozxn
ID CRP Vreme
1 0.62 1h
1 0.51 12h
1 0.56 24h
2 0.43 1h
2 0.42 12h

Varijanta 2:

tinytable_1x59ug7dld0pub088u9a
ID CRP_1h CRP_12h CRP_24h
1 0.70 0.67 0.54
2 0.66 0.41 0.59
3 0.76 0.49 0.53

Podaci koji nedostaju

tinytable_6le6pqc87ig0myuaorex
pacijent intervencija ishod
Petar Petrovic 1 7
NA 2 10
NA 3 NA
Katarina Katarinovic 1 4
  • Ostaviti prazno (moguće greške)
  • Upisati NA

Tipovi nedostajućih podataka

  • Nedostaju kompletno slučajno (MCAR; missing completely at random)
  • Nedostaju slučajno (MAR; missing at random)
  • Nedostaju neslučajno (NMAR; not missing at random)

Nedostaju kompletno slučajno (MCAR)

  • Mehanizam kojim nedostaju podaci nije povezan nikako sa samim podacima (opservacijama).
  • Jako teško opravdati pretpostavku.

Beleška

Vaga kojoj su se potrošile baterije ne očitava merenja.

Pogodno za analizu samo kompletnih opservacija.

Nedostaju slučajno (MAR)

  • Mehanizam kojim nedostaju podaci povezan je sa grupama koje su prisutne među podacima (opservacijama).
  • Unutar grupa podaci su MCAR.

Beleška

Vaga koja češće neočitava merenja kad je stavljena na mekanu površinu u odnosu na čvrstu površinu.

Pogodno za analizu regresionom/stohastičnom imputacijom ako je model tačno specificiran.

Nedostaju neslučajno (NMAR)

  • Nepoznat mehanizam kojim nedostaju podaci sistematično utiče na gubitak opservacija.

Beleška

Vaga čiji mehanizam se troši vremenom sve češće neočitava merenja teških predmeta.

Rešenje je obično prikupljanje podataka o mehanizmu direktno ili analize senzitivnosti za različite kontekste.

Pristrasnost ad-hoc metoda imputacije

tinytable_1be8w3km6m9882fcwxed
Nepristasno
Metod Aritmetička sredina Regresija Korelacija Std. greška
*Samo ako je model tačno specificiran.
Kompletno izbacivanje MCAR MCAR MCAR Prevelika
Analiza parova MCAR MCAR MCAR Komplikovana
Aritmetička sredina MCAR - - Premala
Regresija MAR MAR* - Premala
Stohastična imputacija MAR MAR MAR Premala