Populacija i uzorak

Dr Nikola Grubor

2024-10-31

Zašto uzorkujemo

  • Ograničenja: vreme i novac.
  • Kako da zaključimo ispravno, a da nismo videli svaki primer onoga što nas interesuje?

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%

flowchart TD
  A[Ciljna populacija] --> B["Uzoračka populacija"]
  B --> C[Uzorak]
  C --"Zaključak"--> A

Urgentno lečenje septičnog šoka

Sepsa ima ogroman mortalitet. Kako da je lečimo?

Kako da odgovorimo na ovo pitanje?

Osnovni termini

  • Populacija (skup svih istovrsnih elemenata)
    • Ciljna populacija (skup elemenata za koji generalizujemo)
  • Uzoracka populacija (populacija koja je dostupna)
  • Uzorak (podskup osnovnog skupa (populacije) izabran na osnovu kriterijuma)

Istraživačko pitanje vs. ciljna grupa

Kako se dostupna populacija razlikuje?

Pogrešna slika realnosti

  • Izbor jedinica posmatranja mora biti nezavisan od posmatranog obeležja.
  • Verovatnoća odabira jedinica posmatranja mora biti unapred poznata.

Pristrasan pogled.

Pristrastnost

Statistička pristrastnost
Kada metod pokazuje netačnu, iskrivljenu sliku realnosti.

Žašto randomizujemo?

Vrste uzoraka

Uzorački okvir
Spisak ili lista svih elemenata populacije koju želimo da uzorkujemo.
  1. Slučajni uzorak
    • Tačno znamo verovatnoću da neko bude izabran
  2. Neslučajni
    • Može biti pristrasan

Slučajni uzorci

  • Prost
  • Sistematski
  • Stratifikovani
  • Klaster

Prost slučajan uzorak

Najjednostavniji oblik uzorkovanja. Bira se \(n\) jedinica iz izmešane populacije (npr. uzorak krvi).

Sistematski slučajan uzorak

Koristi se kao zamena za prost slučajan uzorak kada nemamo spisak jedinica ili je spisak nasumičnog redosleda.

Klaster slučajan uzorak

Koristan kada nemamo definisan uzorački okvir ili nas zanima opsežna populacija koju nije lako uzorkovati.

Stratifikovan slučajan uzorak

Populacija se deli na stratume od interesa. Jedinice (birane prostim slučajnim uzorkovanjem) unutar stratuma su međusobno sličnije.

Neslučajni uzorci

  • Prigodan
    • Pacijenti na odeljenju
  • Kvota
    • Kategorije → već određena kvota se ispunjava
  • Namerni
    • Pilot studija (inovacije)

Vežba: uzorkovanje

Iz baze “Sistolni pritisak.xlsx” odrediti prost i sistematski uzorak veličine 10.

Prost:

sample(1:99, 10, replace = F)
 [1] 86 88  9 43  6 22 79 75 57 98

Sistematski:

sample(1:99, 1, replace = F)
[1] 9
  1. Odrediti početnu jedinicu
    • Korak \(k = \frac{N}{n} = \frac{99}{10} \approx 10\)
    • Izabrati svaku 10-tu jedinicu

Problemi neslučajnih uzoraka

  • Postoji selekciona pristrasnost
  • Upitna valjanost generalizacije

Terminologija (i notacija)

tinytable_0rg20p0azh4dt9pfzkhd
Populacija (parametar) Uzorak (statistika)
Aritmetička sredina $\mu$ $\bar x$
Varijansa $\sigma^2$ $sd^2$
Standardna devijacija $\sigma$ $sd$
Proporcija $\pi$ $p$

Mortalitet sepse i randomizacija

  1. Kako bi ste randomizovali pacijente u JIL-u?
  1. Dobili smo rezultat:
tinytable_6w4vh9a3duvpm9kqc2bh
Intervencija Mortalitet Ukupno Stopa smrtnosti (%)
Agresivna terapija 92 439 21.0
Manje agresivna terapija 81 446 18.2
  1. Da li je ovo dobra procena mortaliteta?

Greška uzorkovanja

  1. Razlika između statistike izračunate na uzorku i parametra populacije.

  2. Ponavljanjim uzorkovanjem možemo da saznamo raspodelu greške (uzoračka raspodela) statistike.

Standardna greška
Standardna greška je standardna devijacija uzoračke raspodele.

Standardna greška aritmetičke sredine i proporcije

Standardna greška aritmetičke sredine:

\[ SE_{\bar x} = \frac{sd}{\sqrt{n}} \]

gde je: \(sd\), standardna devijacija statistike u uzorku (populaciona nije dostupna); \(n\) broj opservacija.

Standardna greška proporcije:

\[ SE_{p} = \sqrt{\frac{p(1-p)}{n}} \] gde je: \(p\), proporcija događaja u uzorku; \(n\) broj opservacija.

Standardna greška aritmetičke sredine

Primer centralne granične teoreme

Bilo koja raspodela \(\rightarrow\) arit. sred. uzorka \(\rightarrow\) normalna raspodela arit. sredina

Ocenjivanje populacionih parametara na osnovu uzorka

Jedan od najvažnijih istraživačkih zadataka jeste ocena populacionih parametara, najčešće aritmetičke sredine ili proporcije.

Interval poverenja i tačkasta procena

\[ CI = \bar x \pm t \times SE \]

gde je: \(\bar x\), aritmetička sredina; \(t\), kritična vrednost; \(SE\), standardna greška.

95% interval poverenja

99% Inverval poverenja

Definicija

Od svih 95% intervala poverenja, 95%

njih sadrži pravu populacionu vrednost.

95% vs. 99%

99% interval je sigurniji (ima manji

rizik greške) ali je širi od 95%.

Generalizacija

Saznanje o celoj populaciji bez da smo ih videli.

tinytable_u2089o5pdku3mq3sxdjm
Intervencija Mortalitet Ukupno Stopa smrtnosti (%) 95% IP (%)
Agresivna terapija 92 439 21.0 17.24 - 25.07
Manje agresivna terapija 81 446 18.2 14.69 - 22.06

%%{ init: { 'flowchart': { 'curve': 'monotoneX' } } }%%

flowchart TD
  A[Ciljna populacija] --> B["Uzoračka populacija"]
  B --> C[Uzorak]
  C --"Zaključak"--> A

Vežba: interval poverenja za kontinuirane podatke

Koristeći bazu podataka Sistolna TA.xlsx odrediti

99% interval poverenja aritmetičke sredine

sistolnog arterijskog pritiska ispitanika sa

akutnim koronarnim sindromom.

Komande

Statistical analysis \(\rightarrow\) Continuous variables \(\rightarrow\) Single-sample t-test

Vežba: interval poverenja za diskretne podatke

Na uzorku od 500 učenika u jednoj opštini nađena je

anemija kod 25 učenika. Odrediti 95% interval

poverenja proporcije učenika sa anemijom u toj

opštini.

Komande

Statistical analysis \(\rightarrow\) Discrete variables \(\rightarrow\) Confidence interval for a proportion

Struktura kursa

tinytable_fovahntwldza2hpn0vv0
Nedelja Tema
1 Uvod u medicinsku statistiku
2 Sređivanje podataka
3 Statističko opisivanje podataka
4 Verovatnoća i raspodele verovatnoća
5 Populacija i uzorak
6 Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama
7 Testiranje hipoteza o učestalostima
8 Testiranje hipoteza o rangovima
9 Korelacija
10 Regresija / Kolokvijum
11 Podaci, informacije i znanje
12 Zdravstveni informacioni sistem
13 Mere dijagnostičke tačnosti
14 Medicinsko odlučivanje
15 Bioinformatika