Korelacija i regresija

Dr Nikola Grubor

2024-11-11

Korelacija

Korelacija i kauzalnost

Netačna pretpostavka da korelacija podrazumeva uzročnu vezu je verovatno jedna od dve ili tri najveće greške u čovekovom zaključivanju.

— Stephen Jay Gould (1941 - 2002)

Ljudi su prirodno dobri

u kauzalnom zaključivaju.

Korelacija \(\not =\) Kauzalnost

Neverovatne povezanosti

Julski efekat

Vrste povezanosti

Varljivi podaci

Primer: lipidi i insulinska rezistencija (1)

\(H:\) Lipidni sastav membrane skeletnih mišićih ćelija utiče na insulinsku rezistenciju.

Borkman et al. (1993)

Primer: lipidi i insulinska rezistencija (2)

  • Scatterplot (dijagram rasturanja)
  • Kako da opišemo odnos ove dve varijable?
  • Korelacija

Karakteristike linearne povezanosti

  • Smer (pozitivan \(+\), negativan \(-\))
  • Stepen (od \(-1\) do \(+1\), “jačina” povezanosti)
  • Oblik (Linearan, nelinearan)
  • Scatterplot (dijagram rasturanja)

Vežba: napraviti dijagram rasturanja

Učitati bazu DZ.

Prikazati grafički vezu između starosti i ukupnog holesterola?

Prikazati grafički vezu između triglicerida i stepena uhranjenosti?

Korelacioni koeficijent

Definicija
Koeficijent korelacije je statistika koja kvantifikuje jačinu povezanosti varijabli.
  • Pearsonov koeficijent korelacije (r)
  • Spearmanov koeficijent korelacije ranga (\(\rho\))

Simetričnost korelacija

Masne kiseline predviđaju insulinsku senzitivnost.

Insulinska senzitivnost predviđa masne kiseline.

Pearsonov koeficijent korelacije

\(H_0:\) Ispitivane varijable nisu linearno povezane.

Uslovi:

  • Nezavisne opservacije
  • Normalna raspodela u populaciji
  • Svaka varijabla mora da ima svog para
  • Pretpostavlja linearan odnos varijabli

Tumačenje rezultata Pearsonove korelacije

cor.test(~ insulin + c20, data = bork, method = "pearson")

    Pearson's product-moment correlation

data:  insulin and c20
t = 4.9612, df = 18, p-value = 0.000101
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.4783589 0.8998777
sample estimates:
 cor 
0.76 

Svi ovi podaci imaju iste numeričke osobine, ali…

tinytable_8md5q0pgspqk6pj5tusg
dataset mean_x sd_x mean_y sd_y cor
away 54 17 48 27 -0.06
bullseye 54 17 48 27 -0.07
circle 54 17 48 27 -0.07
dino 54 17 48 27 -0.06
dots 54 17 48 27 -0.06
h_lines 54 17 48 27 -0.06
high_lines 54 17 48 27 -0.07
slant_down 54 17 48 27 -0.07
slant_up 54 17 48 27 -0.07
star 54 17 48 27 -0.06
v_lines 54 17 48 27 -0.07
wide_lines 54 17 48 27 -0.07
x_shape 54 17 48 27 -0.07

Uvek vizualizovati podatke!

Spearmanov koeficijent korelacije

\(H_0:\) Ispitivane varijable nisu monotono povezane.

Savet

Daje verodostojnije rezultate kada podaci neispunjavaju uslove linearnosti ili normalne raspodele.

Uslovi:

  1. Varijabla nema normalnu raspodelu
  2. Podaci su ordinalni ili rangovi
  3. Svaka varijabla mora da ima svog para
  4. Nelinearan odnos varijabli (scatterplot)
  5. Monotoničnost*

Tumačenje rezultata Spearmanove korelacije

cor.test(~ insulin + c20, data = bork, method = "spearman")

    Spearman's rank correlation rho

data:  insulin and c20
S = 372, p-value = 0.0004998
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.7203008 

Interpretacija koeficijenta korelacije

Šta ako se ne slažu korelacije?

x <- 0:20
y <- exp(x)

Pearsonova korelacija:

     cor 
0.527173 

Spearmanova korelacija:

rho 
  1 

Ako je Spearman \(\gt\) Pearson, znači da imamo monotonu (uzlaznu ili silaznu) povezanost, a ne linearnu povezanost.

Vežba: izračunavanje korelacije

  1. Proveriti normalnost (koeficijent varijacije)
  2. Pearson ili Spearman

Učitati bazu DZ.

Da li postoji povezanost između starosti i ukupnog holesterola?

Da li postoji povezanost između triglicerida i stepena uhranjenosti?

Struktura kursa

tinytable_wtx1jdo6yulflswu7ntm
Nedelja Tema
1 Uvod u medicinsku statistiku
2 Sređivanje podataka
3 Statističko opisivanje podataka
4 Verovatnoća i raspodele verovatnoća
5 Populacija i uzorak
6 Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama
7 Testiranje hipoteza o učestalostima
8 Testiranje hipoteza o rangovima
9 Korelacija
10 Regresija / Kolokvijum
11 Podaci, informacije i znanje
12 Zdravstveni informacioni sistem
13 Mere dijagnostičke tačnosti
14 Medicinsko odlučivanje
15 Bioinformatika