Koeficient determinace

Vzhled přesunout do postranního panelu skrýt Graf dvou regresních přímek s vysokým a nižším koeficientem determinace

Koeficient determinace, běžně označovaný R 2 {\displaystyle {\mathit {R}}^{2}} („R kvadrát“), je v matematické statistice míra kvality regresního modelu, která ve své základní podobě vyjadřuje, jaký podíl variability závisle proměnné model vysvětluje. Koeficient determinace může nabývat hodnoty maximálně 1 (nebo vyjádřeno v procentech 100 %), což znamená dokonalou predikci hodnot závisle proměnné. Naopak hodnota 0 (resp. 0 %) znamená, že model nepřináší pro poznání závisle proměnné žádnou informaci, je zcela neužitečný.

Koeficient determinace lineárního regresního modelu se obvykle definuje jako jedna minus podíl rozptylu chyb (tj. rozdílů mezi predikcemi modelu a skutečnými hodnotami nezávisle proměnné) a rozptylu nezávisle proměnné. To vede na definiční rovnici

R 2 ≡ 1 − S S r e s S S t o t = 1 − ∑ ( y i − y ^ i ) 2 ∑ ( y i − y ¯ ) 2 = ∑ ( y ^ i − y ¯ ) 2 ∑ ( y i − y ¯ ) 2 {\displaystyle {\mathit {R}}^{2}\equiv 1-{SS_{\rm {res}} \over SS_{\rm {tot}}}=1-{\frac {\displaystyle \sum \nolimits \left(y_{i}-{\hat {y}}_{i}\right)^{2}}{\displaystyle \sum \nolimits \left(y_{i}-{\overline {y}}\right)^{2}}}={\frac {\displaystyle \sum \nolimits \left({\hat {y}}_{i}-{\overline {y}}\right)^{2}}{\displaystyle \sum \nolimits \left(y_{i}-{\overline {y}}\right)^{2}}}} ,

kde S S r e s {\displaystyle SS_{\rm {res}}} je suma čtverců chyb (residuí), S S t o t {\displaystyle SS_{\rm {tot}}} suma kvadratických odchylek závisle proměnné y {\displaystyle y} od její střední hodnoty y ¯ {\displaystyle {\overline {y}}} a y ^ i {\displaystyle {\hat {y}}_{i}} je regresní odhad i {\displaystyle i} -tého pozorování. Koeficient determinace má za těchto okolností zároveň význam čtverce Pearsonova korelačního koeficientu mezi pozorovanými a modelem odhadnutými hodnotami závisle proměnné.

Koeficient determinace má tendenci růst s počtem nezávisle proměnných v regresním modelu, i když tyto přidávané proměnné nenesou žádnou novou informaci o závisle proměnné. Aby se tomuto umělému nárůstu R 2 {\displaystyle {\mathit {R}}^{2}} předešlo, navrhl Henri Theil adjustovaný koeficient determinace R ¯ 2 {\displaystyle {\bar {R}}^{2}} , který opravuje odhadovanou inflaci původního koeficientu determinace a počítá se podle vzorce

R ¯ 2 = 1 − ( 1 − R 2 ) n − 1 n − p − 1 {\displaystyle {\bar {R}}^{2}={1-(1-R^{2}){n-1 \over n-p-1}}} ,

kde n {\displaystyle n} je počet pozorování v souboru a p {\displaystyle p} počet proměnných v modelu. R ¯ 2 {\displaystyle {\bar {R}}^{2}} může vyjít i menší než nula. Postupů pro adjustaci koeficientu determinace je nicméně velké množství, určených pro různé druhy zobecnění kvality predikce.

Reference

  1. YIN, Ping; FAN, Xitao. Estimating R2 Shrinkage in Multiple Regression: A Comparison of Different Analytical Methods. S. 203–224. The Journal of Experimental Education . 2001-01. Roč. 69, čís. 2, s. 203–224. DOI 10.1080/00220970109600656
  2. SALH, Samira Muhamad. ESTIMATING R 2 SHRINKAGE IN REGRESSION. S. 1–6. International Journal of Technical Research and Applications . 2015. Roč. 3, čís. 2, s. 1–6. Dostupné online

Externí odkazy

Portály: Matematika