נניח מודל מהצורה
y
=
X
β
+
ε
{\displaystyle \mathbf {y} =X\mathbf {\beta } +\varepsilon }
בכתיב וקטורי. כלומר,
y
,
ε
∈
R
n
,
β
∈
R
K
,
X
∈
R
n
×
K
{\displaystyle \mathbf {y} ,\varepsilon \in \mathbb {R} ^{n},\beta \in \mathbb {R} ^{K},X\in \mathbb {R} ^{n\times K}}
, ואז בכתיב מלא המודל הוא,
y
i
=
∑
j
=
1
K
β
j
X
i
j
+
ε
i
{\displaystyle y_{i}=\sum _{j=1}^{K}\beta _{j}X_{ij}+\varepsilon _{i}}
עבור
i
=
1
,
…
,
n
{\displaystyle i=1,\dots ,n}
.
β
j
{\displaystyle \beta _{j}}
הוא פרמטר קבוע לא ידוע שאותו מחפשים;
X
i
j
{\displaystyle X_{ij}}
הוא ערך קבוע ידוע;
ε
i
{\displaystyle \varepsilon _{i}}
הוא משתנה מקרי המתאר את השגיאה או את ה"רעש", וכתוצאה מכך גם
y
i
{\displaystyle y_{i}}
הוא משתנה מקרי.
אומד ליניארי לפרמטר
β
j
{\displaystyle \beta _{j}}
הוא ליניארי במשתנים
y
1
,
…
,
y
n
{\displaystyle y_{1},\dots ,y_{n}}
, כלומר הוא מהצורה,
β
^
j
=
c
1
j
y
1
+
⋯
+
c
n
j
y
n
{\displaystyle {\widehat {\beta }}_{j}=c_{1j}y_{1}+\cdots +c_{nj}y_{n}}
כאשר המקדמים
c
1
j
,
…
,
c
n
j
{\displaystyle c_{1j},\dots ,c_{nj}}
אינם יכולים להיות תלויים בפרמטר
β
j
{\displaystyle \beta _{j}}
, אלא רק בערכים הנצפים
X
1
j
,
…
,
X
n
j
{\displaystyle X_{1j},\dots ,X_{nj}}
(אך התלות של המקדמים בערכים הנצפים אינה בהכרח ליניארית).
סכום ריבועי השגיאות
עריכה
אם
β
^
{\displaystyle {\widehat {\beta }}}
הוא אומד כלשהו, ונסמן בהתאמה
y
^
i
=
∑
j
=
1
K
β
^
j
X
i
j
+
ε
i
{\displaystyle {\widehat {\mathbf {y} }}_{i}=\sum _{j=1}^{K}{\widehat {\beta }}_{j}X_{ij}+\varepsilon _{i}}
טבעי לרצות אומד שממזער את סכום ריבועי השגיאות. כלומר, אומד
β
^
{\displaystyle {\widehat {\beta }}}
כזה שממזער את הביטוי,
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
{\displaystyle \sum _{i=1}^{n}\left(y_{i}-{\widehat {y}}_{i}\right)^{2}}
משפט גאוס-מרקוב: אם מתקיימים שלושת התנאים הבאים:
E
[
ε
i
]
=
0
{\displaystyle \mathbf {E} \left[\varepsilon _{i}\right]=0}
עבור
i
=
1
,
…
,
n
{\displaystyle i=1,\dots ,n}
.
V
a
r
(
ε
i
)
=
σ
2
<
∞
{\displaystyle \mathbf {Var} \left(\varepsilon _{i}\right)=\sigma ^{2}<\infty }
עבור
i
=
1
,
…
,
n
{\displaystyle i=1,\dots ,n}
.
C
o
v
(
ε
i
,
ε
j
)
=
0
{\displaystyle \mathbf {Cov} \left(\varepsilon _{i},\varepsilon _{j}\right)=0}
עבור
i
,
j
=
1
,
…
,
n
;
i
≠
j
{\displaystyle i,j=1,\dots ,n;i\neq j}
.
אז האומד שממזער את סכום ריבועי השגיאות הוא אומד הריבועים הפחותים הליניארי,
β
^
=
(
X
T
X
)
−
1
X
T
y
{\displaystyle {\widehat {\beta }}=\left(X^{T}X\right)^{-1}X^{T}\mathbf {y} }
כאשר
X
T
{\displaystyle X^{T}}
היא המטריצה המשוחלפת של
X
{\displaystyle X}
.
יהי
β
~
=
C
y
{\displaystyle {\tilde {\beta }}=C\mathbf {y} }
אומד ליניארי וחסר הטיה כלשהו. היות שאנו עוסקים באומדים חסרי הטיה, מזעור של סכום ריבועי השגיאות שקול למזעור השונות. אם כך נרצה להראות כי המטריצה
V
a
r
(
β
~
)
−
V
a
r
(
β
^
)
{\displaystyle \mathbf {Var} \left({\tilde {\beta }}\right)-\mathbf {Var} \left({\widehat {\beta }}\right)}
היא מטריצה חיובית .
נכתוב לצורך הפשטות
C
=
(
X
T
X
)
−
1
X
T
+
D
{\displaystyle C=\left(X^{T}X\right)^{-1}X^{T}+D}
, עבור מטריצה
D
{\displaystyle D}
מגודל
K
×
n
{\displaystyle K\times n}
, ונחשב,
E
[
β
~
]
=
E
[
C
y
]
=
E
[
(
(
X
T
X
)
−
1
X
T
+
D
)
(
X
β
+
ε
)
]
=
(
(
X
T
X
)
−
1
X
T
+
D
)
X
β
+
(
(
X
T
X
)
−
1
X
T
+
D
)
E
[
ε
]
=
(
(
X
T
X
)
−
1
X
T
+
D
)
X
β
=
(
X
T
X
)
−
1
X
T
X
β
+
D
X
β
=
(
I
K
+
D
X
)
β
{\displaystyle {\begin{aligned}\mathbf {E} \left[{\tilde {\beta }}\right]&=\mathbf {E} \left[Cy\right]\\&=\mathbf {E} \left[\left((X^{T}X)^{-1}X^{T}+D\right)\left(X\beta +\varepsilon \right)\right]\\&=\left((X^{T}X)^{-1}X^{T}+D\right)X\beta +\left((X^{T}X)^{-1}X^{T}+D\right)\mathbf {E} \left[\varepsilon \right]\\&=\left((X^{T}X)^{-1}X^{T}+D\right)X\beta \\&=(X^{T}X)^{-1}X^{T}X\beta +DX\beta \\&=\left(I_{K}+DX\right)\beta \\\end{aligned}}}
אם כך, כדי שהאומד
β
~
{\displaystyle {\tilde {\beta }}}
יהיה חסר הטיה, בהכרח מתקיים
D
X
=
0
{\displaystyle DX=0}
. מכך נובע,
V
a
r
(
β
~
)
=
V
a
r
(
C
y
)
=
C
V
a
r
(
y
)
C
T
=
σ
2
C
C
T
=
σ
2
(
(
X
T
X
)
−
1
X
T
+
D
)
(
X
(
X
T
X
)
−
1
+
D
T
)
=
σ
2
(
(
X
T
X
)
−
1
X
T
X
(
X
T
X
)
−
1
+
(
X
T
X
)
−
1
X
T
D
T
+
D
X
(
X
T
X
)
−
1
+
D
D
T
)
=
σ
2
(
X
T
X
)
−
1
+
σ
2
(
X
T
X
)
−
1
(
D
X
)
T
+
σ
2
D
X
(
X
T
X
)
−
1
+
σ
2
D
D
T
=
σ
2
(
X
T
X
)
−
1
+
σ
2
D
D
T
=
V
a
r
(
β
^
)
+
σ
2
D
D
T
{\displaystyle {\begin{aligned}\mathbf {Var} \left({\tilde {\beta }}\right)&=\mathbf {Var} \left(C\mathbf {y} \right)\\&=C\mathbf {Var} (y)C^{T}\\&=\sigma ^{2}CC^{T}\\&=\sigma ^{2}\left((X^{T}X)^{-1}X^{T}+D\right)\left(X(X^{T}X)^{-1}+D^{T}\right)\\&=\sigma ^{2}\left((X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}+(X^{T}X)^{-1}X^{T}D^{T}+DX(X^{T}X)^{-1}+DD^{T}\right)\\&=\sigma ^{2}(X^{T}X)^{-1}+\sigma ^{2}(X^{T}X)^{-1}\left(DX\right)^{T}+\sigma ^{2}DX(X^{T}X)^{-1}+\sigma ^{2}DD^{T}\\&=\sigma ^{2}(X^{T}X)^{-1}+\sigma ^{2}DD^{T}\\&=\mathbf {Var} \left({\widehat {\beta }}\right)+\sigma ^{2}DD^{T}\end{aligned}}}
כאשר המעבר בשורה השביעית הוא כי
D
X
=
0
{\displaystyle DX=0}
, והמעבר בשורה השמינית הוא כי
σ
2
(
X
T
X
)
−
1
=
V
a
r
(
β
^
)
{\displaystyle \sigma ^{2}\left(X^{T}X\right)^{-1}=\mathbf {Var} \left({\widehat {\beta }}\right)}
.
לפיכך, היות ש-
D
D
T
{\displaystyle DD^{T}}
היא מטריצה חיובית , נובע כי אכן
V
a
r
(
β
~
)
−
V
a
r
(
β
^
)
{\displaystyle \mathbf {Var} \left({\tilde {\beta }}\right)-\mathbf {Var} \left({\widehat {\beta }}\right)}
היא מטריצה חיובית , כנדרש.