משפט הפירוק של פישר וניימן (באנגלית: Fisher–Neyman factorization theorem) מספק אפיון נוח לכך שסטטיסטי הוא מספיק: אם פונקציית הצפיפות היא
f
θ
(
x
)
{\displaystyle f_{\theta }(x)}
, אזי לפי המשפט
T
{\displaystyle T}
הוא מספיק עבור
θ
{\displaystyle \theta }
אם ורק אם קיימות פונקציות אי-שליליות g ו-h כך ש:
f
θ
(
x
)
=
g
θ
(
T
(
x
)
)
h
(
x
)
{\displaystyle f_{\theta }(x)=g_{\theta }(T(x))h(x)}
כלומר, ניתן לפרק את פונקציית הצפיפות למכפלה של שני גורמים, כך שגורם אחד, h, אינו תלוי ב-
θ
{\displaystyle \theta }
והגורם השני, g, אשר כן תלוי ב-
θ
{\displaystyle \theta }
, תלוי ב-x רק דרך
T
(
x
)
{\displaystyle T(x)}
.
קל לראות שאם
f
(
t
)
{\displaystyle f(t)}
היא פונקציה חד-חד-ערכית ו-
T
{\displaystyle T}
הוא סטטיסטי מספיק, אזי
f
(
T
)
{\displaystyle f(T)}
הוא סטטיסטי מספיק גם כן. בפרט, ניתן לכפול סטטיסטי מספיק בקבוע שאינו אפס, ולקבל סטטיסטי מספיק.
משמעות לגבי הסקה סטטיסטית
עריכה
אחת ההשלכות של משפט הפירוק היא שכשמשתמשים בהסקה סטטיסטית על סמך נראות , שני מאגרי נתונים בגודל זהה אשר להם בדיוק אותו ערך עבור הסטטיסטי המספיק
T
(
x
)
{\displaystyle T(x)}
, תמיד יספקו את אותה מסקנה לגבי
θ
{\displaystyle \theta }
(למשל: רווח סמך ל-
θ
{\displaystyle \theta }
, דחיית/אי-דחיית השערה לגבי
θ
{\displaystyle \theta }
). לפי קריטריון הפירוק התלות של הנראות ב-
θ
{\displaystyle \theta }
היא רק ביחד עם
T
(
x
)
{\displaystyle T(x)}
. מכיוון שזה נכון לגבי שני מאגרי הנתונים שלהם אותו ערך
T
(
x
)
{\displaystyle T(x)}
, התלות של הנראות ב-
θ
{\displaystyle \theta }
תהיה זהה גם כן, מה שיוביל להסקה סטטיסטית זהה.
ניסוח מדויק
עריכה
יהיו
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}}
תצפיות של מדגם מקרי מהתפלגות עם פונקציית צפיפות
f
(
x
,
θ
)
{\displaystyle f(x,\theta )}
עבור
θ
∈
Θ
{\displaystyle \theta \in \Theta }
, ויהי
Y
1
=
u
1
(
X
1
,
X
2
,
…
,
X
n
)
{\displaystyle Y_{1}=u_{1}(X_{1},X_{2},\ldots ,X_{n})}
סטטיסטי שפונקציית הצפיפות שלו היא
g
1
(
y
1
;
θ
)
{\displaystyle g_{1}(y_{1};\theta )}
. אז
Y
1
=
u
1
(
X
1
,
X
2
,
…
,
X
n
)
{\displaystyle Y_{1}=u_{1}(X_{1},X_{2},\ldots ,X_{n})}
הוא סטטיסטי מספיק עבור
θ
{\displaystyle \theta }
אם ורק אם קיימת פונקציה
H
{\displaystyle H}
כך ש:
∏
i
=
1
n
f
(
x
i
;
θ
)
=
g
1
[
u
1
(
x
1
,
x
2
,
…
,
x
n
)
;
θ
]
H
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n})\,}
ההוכחה להלן ניתנה על ידי רוברט הוג ואלן קרייג.[1]
נניח ש:
∏
i
=
1
n
f
(
x
i
;
θ
)
=
g
1
[
u
1
(
x
1
,
x
2
,
…
,
x
n
)
;
θ
]
⋅
H
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]\cdot H(x_{1},x_{2},\dots ,x_{n})}
ונוכיח ש-
Y
1
{\displaystyle Y_{1}}
הוא סטטיסטי מספיק.
יהיו
Y
i
=
u
i
(
X
1
,
X
2
,
…
,
X
n
)
{\displaystyle Y_{i}=u_{i}(X_{1},X_{2},\ldots ,X_{n})}
,
i
=
2
,
3
,
…
,
n
{\displaystyle i=2,3,\ldots ,n}
סטטיסטים כלשהם שפונקציות הצפיפות שלהם הן
g
i
(
y
i
;
θ
)
{\displaystyle g_{i}(y_{i};\theta )}
בהתאמה.
נבצע את הטרנספורמציה:
y
i
=
u
i
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle y_{i}=u_{i}(x_{1},x_{2},\ldots ,x_{n})}
לכל
i
=
1
,
2
,
…
,
n
{\displaystyle i=1,2,\ldots ,n}
, כשהפונקציות ההפוכות הן:
x
j
=
w
j
(
y
1
,
y
2
,
…
,
y
n
)
{\displaystyle x_{j}=w_{j}(y_{1},y_{2},\ldots ,y_{n})}
לכל
j
=
1
,
2
,
…
,
n
{\displaystyle j=1,2,\ldots ,n}
, ויעקוביאן
J
=
[
w
j
/
y
i
]
{\displaystyle J=[w_{j}/y_{i}]}
. אז:
∏
j
=
1
n
f
[
w
j
(
y
1
,
y
2
,
…
,
y
n
)
;
θ
]
=
|
J
|
⋅
g
1
(
y
1
;
θ
)
H
[
w
1
(
y
1
,
y
2
,
…
,
y
n
)
,
…
,
w
n
(
y
1
,
y
2
,
…
,
y
n
)
]
{\displaystyle \prod _{j=1}^{n}f\left[w_{j}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|\cdot g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right]}
הביטוי בצד שמאל של המשוואה הוא הצפיפות המשותפת:
g
(
y
1
,
y
2
,
…
,
y
n
;
θ
)
{\displaystyle g(y_{1},y_{2},\dots ,y_{n};\theta )}
של המשתנים (הסטטיסטים):
Y
1
,
Y
2
,
…
,
Y
n
{\displaystyle Y_{1},Y_{2},\ldots ,Y_{n}}
.
בצד ימין של המשוואה, הביטוי
g
1
(
y
1
;
θ
)
{\displaystyle g_{1}(y_{1};\theta )}
הוא פונקציית הצפיפות של
Y
1
{\displaystyle Y_{1}}
, וכך יוצא שהביטוי:
H
[
w
1
,
…
,
w
n
]
⋅
|
J
|
{\displaystyle H[w_{1},\dots ,w_{n}]\cdot |J|}
שווה ל-
g
(
y
1
,
…
,
y
n
;
θ
)
{\displaystyle g(y_{1},\dots ,y_{n};\theta )}
חלקי
g
1
(
y
1
;
θ
)
{\displaystyle g_{1}(y_{1};\theta )}
, כלומר, הוא שווה לפונקציית הצפיפות המותנה
h
(
y
2
,
…
,
y
n
∣
y
1
;
θ
)
{\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )}
של
Y
2
,
…
,
Y
n
{\displaystyle Y_{2},\dots ,Y_{n}}
בהינתן
Y
1
=
y
1
{\displaystyle Y_{1}=y_{1}}
.
אבל לפי ההנחה,
H
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle H(x_{1},x_{2},\dots ,x_{n})}
, וממילא גם
H
[
w
1
(
y
1
,
…
,
y
n
)
,
…
,
w
n
(
y
1
,
…
,
y
n
)
)
]
{\displaystyle H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]}
אינו תלוי ב-
θ
{\displaystyle \theta }
. מכיוון ש-
θ
{\displaystyle \theta }
לא הוכנס בתוך הטרנספורמציה שביצענו, וכן לא בא לידי ביטוי ביעקוביאן
J
{\displaystyle J}
, יוצא ש-
h
(
y
2
,
…
,
y
n
∣
y
1
;
θ
)
{\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )}
אינו תלוי ב-
θ
{\displaystyle \theta }
(אלא רק ב-
y
1
{\displaystyle y_{1}}
, וזאת לכל סטטיסטים
Y
2
,
Y
3
,
…
,
Y
n
{\displaystyle Y_{2},Y_{3},\ldots ,Y_{n}}
אפשריים), ולכן
Y
1
{\displaystyle Y_{1}}
הוא סטטיסטי מספיק עבור
θ
{\displaystyle \theta }
.
נניח ש-
Y
1
{\displaystyle Y_{1}}
הוא סטטיסטי מספיק, ונוכיח ש:
∏
i
=
1
n
f
(
x
i
;
θ
)
=
g
1
[
u
1
(
x
1
,
x
2
,
…
,
x
n
)
;
θ
]
⋅
H
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]\cdot H(x_{1},x_{2},\dots ,x_{n})\,}
כיוון ש-ש-
Y
1
{\displaystyle Y_{1}}
הוא סטטיסטי מספיק, ניתן לרשום:
g
(
y
1
,
…
,
y
n
;
θ
)
=
g
1
(
y
1
;
θ
)
h
(
y
2
,
…
,
y
n
∣
y
1
)
{\displaystyle g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1})\,}
כש-
h
(
y
2
,
…
,
y
n
∣
y
1
)
{\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})}
אינו תלוי ב-
θ
{\displaystyle \theta }
כיוון ש-
Y
2
.
.
.
Y
n
{\displaystyle Y_{2}...Y_{n}}
תלוי רק ב-
X
1
.
.
.
X
n
{\displaystyle X_{1}...X_{n}}
, אשר הם בלתי תלויים ב-
θ
{\displaystyle \theta }
בהינתן שידוע
Y
1
{\displaystyle Y_{1}}
שהוא סטטיסטי מספיק.
באמצעות חלוקת שני צידי המשוואה בערך המוחלט של היעקוביאן
J
{\displaystyle J}
, והחלפת
y
1
,
…
,
y
n
{\displaystyle y_{1},\dots ,y_{n}}
בפונקציות:
u
1
(
x
1
,
…
,
x
n
)
,
…
,
u
n
(
x
1
,
…
,
x
n
)
{\displaystyle u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})}
, מתקבלת המשוואה:
g
[
u
1
(
x
1
,
…
,
x
n
)
,
…
,
u
n
(
x
1
,
…
,
x
n
)
;
θ
]
|
J
∗
|
=
g
1
[
u
1
(
x
1
,
…
,
x
n
)
;
θ
]
h
(
u
2
,
…
,
u
n
∣
u
1
)
|
J
∗
|
{\displaystyle {\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J*|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J*|}}}
כש-
J
∗
{\displaystyle J*}
הוא היעקוביאן עם
y
1
,
…
,
y
n
{\displaystyle y_{1},\dots ,y_{n}}
שהוחלפו על ידי:
x
1
,
…
,
x
n
{\displaystyle x_{1},\dots ,x_{n}}
.
הצד הימני הוא בהכרח הצפיפות המשותפת
∏
i
=
1
n
f
(
x
i
;
θ
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )}
של
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
. נסמן:
G
1
[
u
1
(
x
1
,
…
,
x
n
)
;
θ
]
=
g
1
[
u
1
(
x
1
,
…
,
x
n
)
;
θ
]
|
J
∗
|
{\displaystyle G_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]={\frac {g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]}{|J*|}}}
, ונקבל:
∏
i
=
1
n
f
(
x
i
;
θ
)
=
G
1
[
u
1
(
x
1
,
x
2
,
…
,
x
n
)
;
θ
]
⋅
h
(
u
2
,
…
,
u
n
∣
u
1
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=G_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]\cdot h(u_{2},\dots ,u_{n}\mid u_{1})}
כיוון ש-
h
(
y
2
,
…
,
y
n
∣
y
1
)
{\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})}
(ולכן גם
h
(
u
2
,
…
,
u
n
∣
u
1
)
{\displaystyle h(u_{2},\dots ,u_{n}\mid u_{1})}
) אינו תלוי ב-
θ
{\displaystyle \theta }
(לפי ההנחה), מתקבל ש:
H
(
x
1
,
…
,
x
2
)
=
h
(
u
2
,
…
,
u
n
∣
u
1
)
|
J
∗
|
{\displaystyle H(x_{1},\dots ,x_{2})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J*|}}}
היא פונקציה שאינה תלויה ב-
θ
{\displaystyle \theta }
, כלומר:
∏
i
=
1
n
f
(
x
i
;
θ
)
=
G
1
[
u
1
(
x
1
,
x
2
,
…
,
x
n
)
;
θ
]
⋅
H
(
x
1
,
x
2
,
…
,
x
n
)
{\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=G_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]\cdot H(x_{1},x_{2},\dots ,x_{n})}
כנדרש.
התפלגות ברנולי
עריכה
אם
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי תלויים בעלי התפלגות ברנולי עם פרמטר
p
{\displaystyle p}
, אזי הסכום
T
(
X
)
=
X
1
+
.
.
.
+
X
n
{\displaystyle T(X)=X_{1}+...+X_{n}}
הוא סטטיסטי מספיק עבור
p
{\displaystyle p}
.
מאחר שהמשתנים המקריים הם בלתי תלויים, פונקציית הצפיפות המשותפת מקיימת:
f
p
(
X
)
=
p
x
1
(
1
−
p
)
1
−
x
1
p
x
2
(
1
−
p
)
1
−
x
2
⋯
p
x
n
(
1
−
p
)
1
−
x
n
{\displaystyle f_{p}(X)=p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}\,\!}
ועל ידי קיבוץ חזקות של
p
{\displaystyle p}
ושל
1
−
p
{\displaystyle 1-p}
, מתקבל:
f
p
(
X
)
=
p
∑
x
i
(
1
−
p
)
n
−
∑
x
i
=
p
T
(
x
)
(
1
−
p
)
n
−
T
(
x
)
{\displaystyle f_{p}(X)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}\,\!}
הצגה זו מקיימת את תנאי משפט הפירוק כאשר:
h
(
X
)
=
1
;
g
(
T
(
x
)
,
p
)
=
p
∑
x
i
(
1
−
p
)
n
−
∑
x
i
)
{\displaystyle h(X)=1;\quad g(T(x),p)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}})}
הפרמטר הבלתי ידוע,
p
{\displaystyle \ p}
, תלוי בנתונים (
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
) רק דרך הסטטיסטי שלהם
T
(
x
)
=
∑
i
x
i
{\displaystyle T(x)={\sum _{i}x_{i}}}
התפלגות אחידה
עריכה
אם
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי תלויים המתפלגים באופן אחיד בטווח
[
0
,
θ
]
{\displaystyle [0,\theta ]}
אזי
T
(
X
)
=
max
(
X
1
,
.
.
.
,
X
n
)
{\displaystyle T(X)=\max(X_{1},...,X_{n})}
הוא סטטיסטי מספיק ל-
θ
{\displaystyle \theta }
.
מאחר שהמשתנים המקריים הם בלתי תלויים, פונקציית הצפיפות המשותפת מקיימת:
f
θ
(
x
1
,
…
,
x
n
)
=
1
θ
1
{
0
≤
x
1
≤
θ
}
⋯
1
θ
1
{
0
≤
x
n
≤
θ
}
=
1
θ
n
1
{
0
≤
min
{
x
i
}
}
1
{
max
{
x
i
}
≤
θ
}
{\displaystyle {\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}}
כאשר
1
{
⋯
}
{\displaystyle \mathbf {1} _{\{\cdots \}}}
היא פונקציית האינדיקטור . לכן, אם נסמן:
g
(
T
(
x
)
,
θ
)
=
1
θ
n
⋅
1
{
max
{
x
i
}
≤
θ
}
=
1
θ
n
⋅
1
{
T
(
x
)
≤
θ
}
{\displaystyle g(T(x),\theta )={\frac {1}{\theta ^{n}}}\cdot \mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}={\frac {1}{\theta ^{n}}}\cdot \mathbf {1} _{\{T(x)\leq \theta \}}}
וכן
h
(
X
)
=
1
{
0
≤
min
(
X
i
)
}
{\displaystyle h(X)=\mathbf {1} _{\{0\leq \min(X_{i})\}}}
,
נקבל את תנאי משפט הפירוק, ושאכן
T
(
X
)
=
max
(
X
i
)
{\displaystyle T(X)=\max(X_{i})}
הוא סטטיסטי מספיק.
התפלגות פואסון
עריכה
אם
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי תלויים בעלי התפלגות פואסון עם פרמטר
λ
{\displaystyle \lambda }
, אזי הסכום
T
(
X
)
=
X
1
+
.
.
.
+
X
n
{\displaystyle T(X)=X_{1}+...+X_{n}}
הוא סטטיסטי מספיק עבור
λ
{\displaystyle \lambda }
.
על מנת להיווכח בכך, נתבונן בפונקציית ההסתברות המשותפת:
Pr
(
X
=
x
)
=
P
(
X
1
=
x
1
,
X
2
=
x
2
…
,
X
n
=
x
n
)
{\displaystyle \Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2}\ldots ,X_{n}=x_{n})\,}
ומכיוון שהתצפיות בלתי תלויות:
P
(
X
1
=
x
1
,
X
2
=
x
2
,
…
,
X
n
=
x
n
)
=
P
(
X
1
=
x
1
)
P
(
X
2
=
x
2
)
…
P
(
X
n
=
x
n
)
{\displaystyle P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n})=P(X_{1}=x_{1})P(X_{2}=x_{2})\ldots P(X_{n}=x_{n})}
לכן:
P
(
X
=
x
)
=
e
−
λ
λ
x
1
x
1
!
⋅
e
−
λ
λ
x
2
x
2
!
⋯
e
−
λ
λ
x
n
x
n
!
=
e
−
n
λ
λ
(
x
1
+
x
2
+
⋯
+
x
n
)
⋅
1
x
1
!
x
2
!
⋯
x
n
!
=
e
−
n
λ
λ
T
(
x
)
⋅
1
x
1
!
x
2
!
⋯
x
n
!
{\displaystyle P(X=x)={e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}\,=e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}\,=e^{-n\lambda }\lambda ^{T(x)}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}\,}
אם נסמן:
g
(
T
(
x
)
,
λ
)
=
e
−
n
λ
λ
T
(
x
)
{\displaystyle g(T(x),\lambda )=e^{-n\lambda }\lambda ^{T(x)}\,}
, וכן:
h
(
X
)
=
1
x
1
!
x
2
!
⋯
x
n
!
{\displaystyle h(X)={1 \over x_{1}!x_{2}!\cdots x_{n}!}\,}
,
נקבל את תנאי משפט הפירוק, ושאכן
T
(
X
)
=
X
1
+
.
.
.
+
X
n
{\displaystyle T(X)=X_{1}+...+X_{n}}
הוא סטטיסטי מספיק.