בעיית הטנק הגרמני

באמידה, הבעיה של אמידת המקסימום של התפלגות אחידה בדידה ממדגם ללא החזרה ידועה באנגלית כבעיית הטנק הגרמני (German tank problem), בשל השימוש בה בהקשר של מלחמת העולם השנייה על מנת להעריך את מספר הטנקים הגרמניים. בעיה זו מדגימה את ההבדל בין הסקה שכיחותנית (Frequentist) לבין הסקה בייסיאנית.

במהלך מלחמת העולם השנייה, ייצור של טנקים גרמניים כדוגמת פנתר הוערך על ידי המודיעין של בעלות הברית באמצעות שיטות סטטיסטיות
טנקי פנתר נשלחים לקווי החזית, 1943

הבעיה ההיסטורית עריכה

במהלך מלחמת העולם השנייה נעשו מאמצים ממושכים על ידי בעלות הברית כדי לקבוע את היקף הייצור הגרמני, וניסו לפתור זאת בשתי גישות: באמצעות איסוף מודיעין בצורה קונבנציונלית ובאמצעות אמידה סטטיסטית. במקרים רבים הניתוח הסטטיסטי עלה באיכותו על המודיעין הקונבנציונלי. במקרים מסוימים נעשה שימוש במודיעין קונבנציונלי בצירוף ניתוח סטטיסטי, כמו במקרה של הערכת ייצור טנקי הפנתר לפני הפלישה לנורמנדי.

הפיקוד של בעלות הברית סבר כי טנקי פנצר סימן 5 (פנתר) שנצפו באיטליה, שלהם מהירות גבוהה ותותחי 75 מ"מ/L70, הם טנקים כבדים נדירים במיוחד, ויהיו רק במספר קטן בצפון צרפת, באופן דומה לטנקי הטיגר I שנצפו בתוניסיה. צבא ארצות הברית היה משוכנע כי טנקי שרמן ימשיכו לתפקד היטב, כפי שתפקדו נגד טנקי פנצר סימן 3 ופנצר סימן 4 בצפון אפריקה ובסיציליה.

זמן קצר לפני הפלישה לנורמנדי הגיעו שמועות על כך שהגרמנים עושים שימוש במספר גדול של טנקים מסוג פנצר סימן 5. כדי לברר את נכונות השמועות, ניסו בעלות הברית להעריך את מספר הטנקים שיוצרו. הם ביססו את הערכותיהם על המספרים הסידוריים של טנקים שנתפסו או נהרסו. המספרים העיקריים ששימשו לניתוח זה היו מספרים סידוריים של תיבות ההילוכים, מאחר שאלו פוצחו על ידי בעלות הברית. מספרי השלדה והמנוע שימשו אף הם לניתוח, אך השימוש בהם היה מסובך יותר. מידע מרכיבים נוספים שימש לביסוס נוסף של הניתוח. ניתוח דומה נעשה גם על פי מספרים סידוריים של גלגלי מרכוב, שלהם ניתנו מספרים ברצף (1, 2, ...N).

ניתוח גלגלי הטנקים הניב ההערכה של מספר סוגי הגלגלים שהיו בשימוש. בדיקות שנעשו יחד עם מומחים בריטיים לייצור גלגלים העריכו את מספר הגלגלים שניתן היה לייצר מסוגים אלו, וכך את מספר הטנקים המיוצרים מדי חודש. ניתוח של גלגלים משני טנקים (בכל אחד מהם 32 גלגלים) הוביל להערכה של 270 טנקים שיוצרו בפברואר 1944.

ממסמכים גרמניים שנתפסו לאחר המלחמה התברר כי מספר הטנקים שיוצרו בפברואר 1944 היה 276 טנקים. הניתוח הסטטיסטי התברר כמוצלח יותר מהערכות המודיעין הקונבנציונליות, ו"בעיית הטנק הגרמני" הפך לשם שגור לתיאור בעיות מסוג זה.

השימוש במספרים סידוריים ובניתוחים סטטיסטים לא היה מוגבל רק להערכת מספר הטנקים, ושימש את בעלות הברית גם להערכת הייצור הגרמני באופן כללי, ובפרט מספר המפעלים וחשיבותם, אורך שרשרת האספקה (הזמן מהייצור ועד הכנסה לשימוש), שינויים בייצור ושימוש במשאבים כדוגמת גומי.

נתוני הייצור והערכות עריכה

על פי הערכות המודיעין הקונבנציונלי של בעלות הברית, ייצרו הגרמנים בסביבות 1,400 טנקים מדי חודש בין יוני 1940 לספטמבר 1942. אבל תוך שימוש בניתוח הסטטיסטי שיוצג להלן, הוערך מספר הטנקים שיוצרו ב-246 מדי חודש בלבד.[1] לאחר המלחמה, מסמכים עם פרטי הייצור שנתפסו ממשרדו של אלברט שפר הראו כי המספר האמיתי היה 245.

הערכות עבור מספר חודשים מוצגות להלן:[2]

חודש הערכה סטטיסטית הערכת המודיעין מסמכים גרמניים
יוני 1940 169 1,000 122
יוני 1941 244 1,550 271
אוגוסט 1942 327 1,550 342

אנליזות דומות עריכה

ניתוחים סטטיסטיים דומים נעשו על פי מספרים סידוריים גם בהקשר לציוד צבאי אחר במלחמת העולם השנייה, ובפרט לטילי V-2. במהלך מלחמת העולם השנייה העריך הצבא הגרמני את היקף הייצור הצבאי הסובייטי, ובמהלך מלחמת קוריאה, נעשה ניתוח של מספרים סידוריים של ציוד סובייטי. גם ברית המועצות העריכה את ייצור הטנקים הגרמניים באופן דומה במהלך מלחמת העולם השנייה.

בשנות ה-80 מספר אמריקאים קיבלו גישה לקווי הייצור של טנקי מרכבה. היקף הייצור סודי, אך לטנקים היו מספרים סידוריים, שאפשרו להעריך את היקף הייצור שלהם.[3]

אמצעי הגנה עריכה

על מנת להגן מפני ניתוח המבוסס על מספרים סידוריים ניתן להימנע מציונם, או להעניק מספרי ייצור מוצפנים או כאלו שאינם קשורים למספרים המיוצרים בפועל.

ניתוח שכיחותי עריכה

 

בערך זה
נעשה שימוש
בסימנים מוסכמים
מתחום המתמטיקה.
להבהרת הסימנים
ראו סימון מתמטי.

אינטואיציה עריכה

אינטואיטיבית האומד הוא המקסימום במדגם ועוד ההפרש הממוצע בין התצפיות במדגם. המקסימום במדגם נבחר כאומד ראשוני מאחר שהוא אומד נראות מקסימלית, והוספת ההפרש מפצה על ההטיה מטה של המקסימום במדגם לעומת המקסימום באוכלוסייה כולה.

אם m הוא המקסימום במדגם, ו-k הוא מספר הדגימות, הנוסחה תהיה:

 

ניתן להמחיש זאת בכך שהדוגמאות נמצאות בהפרש קבוע ביניהן בתוך הטווח, ודוגמאות נוספות נמצאות ממש מעבר לטווח של 0 ו N+1. אם מתחילם בהפרש ראשוני של בין 0 למינימום במדגם הפרש הממוצע בין הדוגמאות הוא  ; ההחסרה של   נעשית משום שהדוגמאות עצמן אינן נספרות בהפרש בין הדוגמאות.

הרעיון שבבסיס תיאור זה מנוסחות בצורה פורמלית באמצעות אמידת רווח מקסימלי (maximum spacing estimation)(אנ').

אומד חסר הטיה בעל שונות מינימלית עריכה

פיתוח של הנוסחה:

 

עבור אמידה נקודתית (אמידת נקודה יחידה מסה"כ  ), אומד חסר הטיה בעל שונות מינימלית (minimum-variance unbiased estimator; MVUE) ניתן באמצעות:

 
כאשר m הוא המספר הסידורי הגבוה ביותר שנצפה ו-k הוא מספר התצפיות. כאשר מרגע שנצפה מספר סידורי מסוים, הוא לא יצפה בשנית. לכך יש שונות:
 

כך שסטיית התקן היא בערך N/k, הגודל הממוצע (של האוכלוסייה) של ההפרש בין הדוגמאות; בהשוואה ל m/k לעיל.

גזירה עריכה

ההסתברות שהמקסימום במדגם הוא m ניתנת באמצעות  ; כאשר   הוא המקדם הבינומי. בהינתן גודל אוכלוסייה N וגודל מדגם k התוחלת של המקסימום במדגם היא:

 

מערך לא ידוע זה ניתן לבטא את N מתוחלת וגודל המדגם:  

מליניאריות התוחלת מקבלים:  

ולכן האומד הבלתי מוטה של N ניתן באמצעות החלפת התוחלת במדגם ומכאן:

 

על מנת להראות שזה אומד שונות מינימלית:

  • מראים כי המקסימום במדגם הוא סטטיסטי מספיק עבור המקסימום באוכלוסייה
  • שנית מראים כי הוא סטטיסט מלא
  • באמצעות משפט להמן-שיף (Lehmann–Scheffé) מראים כי המקסימום במדגם עם תיקון להטיה כמוצג לעיל הוא אומד שונות מינימלית

ניתוח בייסיאני עריכה

הגישה הבייסיאנית לבעיית הטנק הגרמני היא לבחון את ההסתברות של   כך שמספר הטנקים של האויב N שווה ל־n, מספר הטנקים שנצפו K שווה ל־k והמספר הסידורי הגבוה ביותר שנצפה M הוא m. לשם הקיצור נשתמש ב־  לציון  .

מכללים של הסתברות מותנת מקבלים:  

הנוסחה   היא ההסתברות המותנית שהמספר הסידורי הגבוה ביותר שנצפה הוא   כאשר ידוע שמספר הטנקים של האויב הוא   ו־  טנקים נצפו:

 
כאשר המקדם הבינומי   הוא מספר הקבוצות של דוגמאות בגודל   מאוכלוסייה של  .

הביטוי   הוא ההסתברות שהמספר הסידורי המרבי הוא m כאשר k טנקים נצפו, אך לפני שנצפו המספרים הסידוריים. את   ניתן לכתוב מחדש במונחים של יתר הנתונים באמצעות סכימה באמצעות האפשרויות השונות של  :

 

הביטוי   מתאר את ההסתברות לכך שמספר הטנקים הכולל הוא n כאשר k טנקים נצפו אך לפני צפייה במספרים הסידוריים. בהנחה שההתפלגות היא התפלגות אחידה (בדידה):

 

החסם העליון   חייב להיות סופי כיוון שהפונקציה:   תקבל   ואינה פונקציית הסתברות. לכן:

 

אם   אז המשתנה   מוסר מהנוסחה.

 

עבור   השכיח של ההתפלגות של מספר הטנקים של האויב הוא m.

עבור   ההסתברות שמספר הטנקים שווה ל־n היא:  

וההסתברות שמספר הטנקים של האויב,  , הוא גדול מ־ , היא:  

עבור  , מספר הטנקים   הוא בעל ערך תוחלת סופי:  

עבור  , מספר הטנקים   הוא בעל סטיית תקן סופית של:  

נוסחאות אלו מפותחות להלן.

נוסחת סכום עריכה

הזהות הבאה של המקדם הבינומי תשמש להלן לפישוט סדרות הקשורות לבעיית הטנק הגרמני:

 

סכום זה אנלוגי במידת מה לאינטגרל הבאה:

 

נוסחאות אלו תקפות עבור  .

טנק יחיד עריכה

תצפית בטנק יחיד באקראי מתוך אוכלוסייה של n טנקים, ולו מספר סידורי m בהסתברות של   עבור   ובהסתברות של אפס עבור  . . באמצעות שימוש בסוגרי אייברסון ניתן לכתוב זאת:

 

זו פונקציית הסתברות מותנית של .

כאשר מתייחסים לכך כפונקציה n עבור מספר קבוע m זו פונקציית נראות: 

האומד נראות מקסימלית למספר הטנקים הכולל הוא  .

הנראות הכוללת היא אין סוף כזנב של הסדרה ההרמונית: 

אבל, כאשר   הוא מספר הרמוני:

 

פונקציית ההסתברות אשר תלויה בהגבלה   הניתנת כידע מוקדם:

 

התוחלת של   היא:

 

שני טנקים עריכה

אם נצפים שני טנקים, אז ההסתברות שזה עם המספר הסידורי הגדול יותר שווה ל־m, היא

 

כאשר מתייחסים לכך כפונקציה של n עבור m קבוע זו פונקציית נראות:

 

הנראות הכוללת היא:

 

ופונקציית ההסתברות של מספר הטנקים הכולל N כתלות בתצפית במספר הסידורי הגדול m ובצפייה בשני טנקים היא:

 

החציון   מקיים:  

ולכן:  . מכאן שערך החציון הוא:  

אך התוחלת של N היא אינסופית:  

טנקים רבים עריכה

ההסתברות המותנית שהערך הגדול מבין k תצפיות של מספרים סידוריים {1,...,n}, שווה ל־m, היא:

 

פונקציית הנראות של n היא:

 

הנראות הכוללת היא סופית עבור  :

 

פונקציית ההסתברות של מספר הטנקים הכולל N כתלות בתצפית עם הערך הגדול ביותר m מ-k תצפיות היא:

 

התפלגות הזנב (המשלים לפונקציית הצטברות) עבור  :

 

פונקציית ההצטברות עבור  :

 

דוגמה עריכה

נניח כי קצין מודיעין צפה בארבעה טנקים בעלי מספרים סידוריים 2, 6, 7 ו-14. נסמן את מספר הטנקים בהם צפה ב-  ואת המספר הסידורי המרבי שנצפה ב- . מספר הטנקים של האויב, שאותו נסמן ב- , אינו ידוע ואותו רוצים להעריך על פי תצפיות אלו.

הערכה למספר הטנקים של האויב על פי הגישה השכיחותית:

 

לעומת זאת הערכה בייסיאנית של מספר הטנקים:

 

ועל פי ההערכה זו נוכל לאמוד את מספר הטנקים כך:

 

להתפלגות זו צידוד חיובי, הקשור לכך שמספר הטנקים אינו קטן מ-14.

לקריאה נוספת עריכה

  • Johnson, R. W. (Summer 1994). "Estimating the Size of a Population". Teaching Statistics. 16 (2): 50–52. doi:10.1111/j.1467-9639.1994.tb00688.x.

הערות שוליים עריכה

  1. ^ "Gavyn Davies does the maths". The Guardian (באנגלית). 2006-07-19. ISSN 0261-3077. נבדק ב-2016-04-22.
  2. ^ German tanks in WW2, Statistical Consulting Centre
  3. ^ Johnson 1994.