דילמת האסיר – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
טפיל ==> טפילות
Goliav (שיחה | תרומות)
הוספת ביטוי באנגלית למידה כנגד מידה סלחני
שורה 63:
אחת הסימולציות הראשונות נערכה על ידי רוברט אקסלרוד במהלך שנות השמונים{{הערה|1=[http://www.casos.cs.cmu.edu/education/phd/classpapers/Axelrod_Evolution_1987.pdf The Evolution of Strategies in the Iterated Prisoner's Dilemma], Robert Axelrod{{קישור שבור|22.6.2019}}}}, והתוצאות היו מובהקות לטובת מידה כנגד מידה: לאחר כאלף "דורות" של ריצת הסימולציה מידה כנגד מידה הייתה האסטרטגיה הדומיננטית באוכלוסייה, וגם זו שגדלה בקצב המהיר ביותר. כאמור, אקסלרוד הוא גם זה שערך את הטורניר בין תוכניות המחשב, שגם בו ניצחה אותה אסטרטגיה.
 
הסימולציה של אקסלרוד כללה יחסית מעט אסטרטגיות, ולא כללה תנאי רעש. בתחילת שנות התשעים שני חוקרים, [[מרטין נוואק]] {{אנ|Martin Nowak}} ו[[קארל סיגמונד]] {{אנ|Karl Sigmund}}, פרסמו תוצאות של סימולציות בתנאים יותר מציאותיים שכללו גם רעש ומוטציות. מהסימולציות האלה עלה שהאסטרטגיה היציבה ביותר היא '''מידה תחת מידה סלחנית''' (Generous Tit-for-Tat, ובקיצור GTFT או גם Forgiving Tit For Tat ובקיצור FTfT), שבסיכוי מסוים מגיבה בשיתוף פעולה גם על בגידה של היריב בצעד הקודם{{הערה|1=[http://homepage.univie.ac.at/Karl.Sigmund/Nature92b.pdf Tit for tat in heterogeneous populations], Martin Nowak and Karl Sigmund}}. ה"סלחנות" הזו מאפשרת ל-GTFT להתגבר על מצבים שבהם מידה כנגד מידה הייתה עשויה להיכנס לשרשרת של בגידות הדדיות, כתוצאה מהרעש (שאולי ניתן לפרש כאן כ"אי הבנה").
 
אלא שגם סימולציות אלה היו פשטניות יחסית, משום שהן כללו רק אסטרטגיות שפעלו רק בהתאם לפעולה האחרונה של היריב. לכן בהמשך עבודתם{{הערה|1=[http://www.ped.fas.harvard.edu/people/faculty/publications_nowak/Nature93.pdf A strategy of win-stay, lose-shift that outperforms Tit-for-Tat in the Prisoner's Dilemma game], Martin Nowak and Karl Sigmund{{קישור שבור|22.6.2019}}}}, נוואק וסיגמונד שכללו את הסימולציות שלהם, כך שהן כללו אסטרטגיות שפעלו בהתאם לפעולה האחרונה של היריב ושל עצמן, או בהצגה אחרת, בהתאם לרווח האחרון שהתקבל. אסטרטגיות כאלה ניתנות לתיאור כווקטור ארבע-ממדי, <math>\left[R, S, T, P\right]</math>, המייצג את ההסתברויות לשיתוף פעולה בהינתן שיתוף פעולה הדדי בצעד הקודם (Reward), שיתוף פעולה חד-צדדי שלי (Sucker), בגידה חד-צדדית שלי (Temptation), או בגידה הדדית (Punishment). המונחים בסוגריים הם המונחים המקובלים בספרות. בהצגה הזו, "תמיד בגידה" היא <math>\left[0, 0, 0, 0\right]</math>, מידה כנגד מידה היא <math>\left[1, 0, 1, 0\right]</math>, ומידה כנגד מידה סלחנית היא, למשל, <math>\left[1, 0.3, 1, 0.3\right]</math>. בסימולציות על מרחב האסטרטגיות הזה התקבלו תוצאות מפתיעות: לאחר 10 מיליון דורות, ביותר מ-80 אחוז מהסימולציות שלטה האסטרטגיה <math>\left[1, 0, 0, 1\right]</math>, אותה כינו החוקרים "פבלוב" (Pavlov) על שום התנהגותה הדומה ל[[התניה קלאסית|התניה פבלובית]]: כאשר היא מקבלת את אחת מהתשואות הנמוכות היא משנה את התנהגותה, וכאשר היא מקבלת את אחת מהתשואות הגבוהות היא נשארת עם אותה התנהגות. רק אחוז קטן מהסימולציות הסתיימו עם דומיננטיות של GTFT.