Attention (בינה מלאכותית)

Attention (בעברית: קשב) היא טכניקה המשמשת לשיפור ביצועים באימון של רשתות נוירונים, שנועדה לחקות קשב קוגניטיבי באמצעות חיזוק המידע הרלוונטי ביותר מתוך כלל המידע, והחלשת המידע הפחות רלוונטי. המטרה היא לאפשר לרשת הנוירונים להתרכז במידע החשוב גם אם הוא מהווה רק חלק קטן מהמידע.

הנפשה של תהליך העברת המידע בתוך הattention

טכניקות דמויות attention הופיעו עוד בשנות התשעים בתור multiplicative modules אך הגרסה המודרנית הופיעה בשנת 2017 במאמר "Attention Is All You Need".^[1] מאז פרסום המאמר, השימוש בטכניקה התפשט, והיום היא מהווה טכניקה מרכזית באימון של רשתות נוירונים.

אופן פעולה

השימוש ב-attention יכול לעזור ליצור הקשר, למשל במשפט "מיכאל הכי מהיר בגן, ראו כמה מהר הוא רץ" ה-attention יכול להבין שהמילה "הוא" היא מאזכר למיכאל שהוזכר בתחילת המשפט. Attention יכול גם לשמש לקישור של תמונות לטקסט, כמו במודלים גנרטיביים מסוג מודל דיפוזיה, כך שאפשר להגיד למודל לייצר תמונה של קוף בחליפת חלל לדוגמה.

Self-Attention (קשב עצמי) X- מטריצה בגודל 4x300 המייצגת קידוד של המשפט כולו

Q_{W}

- משקולות של הquery,

K_{W}

- משקולות של הkey ,

V_{W}

- משקולות של הvalue

השמות query, key ו - value נועדו לדמות את המונחים מ - sql. אפשר להאיץ את מהירות החישוב מאוד ע"י הרצת כמה ראשי attention במקביל.

קישורים חיצוניים

דוגמת קוד של attention, באתר (machine learning mastery)
הסבר על attention בעברית, באתר (ai blog)

הערות שוליים

^ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Attention Is All You Need, Arxiv, ‏2017

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Attention Is All You Need, Arxiv, ‏2017

[1]