פונקציית אקטיבציה

פונקציית אקטיבציה של נוירון ברשת עצבית מלאכותית היא פונקציה מתמטית המחשבת את הפלט של הנוירון ביחס לקלטים שהוא מקבל ולמשקלם. פונקציות האקטיבציה הן מרכיב מרכזי ברשתות נוירונים, שהן צורת המימוש הנפוצה של מערכות בינה מלאכותית מודרנית.^[1] לפונקציה הנבחרת יש השפעה על ביצועי הרשת, ועל ההתאמה שלה לביצוע המשימה שעליה אומנה.^[1]^[2]^[3]

מטרת הפונקציה היא לקבוע את עוצמת הפלט של הנוירון, ביחס לקלט שקיבל. ההשראה לאופן הפעולה של פונקציות אקטיבציה התקבלה מאופן הפעולה של תאי העצב במוח, אשר הפלט שלהם נקבע בהתאם לפוטנציאל הפעולה.^[4]^[5]^[6]

נוירון ברשת נוירונים מלאכותית פועל כפרספטרון (אלגוריתם בסיסי בתחום למידת המכונה), כך שהוא מקבל וקטור קלט, מכפיל אותו בווקטור משקולות שנלמד בזמן האימון. לאחר מכן נקבע פלט הנוירון באמצעות העברת תוצאת המכפלה בפונקציית האקטיבציה.^[7]^[8]

מטרה נוספת של פונקציית האקטיבציה היא להכניס אי-ליניאריות לרשת, ולכן הפונקציות הנמצאות בשימוש רווח הן פונקציות לא ליניאריות, או פונקציות שיש בהן אלמנט כלשהו של אי ליניאריות.^[9]

פונקציית אקטיבציה לא ליניארית מאפשרת לפתור בעיות לא טריוויאליות באמצעות חיבור של מספר קטן של צמתים.^[10] פונקציות האקטיבציה המודרניות כוללות את ReLU ששימשה במודל הראייה הממוחשבת AlexNet מ-2012,^[11]^[12] את GELU ששימשה במודל BERT שאומן על ידי Google ב-2018,^[13] ואת הפונקציה הלוגיסטית סיגמואיד ששימשה במודל זיהוי דיבור משנת 2012 שפותח על ידי הינטון.^[14]

השוואה בין פונקציות אקטיבציה

מלבד הביצועים האמפיריים שלהן, לפונקציות האקטיבציה יש גם תכונות מתמטיות שונות. לכל תכונה יש השפעה כלשהי על אימון הרשת, וישנן תכונות נוספות שעשויות להשפיע עליה.^[15]

ליניאריות ואי ליניאריות

על פי משפט הקירוב האוניברסלי (אנ'), רשת עצבית דו-שכבתית שמשתמשת בפונקציית אקטיבציה לא ליניארית, יכולה לקרב כל פונקציה.^[16] כאשר הנוירונים ברשת משתמשים בפונקציית אקטיבציה ליניארית, הרשת כולה שווה ערך לרשת חד-שכבתית בשל תכונות הליניאריות.^[15]^[17]

טווח

כאשר פונקציית האקטיבציה חסומה, שיטות אימון מבוססות גרדיאנט נוטות להיות יציבות יותר, מכיוון ששינוי בקלט משפיע על המשקולות באופן מוגבל בכל צעד. כאשר הפונקציה לא חסומה, האימון בדרך כלל יעיל יותר מכיוון שקלטים מסוים עשויים להשפיע בצורה חזקה יותר על השינוי במשקולות. במקרה כזה, נדרש בדרך כלל שימוש ב-learning rate (אנ') קטן יותר.^[15]

פונקציות שהשיפוע שלהן באינסוף לא שואף לאפס, כלומר לא מתקיים $\lim _{|v|\to \infty }|\nabla f(v)|=0$ , מתאימות להתמודדות עם בעיית הגרדיאנט הנעלם (אנ') דוגמה לפונקציה כזו היא ReLU.^[18]

גזירות ברציפות

בשימוש בשיטות אופטימיזציה מבוססות גרדיאנט רצוי שהפונקציה תהיה גזירה ברציפות. פונקציית המדרגה (פונקציה שנותנת 0 לכל ערך שקטן מ-0, ו-1 לכל ערך שגדול מ-0)^[19] אינה גזירה ב-0, והנגזרת שלה היא 0 לכל ערך אחר, ולכן שיטות מבוססות גרדיאנט לא יכולות לבצע את השיפורים שלהם בהתבסס עליה.^[20]

פירוט מתמטי

ניתן לחלק את פונקציות האקטיבציה הנפוצות ביותר לשלוש קטגוריות: פונקציות ridge, פונקציות רדיאליות ופונקציות אגרגציה.

פונקציות ridge

השוואה בין פונקציית ReLU לבין פונקציית GELU.

פונקציות ridge (אנ') הן פונקציות מרובות משתנים הפועלות על צירוף ליניארי של משתני הקלט.^[21] דוגמאות לפונקציות נפוצות הן:

פונקציה ליניארית: $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ,
פונקציית ReLU: $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ ,
פונקציית מדרגה: $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ ,
פונקציה לוגיסטית: $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ .

ברשתות עצביות ביולוגיות, פונקציית האקטיבציה היא בדרך כלל הפשטה המייצגת את הדחף עצבי בנוירון.^[5] בצורתה הפשוטה ביותר, הפונקציה היא בינארית, כלומר הנוירון יכול לבחור האם להוציא פלט או לא. עוצמת הפלט של נוירונים חסומה, ופונקציות שמחקות את ההתנהגות הזו בצורה מהימנה הן פונקציות שהטווח שלהן הוא מרחב סופי, כמו סיגמואיד.^[22]^[23]

פונקציות רדיאליות

פונקציות רדיאליות (אנ') נמצאות ברשתות מסוג RBF (אנ'), שיעילות בקירוב אוניברסלי של פונקציות. פונקציה בשימוש נפוץ היא פונקציית גאוס, $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$ , כאשר $\mathbf {c}$ הוא הווקטור המייצג את מרכז הפונקציה ו- $a$ ו- $\sigma$ הם פרמטרים המשפיעים על רדיוס הגאוסיאן.^[24]

פונקציות אגרגציה

פונקציות אגרגציה (אנ') נמצאות בשימוש נרחב בשכבת האגרגציה (pooling) ברשתות קונבולוציה, ובשכבת הפלט של רשתות סיווג בעלות מספר מחלקות. הפונקציות האלה מבצעות אגרגציה על הקלט, למשל בחירת הממוצע, המינימום או המקסימום.^[25]^[26] בסיווג מרובה מחלקות, נעשה שימוש בפונקציית סופטמקס שיוצרת התפלגות מהקלט שהתקבל, כלומר מייצרת וקטור שסכומו 1.^[27]^[28]

פונקציות אקטיבציה נפוצות

שם	משוואה, $g\left(x\right)$	נגזרות, $g'(x)$	טווח	סדר גזירות
פונקציית הזהות	$x$	$1$	$(-\infty ,\infty )$	$C^{\infty }$
פונקציית מדרגה	${\begin{cases}0&{\text{if }}x<0\\1&{\text{if }}x\geq 0\end{cases}}$	$0$	$\{0,1\}$	$C^{-1}$
טנגנס היפרבולי	$\tanh(x)\doteq {\frac {e^{x}-e^{-x}}{e^{x}+e^{-x}}}$	$1-g(x)^{2}$	$(-1,1)$	$C^{\infty }$
ReLU (אנ')^[29]	${\begin{aligned}(x)^{+}\doteq {}&{\begin{cases}0&{\text{if }}x\leq 0\\x&{\text{if }}x>0\end{cases}}\\={}&\max(0,x)=x{\textbf {1}}_{x>0}\end{aligned}}$	${\begin{cases}0&{\text{if }}x<0\\1&{\text{if }}x>0\end{cases}}$	$[0,\infty )$	$C^{0}$
GELU (Gaussian Error Linear Unit)^[30]	${\begin{aligned}&{\frac {1}{2}}x\left(1+{\text{erf}}\left({\frac {x}{\sqrt {2}}}\right)\right)\\{}={}&x\Phi (x)\end{aligned}}$	$\Phi (x)+x\phi (x)$	$(-0.17\ldots ,\infty )$	$C^{\infty }$
Leaky ReLU^[31]	${\begin{cases}0.01x&{\text{if }}x\leq 0\\x&{\text{if }}x>0\end{cases}}$	${\begin{cases}0.01&{\text{if }}x<0\\1&{\text{if }}x>0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$
גאוסיאן	$e^{-x^{2}}$	$-2xe^{-x^{2}}$	$(0,1]$	$C^{\infty }$
סופטמקס (אנ')	${\frac {e^{x_{i}}}{\sum _{j=1}^{J}e^{x_{j}}}}$ לכל $i=1,...,j$	$g_{i}\left({\vec {x}}\right)\left(\delta _{ij}-g_{j}\left({\vec {x}}\right)\right)$	$(0,1)$	$C^{\infty }$
Maxout^[32]	$\max _{i}x_{i}$	${\begin{cases}1&{\text{if }}j={\underset {i}{\operatorname {argmax} }}\,x_{i}\\0&{\text{if }}j\neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$