רשת עצבית מלאכותית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מ דרוג > דירוג (דרך WP:JWB)
החלפת "אקטיבציה" במונח המדעי העברי והמקובל "שפעול"
שורה 58:
*'''חיבורים''' - אופן החיבור בין הנוירונים ברשת
*'''משקלים''' - השיטה הקובעת את משקלי החיבורים בין הנוירונים
*[[פונקציית אקטיבציה|פונקציית האקטיבציההשפעול]], העשויה להיות שונה בכל שכבה (פונקציה לא ליניארית, לרוב logsig או [[סיגמואיד (מתמטיקה)|סיגמואיד]])
רשתות נוירונים מורכבות ממספר רב של יחידות עיבוד פשוטות הנקראות נוירונים, אשר מחוברות באופן היררכי ומובנות בשכבות. השכבה הראשונה נועדה לקלוט מידע לרשת, השכבה האמצעית ידועה כשכבה החבויה (במודלים שונים עשויים להיות יותר מאחת כזו), ולבסוף השכבה האחרונה אשר נועדה להחזיר את המידע המעובד כפלט. הצמתים בכל שכבה מחוברים באופן מלא לצמתים בשכבות הסמוכות באמצעות חיבור ישיר בין הנוירונים, כאשר לכל קשר קיים משקל מסוים. המשקל בכל קשר קובע עד כמה רלוונטי המידע שעובר דרכו, והאם על הרשת להשתמש בו על מנת לפתור את הבעיה. כל צומת בשכבת הקלט (השכבה הראשונה) מייצג תכונה שונה מהמבנה, ושכבת הפלטים מייצגת את הפתרון של הבעיה. בשכבה האמצעית והחיצונית קיימים "ערכי סף" הניתנים לכיול במערכת ממוחשבת, וקובעים את חשיבות הקשרים השונים,{{הערה|שם=Milam1999|1=Milam, 1999{{הבהרה|יש להשלים}}}}
 
שורה 66:
# '''שכבת יציאה''' (Output Layer) - לכל תא בשכבה זו מספר כניסות, כמספר תאי השכבה המוסתרת (Fully Connected). וקטור מוצאי התאים בשכבה זו הוא וקטור היציאה של הרשת. מספר התאים: כמספר ה־Classes.
 
===פונקציית אקטיבציהשפעול===
כמה מהתכונות שעשויות להיות שימושיות לפונקציית אקטיבציהשפעול:
* לא ליניארית - כאשר הפונקציה אינה ליניארית, ניתן להוכיח שרשת עצבית של שתי שכבות היא משערך אוניברסלי. פונקציית הזהות אינה מקיימת את תכונה זו. כאשר מספר שכבות משתמשות באקטיבציהבשפעול של פונקציית זהות, הרשת שקולה למודל של שכבה אחת.
* [[פונקציה גזירה|גזירה ברציפות]] – זו תכונה רצויה המסייעת ל[[אופטימיזציה (מתמטיקה)|אופטימיזציה]] מבוססת גרדיאנט. פונקציה מדרגה בינארית אינה דיפרנציאבילית ב 0, והנגזרת שלה היא 0 עבור ערכים אחרים, ולכן שיטות מבוססות גרדיאנט עשויות להיתקע.
* טווח – כאשר הטווח של פונקציית האקטיבציההשפעול סופי, שיטות אימון מבוססות גרדיאנט נוטות להיות יציבות יותר, כי ייצוג התבנית מושפע מאוד ממשקולות מוגבלים. כאשר הטווח אינסופי, האימון בדרך כלל יעיל יותר כיוון שייצוג תבניות משפיע על רוב המשקולות.
* מונוטונית – כאשר פונקציית האקטיבציההשפעול היא מונוטונית, שטח השגיאה הקשור במודל עם שכבה יחידה מובטח להיות קמור.{{הערה|{{Cite journal|last=Wu|first=Huaiqin|title=Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions|url=http://linkinghub.elsevier.com/retrieve/pii/S0020025509002539|journal=Information Sciences|volume=179|issue=19|pages=3432–3441|doi=10.1016/j.ins.2009.06.006|year=2009}}}}
* קרובות לזהות ליד נקודת הראשית – כאשר פונקציית האקטיבציההשפעול ניחנת בתכונה זו, הרשת לומדת ביעילות כאשר המשקולות מאותחלים לערכים אקראיים קטנים. כאשר תכונה זו לא מתקיימת בפונקציית האקטיבציההשפעול, נדרשת תשומת לב באתחול ערכי המשקולות. בטבלה שלהלן, פונקציות אקטיבציהשפעול שבהן <math>f(0)=0</math> וגם <math>f'(0)=1</math> וגם <math>f'</math> רציפה ב 0 מופיע סימון הרומז על קיום תכונה זו.
 
הטבלה הבאה משווה את התכונות של מספר פונקציות אקטיבציהשפעול:
{| class="wikitable sortable" style="font-size:80%;"
|-
שורה 241:
{{ביאורים}}
 
הטבלה הבאה מרכזת פונקציות אקטיבציהשפעול שאינן פונקציות של משתנה {{mvar|x}} יחיד מהשכבה או השכבות הקודמות:
 
{| class="wikitable sortable"