זיהוי תווים אופטי – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
שורה 43:
תוכנות זיהוי מתוחכמות בנויות כ[[רשת עצבית]], שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות – גופן הדפסה, גודל אות, [[אוצר מילים]] ועוד.
 
== זיהוי כתב יד בשיטות המסורתיות==
בזיהוי כתב יד אי אפשר להשתמש ב[[אלגוריתם]] המשווה את מאפייני האות ל[[גופן]]. לכן משתמשים בשיטות זיהוי אחרות (עיין ערך [[זיהוי כתב]]
). אחת מהשיטות (כנראה בין הקלות ביותר ל[[תכנות]] ולהבנה, מושפעת מרעיונות של [http://videolectures.net/mlss09uk_bishop_ibi/ כריסטופר בישופ] ) היא יצירת תמונה בצורת [[מלבן]] (בשחור לבן) של מופעים שונים של אותה אות כתב, לדוגמה : כל שורה מכילה 10 מופעים שונים (תמונות) של אותה אות, וכל שורה מתאימה לאות שונה. כל מופע של אות חסום במלבן (או ב[[מעגל חוסם|מעגל]]),ומתוח לגובה ולרוחב כך שהוא יתאים בדיוק לגודל מלבן המופע. כל המלבנים בשורה גודלם קבוע, והם נמצאים במקום קבוע בתמונה. צבע מופע האות במלבן: שחור, צבע המלבן: לבן, וצבע הרקע: שחור. כדי למצוא מה מאפיין כל אות, ה[[תוכנה]] מחשבת בזמן הלימוד (השלב האיטי), כמה פעמים נחתכת האות על ידי קו ישר העובר בין שתי נקודות על מלבן החוסם את האות. התוכנה בונה [[קובץ]] של מספרים שלמים, המכיל את התכונות הטובות ביותר להבדלה בין אות אחת לשנייה. לדוגמה: תכונה מספר 1234 הוא קו החותך את כל מופעי האות שמספרה 15, 3 פעמים, ואת מופעי האות שמספרה 7, 0 פעמים. בזמן הזיהוי (השלב המהיר) התוכנה יוצרת מלבן חוסם סביב תמונת אות המיועדת לזיהוי, קוראת את קובץ התכונות הטובות ביותר, טוענת את תוכנו ב[[מערך (מבנה נתונים)|מערך]], ובודקת כמה פעמים נחתכת האות על ידי הקווים המגדירים את התכונות הטובות ביותר, ולפי הנתונים הללו בודקת לאיזו אות התמונה הזאת מתאימה ביותר.