זיהוי תווים אופטי – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
שורה 52:
*טעינת הקובץ למערך לכאורה היא מיותרת, ומבזבזת זמן ומקום ב[[זיכרון מחשב|זיכרון]] המחשב. אבל תהליך החיפוש, מהיר במערך מאשר בקובץ.
*המערך הוא רב ממדי, בעל 4 ממדים : 2 הממדים הראשונים היא [[מטריצה ריבועית]] באורך ורוחב של מספר האותיות, בה כל אות מושוות לאות אחרת. הממד הבא הוא מספר התכונות הכי חשובות (נניח: עד 3 תכונות מבדילות באופן מוחלט בין 2 אותיות). הממד הבא אורכו 3 מספרים: מספר התכונה לדוגמה: ישר מספר 1234, הציון שניתן לאות נניח : 2 שמשמעותו חותך את האות 2 פעמים, והמספר השלישי הציון שניתן לאות המושוות , נניח: 0 , שמשמעותו: חותך את האות 0 פעמים.
*כשנותנים לתוכנה לחשב באופן אוטומטי מה הן 3 התכונות עם הציון הכי טוב, היא נוטה למצוא 3 ישרים הקרובים זה לזה, ובדרך כלל מיצגים את אותה התכונה, ולכן כדי למצוא את 3 התכונות הכי טובות נהוג לכתוב [[שגרה (תכנות)|שגרה]], הבוחרת 3 ישרים המחברים נקודות רחוקות יחסית.
*לכל אות נותנים 10 מופעים כמה שאפשר שונים יותר, כדי שהתוכנה תלמד את התכונות המשותפות, ולא תגדיר אות על ידי תכונה מטעה. לדוגמה : נניח שבכל 10 המופעים של האות - 'ג' בכתב, האות נכתבה כשהחלק העליון שלה נוטה ימינה. בשלב הלימוד התוכנה תיצור קו המקשר שתי נקודות: נקודה על ה[[צלע (גאומטריה)|צלע]] העליונה של המלבן החוסם את האות, קרוב לפינה הימנית עליונה, ונקודה על אמצע ה[[צלע (גאומטריה)|צלע]] הימנית של המלבן. בכל המופעים האות - 'ג' לא תיחתך, כתוצאה מכך התוכנה תלמד שהאות - 'ג' חלקה העליון נוטה ימינה. ולכן התוכנה לא תצליח לזהות 'ג' שחלקה העליון קו אנך (אות - 'ג' רגילה).
*אם אחד ממופעי האות הוא כל כך שונה, שהוא נראה כאילו הוא אות אחרת, הוא לא יאפשר לתוכנה ללמוד את התכונות המאפיינות את האות. במקרה כזה צריך ליצור בתמונת המופעים, שתי שורות המגדירות את אותה אות : שורה של המופעים הרגילים של אותה אות, ושורה של מופעים הדומים למופע השונה.