זיהוי תווים אופטי – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Matanyabot (שיחה | תרומות)
מ בוט החלפות: לעיתים
שורה 3:
'''זיהוי תווים אופטי''' (ב[[אנגלית]]: '''Optical Character Recognition'''; ב[[ראשי תיבות]]: '''OCR''') היא טכנולוגיה להמרת [[קובץ תמונה|תמונה]], טקסט מודפס וכתב יד שנסרקו על ידי [[סורק]], למסמך [[כתב|תמליל]] [[מחשב אישי|ממוחשב]].
 
תוכנות לזיהוי תווים אופטי, מתמודדות על פי רוב בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך [[דפוס|מודפס]] אך רק לעתיםלעיתים נדירות גם ב[[כתב יד (כתב)|כתב יד]]. התהליך כרוך בזיהוי [[תו (מחשב)|תו]] אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).
 
==שיטות של זיהוי תווים אופטי==