נקדן טקסט – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
Matangor (שיחה | תרומות)
אין תקציר עריכה
שורה 1:
[[תמונה:Nakdan.png|שמאל|ממוזער|250px|תמונת מסך של נקדן טקסט]]
'''נקדן טקסט''' הינההייתה תוכנת [[ניקוד העברית בת ימינו|ניקוד]] אוטומטית שפותחה בשנת [[1996]] על ידי מט"ח ([[המרכז לטכנולוגיה חינוכית]]) כחלק מפרויקט "רב מילים" לניתוח צורני ממוחשב של השפה ה[[עברית]], המאפשרת זיהוי של רוב המילים בעברית בנטיות שונות, כינויים ואותיות שימוש. הפרויקט בוצע בראשותו של פרופסור [[יעקב שויקה]]. כיום שייכת התוכנה לחברת [[מלינגו]], אשר המשיכה לפתח אותה, ומפעילה גרסה עדכנית שלה באתר נקדן מורפיקס.
 
תוכנהתוכנת זונקדן-טקסט שהייתה תוסף ל[[מעבד תמלילים|מעבד התמלילים]] Word, איפשרה לנקד ממילה בודדת ועד מסמך מלא באופן אוטומטי, תוך שהיא בוחרת, במקרה של כמה אפשרויות, את המילה השכיחה ביותר והמתאימה ביותר להקשר. לתוכנה זו ישהיה גם אשף ניקוד ידני, שמאפשרשאפשר לבחור מתוך רשימת מילים מנוקדות, ולנקד מילים באופן חופשי ובקלות. אחוזי ההצלחה בניקוד אוטומטי בתוכנה זו היו גבוהים (לטענת המפתחים: 90% - 95% הצלחה), והיא זכתה בפרס איל"א ליישומי מחשב.
 
בתוכנה זו יש מנגנון ניתוח צורני ופירוק למרכיבים של המילה, בשם "מלי"ם", כך שברשימת המילים המנוקדות ניתן לעשות אבחנה, בין שתי מילים זהות שמנוקדות אחרת, כך למשל כאשר המנקד ניתקל במילה '''וכשמחברותיכם''' הוא יודע האם הוא רוצה את הניקוד של '''ו''' + '''כאשר''' + '''מ''' + '''החברות שלכם''' (רבים), או את הניקוד של אם '''ו''' + '''כאשר''' + '''המחברות שלכם'''.
שורה 17:
אפשר לשים לב שבטקסט, שיש בו 102 מילים, יש כתריסר טעויות מובהקות (מודגשות) ועוד כמה מילים לא מזוהות. למשל, כמה פעמים ניקדה התכנה את המילה "תכנה" עם מפיק באות ה'. בפעם הראשונה ("בתכנה זו") אין כל הצדקה מורפולוגית לכך, שכן לפי ניתוח הצירוף ע"פ ניקוד התכנה עולה כך: תוכן+שלה+זו. צירוף זה בלתי אפשרי בעברית, שכן היה צריך להיות תוכן+שלה+זה. לכן גם בכל הנוגע לזיהוי מורפו-סינטקטי התכנה איננה מושלמת כלל.
מאז נרכשה "נקדן" על ידי חברת מלינגו כמעט לא פותחו בה שינויים ושיפורים לשוניים. שגיאות שונות שהיו עוד בתחילת הדרך נותרו בעינן.
כפי שניתן לראות, הטעויות נובעות מניקודים אפשריים אך לא נכונים בהקשר הנתון. ניתוח ההקשר של התוכנה השתפר במהלך שנות פיתוחה. כיום באתר נקדן מורפיקס, בקטע המנוקד הנ"ל יש 3 טעויות מתוך 102 מילים.
 
דוגמה נוספת: