תרגום מכונה – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מ מיותר
מ הסרת קישורים עודפים
שורה 1:
'''תרגום מכונה (Machine Translation – MT)''' הוא פעולת [[תרגום]] מ[[שפה]] אחת לשפה אחרת המבוצעת על ידי [[תוכנה|תוכנת]] [[מחשב]]. התוכנה [[קלט|קולטת]] נוסח (לרוב טקסט כתוב) בשפה אחת, הנקראת שפת המקור, ו[[פלט|פולטת]] תרגום של נוסח זה בשפת היעד. תרגום מכונה נקרא גם "תרגום ממוחשב", "תרגום אוטומטי", או "תרגום באמצעות מחשב".
 
תרגום מכונה הוא אחד מהנושאים הראשונים שהתעניינו בהם ב[[מדעי המחשב]]. אף שתרגום באמצעות מכונה הוא יעד חמקמק, כיום ישנן כמה מערכות המועילות לצרכים מסוימים. הענף במדעי המחשב העוסק בתרגום מכונה ובסוגיות דומות נקרא "[[עיבוד שפה טבעית]]" (Natural Language Processing - NLP).
 
המונח '''תרגום מכונה''' מתייחס לתרגום של טקסטים שלמים, ולא של מילים בודדות. תוכנה לתרגום של מילים בודדות נקראת לעיתים [[מילון]] ממוחשב, משום שהמבנה שלה דומה למילון דו-לשוני מודפס. תרגום מילים הוא מלאכה פשוטה יחסית, ותוכנות מסחריות כמו [[בבילון]] ואחרות מבצעות אותה בהצלחה רבה. התוכנות מציעות בדרך כלל מספר תרגומים אפשריים לכל מילה.
 
תרגום טקסטים שלמים הוא משימה קשה לאין שיעור, משום שלא די בו במציאת התרגומים האפשריים של כל מילה, אלא נדרשת הבנה של המשמעות הנכונה בהקשר. על הקושי שבביצוע משימה זו ניתן ללמוד מהסיפור (הבדיוני, כנראה) הבא:
:תוכנת תרגום התבקשה לתרגם מאנגלית לרוסית את המשפט (שמקורו ב[[הברית החדשה|ברית החדשה]]) The spirit is willing but the flesh is weak ("הן הרוח חפצה והבשר רפה"). כדי לבדוק את נכונות התרגום התבקשה התוכנה לתרגם את פרי עמלה חזרה מרוסית לאנגלית, והתוצאה שפלט המחשב הייתה The vodka is good but the meat is rotten (ה[[וודקה]] טובה אבל ה[[בשר]] רקוב).
 
כיום, רוב מערכות תרגום המכונה מייצרות "תרגום גרעיני", כלומר תרגום שנותן את עיקרו של טקסט המקור, אך לבד מזה הוא אינו שמיש. על מנת להפוך את התרגום לטקסט שימושי בשפת היעד נדרשת התערבות אנושית - עריכה לפני התרגום ואחריו. אולם בתחומים שבהם [[אוצר מילים|אוצר המילים]] מוגבל ומבנה המשפטים פשוט, למשל בדיווחים [[מטאורולוגיה|מטאורולוגיים]], תרגום מכונה יכול להניב תוצאות טובות.
 
[[קובץ:Direct translation and transfer translation pyramid.svg|ממוזער|350px]]
שורה 21:
 
==הקדמה==
אפשר לומר שתהליך התרגום מורכב משני שלבים:
#הבנת משמעותו של טקסט המקור
#ניסוח מחדש בטקסט היעד
 
כאשר אדם מתרגם, מאחורי התהליך הפשוט הזה עומד מבצע [[חשיבה|קוגניטיבי]] מורכב. על מנת להבין את משמעות טקסט המקור כולו, על המתרגם לפרש ולנתח את כל המאפיינים של הטקסט, תהליך שמצריך ידע ב[[דקדוק]], ב[[סמנטיקה]], ב[[תחביר]] ובביטויים של שפת המקור, וכן לעיתים הכרה של ה[[תרבות]] של דוברי השפה. על מנת לנסח מחדש את הטקסט בשפת היעד, המתרגם זקוק לידע דומה בשפה זו.
 
כאן מצוי האתגר של תרגום מכונה: כיצד לתכנת מחשב, כך ש"יבין" את הטקסט כמו אדם, וגם יצור טקסט חדש בשפת היעד ש"נשמע" כאילו נכתב בידי אדם.
 
לבעיה זו אפשר לגשת בכמה צורות.
שורה 33:
==גישות בלשניות==
פעמים רבות נטען, כי ההצלחה של תרגום מכונה תלויה בפתירת הבעיה של [[עיבוד שפה טבעית|הבנת שפה טבעית]] בידי אדם לפני כן. אולם, ישנן כמה שיטות המשמשות במציאת פתרון בתרגום מכונה, הכוללות:
 
*שיטות חיפוש [[מילון|מילוניות]]
*שיטות מבוססות [[שפה|לשון]]
שורה 41 ⟵ 40:
*שיטות המבוססות על חוקים לשוניים
 
באופן כללי, שיטות המבוססות על חוקים (שלוש הראשונות) מנתחות את הטקסט, כשהן בדרך כלל משתמשות בייצוג [[סמל|סימבולי]] מגשר, שממנו הטקסט בשפת היעד מיוצר. שיטות אלה מצריכות לקסיקונים נרחבים עם [[מידע]] [[מורפולוגיה (בלשנות)|מורפולוגי]], [[תחביר|תחבירי]]י ו[[סמנטיקה|סמנטי]], ועם חוקים רבים.
 
שיטות המבוססות על סטטיסטיקה ועל דוגמאות, אינן משתמשות בלקסיקונים ובחוקים, אלא מנסות ליצור תרגומים בהתבסס על טקסטים דו-לשוניים ארוכים, כגון הרשימות ה[[אנגלית|אנגליות]]-[[צרפתית|צרפתיות]] של ה[[פרלמנט]] ה[[קנדה|קנדי]]. ניתן להגיע לתוצאות מרשימות בשיטות כאלה, אך טקסטים דו-לשוניים בגודל כזה נדירים מאוד.
 
אם יש להן די מידע, רוב תוכנות תרגום המכונה עובדות די טוב על מנת שדובר שפה אחת יוכל להבין בערך את משמעות דבריו של הדובר בשפה השנייה. עם זאת, קיים קושי להשיג את המידע הנדרש על מנת לתמוך בשיטה מסוימת. הכמות הגדולה של הטקסט הנדרשת לשיטות הסטטיסטיות אינה נצרכת בשיטות הלשוניות, אך הן מצריכות בלשן מומחה שיעצב את החוקים הלשוניים שהתוכנה משתמשת בהם.
 
==היסטוריה של תרגום מכונה==
הניסיונות הראשונים לתרגום מכונה נעשו במחצית השנייה של [[שנות ה-40 של המאה ה-20|שנות ה-40]]. הולדת התחום מיוחסת ל[[מזכר]] שהפיץ מתמטיקאי אמריקאי בשם [[וורן ויבר]] (Warren Weaver), שהתווה קוים למחקר בתחום. בין ראשוני התחום היה המתמטיקאי והלוגיקן הישראלי [[יהושע בר-הלל]], שעסק בנושא זה ב-[[MIT]], ושבשנת [[1952]] הוביל את הכנס הבינלאומי הראשון בנושא זה. הנחת העבודה הייתה שניתן יהיה לייצר, תוך זמן קצר, תוכנות שיתרגמו בצורה סבירה טקסטים בתחומים ממוקדים, כגון, טקסטים מדעיים וטכניים. הצלחת המחשב בפתרון בעיות [[לוגיקה|לוגיות]] סבוכות, ובייחוד בשבירת [[צופן|צפנים]], עודדה את העוסקים בתחום.
 
ב-[[7 בינואר]] [[1954]] ההצגה הראשונה של מערכת תרגום מכונה נערכה במשרד הראשי של [[יבמ]] ב[[ניו יורק]]. דווח עליה באופן רחב ב[[עיתון|עיתונות]], והיא משכה תשומת לב ציבורית רבה. אך המערכת עצמה הייתה רק מערכת "[[צעצוע]]", במונחים של היום, וכללה 250 [[מילה (בלשנות)|מילים]] בלבד. היא תרגמה 49 משפטים נבחרים מ[[רוסית]] ל[[אנגלית]], בעיקר בתחום ה[[כימיה]]. האירוע אישש את ההנחה שתרגום מכונה נמצא בהישג יד, והביא להגדלת ה[[מימון]] של מחקר תרגום מכונה ב[[ארצות הברית]] ובעולם כולו.
 
ההתקדמות המוגבלת של המחקר בתחום בשנים שלאחר מכן הביאה את ממשלת ארצות הברית למנות, בשנת [[1966]], ועדה מיוחדת לבדיקת הנושא. הוועדה הביעה ספק בקשר לאפשרויות ההצלחה של התחום, ובעקבות מסקנותיה קוצצו כמעט לחלוטין תקציבי המחקר בתחום ב[[ארצות הברית]], והפעילות המחקרית והאקדמית ננטשה. עם זאת, במשך [[שנות ה-70 של המאה ה-20|שנות ה-70]] וה-[[שנות ה-80 של המאה ה-20|80]] פותחו תוכנות מסחריות בתחום, בעיקר ב[[אירופה]] וב[[יפן]]. לדוגמה, מערכת התרגום Systran, שנמכרת מאז שנות ה-70 ונחשבת עדיין לאחת המערכות המצליחות בתחום. במקביל, נעשה שימוש בתרגום מכונה במערכות צבאיות ומודיעיניות. במערכות התרגום הרציניות הראשונות השתמשו ב[[המלחמה הקרה|מלחמה הקרה]] על מנת לנתח מאמרים [[מדע|מדעיים]]יים רוסיים. התרגומים הכלליים שהושגו, הספיקו על מנת להבין את נושא המאמר ואת עיקרו, ואם המאמר עסק בנושא שהיה עשוי להיות מעניין מבחינה ביטחונית, הוא הועבר למתרגם אנושי; אם לא, הוא הושלך.
 
בסוף שנות ה-80 של המאה ה-20 התחדשה הפעילות המחקרית בתחום במקומות שונים בעולם. ירידת המחירים הגדולה של המחשבים והשיפור הגדול בעוצמתם, העמידו לרשות החוקרים משאבי חישוב עצומים ביחס למה שהיה זמין ב[[שנות ה-60]]. הדבר איפשר התפתחות גישות חדשות בתחום, בייחוד תרגום מכונה סטטיסטי וגישות דומות. ההישגים הראשונים שהושגו בגישות אלה, עודדו רבים לפנות לתחום ולתרום להתפתחותו. במקביל, התפתחות המחשבים האישיים הביאה את תרגום המכונה לציבור הרחב, והפופולריות של ה[[אינטרנט]] הגבירה מאוד את הביקוש לו.
 
מבחינה מחקרית, השנים האחרונות מתאפיינות בהתקדמות לשילוב של גישות שונות לתחום של תרגום מכונה, על מנת לשפר את ההישגים מעבר למה שהושג בכל תחום בנפרד. מבחינה מעשית, השנים האחרונות מתאפיינות בהרחבה של שירותי תרגום המכונה הזמינים באופן מסחרי או חופשי.
 
=== עתיד תרגום המכונה ===
החוקרים חלוקים ביניהם בשאלה האם תרגום מכונה מושלם ללא סיוע אנושי יהיה אפשרי אי פעם בעתיד. לדוגמה, פרופ' [[יעקב שויקה]] מ[[אוניברסיטת בר-אילן]], מראשוני החוקרים בתחום [[בלשנות חישובית|הבלשנות החישובית]] ב[[ישראל]], העריך שתרגום מכונה מלא אינו אפשרי, וכי ייתכן שבעתיד אף יימצא חוק מדעי שמגדיר את רמת הדיוק שאפשר להגיע אליה בתרגום אוטומטי. גם מי שאופטימי מעריך שייקחו עוד שנים רבות של מחקר לפתרון הבעיה. למרות זאת, יש צפי להתפתחות רבה של התחום שתשפר את יכולתו לסייע במצבים שבהם תרגום אנושי הוא יקר מדי, או איטי מדי.
 
בספרו של [[דאגלס אדמס]] [[מדריך הטרמפיסט לגלקסיה (ספר)|מדריך הטרמפיסט לגלקסיה]] מוצג "[[דג בבל]]", שנעיצתו באוזן מאפשרת שמיעה חופשית של כל שפה. על שמו של יצור זה קרוי פרויקט Babel Fish של [[Yahoo|!Yahoo]], המתרגם טקסטים שאותרו ב[[אינטרנט]].
 
==שימוש בתרגום מכונה כיום==
למרות מגבלותיהן, תוכנות תרגום מכונה נמצאות בשימוש על ידי ארגונים שונים בכל העולם. המשתמש הגדול ביותר הוא כנראה [[האיחוד האירופי]], שמשתמש בגרסה משופרת של מערכת SYSTRAN, על מנת לעזור בתרגום אוטומטי של כמות גדולה של טיוטות ראשוניות של מסמכים לשימוש פנימי.
 
באפריל [[2003]] החלה [[מיקרוסופט]] להשתמש במערכת תרגום מורכבת, על מנת לתרגם את מאגר מסמכי התמיכה הטכנית שלה מ[[אנגלית]] ל[[ספרדית]]. התוכנה פותחה על ידי קבוצת המחקר לשפה טבעית של מיקרוסופט. הקבוצה בוחנת מערכת [[אנגלית]]-[[יפנית]] ומעלה מערכות [[אנגלית]]-[[צרפתית]] ו[[אנגלית]]ואנגלית-[[גרמנית]]. שתי המערכות האחרונות משתמשות ברכיב של [[למידה]] עצמית של שפה, ואילו לשתי הראשונות יש מערכות יצירת שפה שפותחו באופן ידני. המערכות פותחו והוכשרו על ידי מאגרי מידע של מעל למיליון משפטים כל אחת.
 
===תרגום מכונה לעברית ומעברית===
בתוכנה [[בבילון]] משולבת החל מגרסה 6.0 תוכנה לתרגום מלא של טקסט מעברית לאנגלית ומאנגלית לעברית. התוכנה [[תרגומטיק]] מציעה תרגום אוטומטי מאנגלית לעברית. החל מספטמבר 2008, אתר [[גוגל תרגום]] מציע תרגום אוטומטי מכל שפה אשר מוצעת על ידי האתר לכל אחת מהשפות האלו (וביניהן עברית).
 
====דוגמאות של תרגום מכונה לעברית====
שורה 82 ⟵ 81:
|}
 
ניתן לראות שהתוכנה פה ושם שגתה שגיאות שגרמו לשינוי תוכן, ולעיתים לשגיאות סגנוניות. במקרה הזה עיקר התוכן עבר, אולם יש כמה שגיאות שעלולות להכשיל אדם שאינו די בקיא בנושא המאמר:
 
*British administered Palestine - ביטוי זה שמתייחס למעשה ל[[המנדט הבריטי|מנדט הבריטי]] על פלשׂתינה (א"י), תורגם באופן שמקשה מאוד על הבנתו. רק הכרות קרובה עם ההיסטוריה של ארץ ישראל מאפשרת לקורא לשחזר את הצירוף המקורי מתוך התרגום.
*"כוחות של הגנה של ישראל" - הכוונה ל"צבא ההגנה לישראל" שנקרא באנגלית "Israel Defence Forces" ("כוחות ההגנה של ישראל"). המדובר למעשה בצירוף כבול שתורגם מילולית. קורא שאינו די בקיא בנושא עלול שלא להבין כי המדובר בצבאה של מדינת ישראל.
שורה 108 ⟵ 106:
גורן, '''יליד גורנצ'יק''', נולד בזמברו שבפולין ועלה לארץ ישראל עם משפחתו ב -1925. הוא שירת בצה"ל שלוש מלחמות, כתב מספר ספרים עטורי פרסים על ההלכה היהודית, ונתמנה לרב הראשי של תל אביב בשנת 1968. הרב גורן כיהן כרב ראשי לישראל בשנים 1973-1973, ולאחר מכן הקים ישיבה בירושלים, '''שאותה''' עמד בראשותו עד מותו.
|}
ביחס לתרגום משנת 2015 שופר התרגום רבות, יחד עם זאת ניתן לראות שאף בגרסה העדכנית ייתכנו טעויות דקדוקיות.
*ניתן לראות שהמילים "born Gorenchik" תורגמו ל- "יליד גורנצ'יק" למרותאף על פי שפירוש המילים המקורי הינו: "נולד בשם גורנצ'יק". אלו שאינם בקיאים ב[[ביוגרפיה]] של הרב גורן עלולים לטעות ולחשוב שמדובר במקום מגוריו בתקופת חייו המוקדמת.
ניתן להניח שאף הגרסה של [[בבילון]] שודרגה גם היא ורמת הדיוקים שלה עלתה.