ויקיפדיה:בוט/תיקון מקפים ממוכן

בדף זה מרוכזת העבודה לתיקון ממוכן של מקרים בהם יש צורך במקף, אך הוא חסר, השימוש בו לא נכון, או מופיע במקומו קו מפריד.

הקדמהעריכה

ויקיפדיה מלאה בטעויות שנוגעות לשימוש שגוי במקף ובקו מפריד.

הנה מספר דוגמאות:

  • יצחק שמיר - נולד ב-15 באוקטובר 1915 במקום נולד ב־15 באוקטובר 1915
  • POP3 - לPOP3 וגם ו- POP2 במקום ל־POP3 וגם ו־POP2

אפשרי שחלק מהוויקיפדים כלל לא רואה את ההבדל, שכן שני תווים אלו נראים זהים בגופנים מסויימים (לפעמים נדמה שטיפוגרפיה היא הדבר היחיד בשפה העברית שלא קם לתחייה).

אין כמובן אפשרות לתקן טעויות אלו ידנית, אלא אם יוקם האסם הגדול בהיסטוריה (מעל 110,000 תיקונים). אך מדוע להקים אסם, כשמחשב יכול לבצע את התיקונים הנדרשים ברמת דיוק טובה, אולי אפילו טובה מאד.

שלבי עבודהעריכה

כדי לבצע תיקון כזה בצורה ממוכנת, יש להשלים מספר שלבים:

  1. אפיון סוגי הטעויות והתיקונים הנדרשים עבור כל סוג טעות.
  2. פיתוח ובדיקה נרחבת של כלי או כלים לגילוי הטעויות ותיקונן, תוך הבאה בחשבון של קוד־ויקי.
  3. אישור שימוש בכלי כזה בויקיפדיה:בוטים/בוט החלפות/אולם דיונים.
  4. שילוב הכלי הנ״ל בבוט עריכה, והרצתו.

דיונים והתיחסויותעריכה

דיונים, התיחסויות, שאלות, וכל טוב בדף השיחה.

אפיון הטעויות והתיקונים להןעריכה

להלן מספר כללים:

  • בין ביטוי בעייתי לבין מספר יופיע מקף.
  • בין ביטוי בעייתי לבין מילה בשפה שנכתבת ב"כתב אחר" יופיע מקף.
  • בין ביטוי בעייתי לבין ביטוי במרכאות יופיע מקף.
  • מקף יופיע תמיד ללא רווחים לפניו ולאחריו.

"ביטוי בעייתי" לצורך זה הוא ארבעת אותיות בכל״מ בתוספת ה״א הידיעה ו־ו״ו החיבור, וכל צרוף תקין שלהן, לדוגמא 'וה־', 'כש־' וכו׳. ראו גם הערך אודות אותיות השימוש.

בנושא זה פעלתי על פי כללים שאני מכיר. בקיאים ממני בכללי הפיסוק מוזמנים כמובן להעיר. הא? 19:42, 9 ינואר 2006 (UTC)

פיתוח ובדיקהעריכה

הוויקיפד אסף השקיע מספר שעות ביצירת ובדיקת ביטוי רגולרי, שימצא מקרים בהם חסר מקף (בין אם מופיע קו מפריד במקומו, ובין אם לאו). הביטוי הרגולי הנ״ל (להלן ברע״מ־1 או ביטוי רגולי עבור מקף 1) גם מספק את הדרוש לתיקון ממוכן על־ידי בוט עריכה.

אחד הקווים המנחים בעת העבודה על ברע״מ־1 היה לסמן כמה שפחות מקרים תקינים כמקרי טעות (כלומר "התרעות שווא"). השאיפה למינימום התרעות שווא לעיתים חייבה צמצום במספר "מקרי האמת" שימצאו על־ידי ברע״מ־1.

מימושעריכה

הפיתוח בוצע בסביבת Perl בגרסה 5.8, שמאפשרת שימוש נוח ביוניקוד. הנה הביטוי הרגולרי בגרסתו הנוכחית, עם הסבר מסויים.

(?<!"|״) ‎# לא מרכאות או גרשיים
\b ‎# נקודת שבירה בין מילים
(ב|כ|ל|מ|ו|ה|וה|וב|ומ|ול|וכ|לכ|לו|למ|מה|מל|מכ|מב|שב|שו|שכ|שה|שמ) ‎# ‏"ביטוי בעייתי" שאין לגביו אמביוולנטיות
(|-|- | -| | - ) ‎# הפרדה סבירה כלשהי, כולל ההפרדה הריקה
( ‎# פתיחת קבוצה
\[(?:http\:\/\/|https\:\/\/|ftp\:\/\/)\S+\s+[0-9A-Za-z]+? ‎# קישור חיצוני, כאשר טקסט הקישור מתחיל בספרה או באות לטינית
| ‎# או
\[\[[0-9A-Za-z]+? ‎# קישורי פנימי, כאשר שם הערך הוא ביטוי שמתחיל בספרה או באות לטינית
| ‎# או
"(?!\S\b) ‎# מרכאות, שאינן התו שלפני האחרון במילה
| ‎# או
'''[0-9A-Za-z]+? ‎# ביטוי בכתב מודגש, כאשר הביטוי מתחיל בספרה או באות לטינית
| ‎# או
[0-9A-Za-z]+? ‎# ביטוי המתחיל בספרה או באות לטינית
) ‎# סגירת קבוצה

הערות:

בדיקות, כולל ביקורת עמיתיםעריכה

על מנת לאפשר ביקורת עמיתים זמין דוח זה, שנוצר על־ידי תסריט Perl בעזרת ברע״מ־1 בגרסה זו. הדוח לא כולל רבים ממרחבי השמות, ובכלל זה אינו כולל את מרחבי השיחה למיניהם.

בעיות צפויות או ידועות ופתרונןעריכה

רשימת בעיות צפויות וידועות, יחד עם אפשרויות שונות לפתרונן, וציון הפיתרון שנבחר. מיותר לציין שהכל פתוח לדיון. הציבור מתבקש לעזור בבחירת הפיתרון המתאים לחלק מהבעיות.

שינויים בקישוריםעריכה

שינוי קו מפריד למקף בקישור ישבור את הקישור. חמור מכך, שינוי קו מפריד למקף בהכללה של תבנית, ישבור את הכללת התבנית.

פתרונות אפשריים הם:

  1. שינוי הביטוי הרגולרי כך שלא ישנה כלל ביטויים המופעים כקישורים או הכללה של תבניות.
    אפשרי, אך מצמצם את מידת התיקון.
  2. הפעלה קצובה של הבוט, ותיקון קישורים נשברים באופן ידני (אולי בעזרת אסם מיוחד?).
    בנוסף, הימנעות מהכללה של קו מפריד בשמות תבניות.
  3. הפעלה של הבוט על מרחב השמות תחילה, תוך יצירת כל ההפניות הנדרשות.
    אפשרי, אך מייצר סרבול קל בשימוש בוויקיפדיה.
  4. שינוי של הביטוי הרגולרי כך שיעשה שימוש במבנה התחביר [[המאה ה-15|המאה ה־15]].
  5. המתנה לשינוי מתוכנן, שלא ברור כלל מתי יבוצע, ב־MediaWiki, שיעלים את ההבחנה בין תווים שונים המתפקדים או דומים למקף בשפות שונות.
    זה יהיה גם זמן טוב למחוק באופן ממוכן מאות הפניות שיהפכו למיותרות (דוגמת גדודי חללי אל-אקצה לגדודי חללי אל אקצה).

הגדרת "כתב אחר" כוללת רק אותיות לטיניותעריכה

כנראה שאין בוויקיפדיה העברית שימוש מספיק בשפות שנכתבות בכתב שאינו אלפבית לטיני.

אין תיקון של מקפים לאחר "כתב אחר" וספרותעריכה

מקפים המופיעים ברצף בין "כתב אחר" לבין אותיות בעברית, כפי שמופיעים בדף 'קבוצת קנטור' בהקשר נסמן את הקבוצה שהתקבלה בשלב ה n-י, לא מתגלים.

אין טיפול ב"ביטויים בעיתיים" שיש לגביהם אמביוולנטיותעריכה

הביטויים הבעיתיים "של" ו"לב" לא נכללו ברשימת הביטויים המטופלים.

אישורעריכה

פרה פרה.

שילוב בבוט עריכהעריכה

בבירור. ראו שימוש בכל ביטוי רגולרי?.

מחשבות לעתידעריכה