שיחה:שכיחות אותיות בעברית
הבהרת חשיבות
עריכההבהרת חשיבות נמצאת בגוף הערך: זהו מידע מועיל ששייך לגוף הידע של השפה העברית, ובעל חשיבות יתרה בהצפנה ופענוח צפני החלפה. מעבר לזה, בודאי שבאנציקלופדיה עברית הוא חשוב יותר מאשר המילים השכיחות ביותר באנגלית, שגם עליו היו דיוני חשיבות והוחלט להשאירו. אילן שמעוני - שיחה 18:56, 30 בדצמבר 2008 (IST)
- חשיבות ודאי יש, אך כבעל ידע כדאי שתרחיב את הערך. הקורא הפשוט אינו מבין כיצד חקר שכיחות האותיות מסיעע בפיצוח הצפנות. מובטחני שיש עוד נושאים הקשורים לזה. חגי אדלר • שיחה • חג חנוכה שמח! • השתמשת כבר בבוט אכלוס הקטגוריות? • ד' בטבת ה'תשס"ט • 18:59, 30 בדצמבר 2008 (IST)
- זה לא חומר שצריך להיות בערך הצפנה או צפני החלפה? הרי צפני החלפה קיימים לא רק בעברית.... אילן שמעוני - שיחה 19:04, 30 בדצמבר 2008 (IST)
- אני חושב שהשאלה כאן היא שאלת איחוד ולא חשיבות. לדעתי המידע צריך להופיע (אם בכלל) בערך על פיענוח צפנים או בערך על השפה העברית (אני מעדיף בערך על פיענוח צפנים). JavaMan - שיחה 19:02, 30 בדצמבר 2008 (IST)
- אבל זה מידע שקשור לשני התחומים - גם לבלשנות וגם להצפנה. איך אפשר לאחד? אילן שמעוני - שיחה 19:04, 30 בדצמבר 2008 (IST)
- כרגע המידע שמופיע בערך הוא מינימלי, ויכול להופיע בשני הערכים גם יחד. אם יהיה כאן ערך משמעותי ולא רשימה וגרף בצידה, יש אולי טעם בערך עצמאי. JavaMan - שיחה 21:03, 30 בדצמבר 2008 (IST)
- אבל זה מידע שקשור לשני התחומים - גם לבלשנות וגם להצפנה. איך אפשר לאחד? אילן שמעוני - שיחה 19:04, 30 בדצמבר 2008 (IST)
כתבתי לפני התנגשות עריכה: ממש לא. זה עתה הוספתי בראו גם שני ערכים המשתמשים חזק בשכיחות אותיות, ואין להם כל קשר להצפנה. זהו נושא ענק שמתפתח. חגי אדלר • שיחה • חג חנוכה שמח! • השתמשת כבר בבוט אכלוס הקטגוריות? • ד' בטבת ה'תשס"ט • 19:05, 30 בדצמבר 2008 (IST)
- מהערך כפי שהוא עכשיו אי אפשר לראות שום חשיבות הערך אפילו לא קצרמר הוא רק טבלה ומשפט. נתת פה טבלה, כותרת ותמונה שמתארת את הטבלה. שום רקע איך זה מתקשר למשהו. ♠ גיל כ. (שיחה) ♠ 19:13, 30/12/08
- דבר ראשון, ה"אשם" בקיום הערך הוא אני ולא חגי. דבר שני - לתשומת לבך השארתי כאן ממש שאלה פתוחה באשר למקום המתאים לידע על שימושיות ערך שכזה - אנא תגובתך שם, תודה אילן שמעוני - שיחה 19:16, 30 בדצמבר 2008 (IST)
- מהערך כפי שהוא עכשיו אי אפשר לראות שום חשיבות הערך אפילו לא קצרמר הוא רק טבלה ומשפט. נתת פה טבלה, כותרת ותמונה שמתארת את הטבלה. שום רקע איך זה מתקשר למשהו. ♠ גיל כ. (שיחה) ♠ 19:13, 30/12/08
- אם הנושא הוא ענק ומתפתח (ולמיטב ידיעתי הוא ישן למדי, אחד מסיפורי שרלוק הולמס של ארתור קונן דויל עוסק בשכיחות אותיות) אנא הרחיבו אותו. במצבו הנוכחי, טוב לו להיבלע בערך אחר (או שניים) ולהתפלג מהם בבוא העת, כשיורחב. JavaMan - שיחה 21:03, 30 בדצמבר 2008 (IST)
- קרא את דברי. מה שמתפתח הוא בלשנות חישובית ועיבוד שפה טבעית. חגי אדלר • שיחה • חג חנוכה שמח! • השתמשת כבר בבוט אכלוס הקטגוריות? • ד' בטבת ה'תשס"ט • 21:32, 30 בדצמבר 2008 (IST)
- ב"כשהוא יורחב" אתה מתכוון ל - כשייתווספו אותיות לאלף בית העברי? יש לך רעיון איך אפשר להרחיב אותו? הלו מבחינת המידע הטבלאי הוא ערך שלם ומלא: "כל האותיות, כל השכיחויות". כמו שכתבתי למעלה הרחבות על השימוש של המידע הטבלאי מקומן בערכים של הצפנה מחד ובלשנות מאידך. אילן שמעוני - שיחה 21:19, 30 בדצמבר 2008 (IST)
- אם זה כל הערך, כאמור, הוא יכול להופיע, בשלמותו (עם עיצוב שונה מעט, כדי שיתפוס פחות מקום) בשני הערכים שדובר עליהם. אני עדיין לא רואה סיבה לקיום עצמאי שלו, ובעיני הוא שקול לרשימה או פריט אלמנך. JavaMan - שיחה 09:13, 31 בדצמבר 2008 (IST)
הערך לא טוב ונראה כרגע כמו סתם רשימה. עדיף לאחד אותו לערך המתאים. YHYH ۩ שיחה 21:04, 30/12/2008
- לאחד עם מה? אני עושה קופיפסטה: "אבל זה מידע שקשור לשני התחומים - גם לבלשנות וגם להצפנה. איך אפשר לאחד?" אילן שמעוני - שיחה 21:16, 30 בדצמבר 2008 (IST)
- שכיחות אותיות. חי ◣ 30.12.2008, 21:17 (שיחה)
המידע, לדעתי, חשוב ומעניין. השאלה היכן לתייק אותו היא פחות מעניינת. אפשר להשאיר בערך הקיים, להעביר לערך אחר (לדעתי לא לשכפל - זה סתם יגרום לבעיות עדכון עתידיות). קודגורו - שיחה 01:14, 31 בדצמבר 2008 (IST)
- נראה בהחלט מידע חשוב. המידע המקביל על שכיחות אותיות בשפה האנגלית הוא כבר פיסת מידע בסיסי הידועה לכל, וראיתי ספר בו אחת הגיבורות נקראה Etaoin Shrdlu. ודאי שתיעוד של מחקר בעניין זה בשפה העברית ראוי לערך בוויקיפדיה העברית. אלמוג 07:11, 31 בדצמבר 2008 (IST)
- נראה לי שפה המקום הטבעי שלו. אמיר - שיחה 21:56, 31 בדצמבר 2008 (IST)
- טוב, זימנתי לדיון את ד"ר מני אדלר שישליט פה קצת סדר בעובדות ומה הולך לאן. חגי אדלר • שיחה • ל-115 ערי מיליונים אין עדיין ערך. קחו אחת! • ה' בטבת ה'תשס"ט • 22:07, 31 בדצמבר 2008 (IST)
- נראה לי שפה המקום הטבעי שלו. אמיר - שיחה 21:56, 31 בדצמבר 2008 (IST)
חשיבות נוספת
עריכהיש חשיבות עצומה לטבלה למי שמשחק "תליין" וכשאי להזכיר את זה! ―אנונימי לא חתם
מה פירוש "שכיחות"?
עריכההאם ספרו כמה פעמים מופיעה כל אות ברשימת מילים שבה כל מילה מופיעה פעם אחת, או שמה בתמלילים שלמים עם מילים חוזרות? האם בחרו רק תמלילים של עברית שכיחה בת זמנינו או שמה בחרו גם תמלילי שירה, תפריטי מסעדות, אגרות חז"ל, וכיוצא בזה? או בקיצור, מה בכלל מדדו שם?. עִדוֹ (Eddau) - שיחה 03:32, 31 בדצמבר 2008 (IST)
- כאמור לעיל, ביקשתי להרחיב גם על כך. בעיקרון אלו מאגרים של טקסטים מהעיתון מהאינטרנט וכו'. ספרו מופעים של כל אות בטקסטים. אני לא חושב שנקבל תוצאה שונה אם נוסיף ונבדוק גם תפריטי מסעדות והתנ"ך. אם לא תהיה ברירה, באמת אבקש מהד"ר המכובד להתערב ... חגי אדלר • שיחה • ל-115 ערי מיליונים אין עדיין ערך. קחו אחת! • ד' בטבת ה'תשס"ט • 07:08, 31 בדצמבר 2008 (IST)
- קטעים אתי. באותיות עצמן טרחתי להבהיר שמדובר בעברית מודרנית ובערך לא. תוקן. אילן שמעוני - שיחה 07:57, 31 בדצמבר 2008 (IST)
- עדו, ראה תוספות שלי העונות לשאלותיך. חגי אדלר • שיחה • ל-115 ערי מיליונים אין עדיין ערך. קחו אחת! • ה' בטבת ה'תשס"ט • 02:14, 1 בינואר 2009 (IST)
חשוב ועומד בפני עצמו
עריכהשכיחות האותיות בעברית או בכל שפה היא יסוד מוסד של פיענוח צפנים. לטעמי הערך עומד בפני עצמו ולא צריך לשדכו עם ערך אחר איתן • שיחה 18:34, 1 בינואר 2009 (IST)
- מידע אנציקלופדי חשוב ועומד בפני עצמו. עם זאת היה ראוי להוסיף מידע רקע, כגון מה ההבדלים (אם קיימים כאלו) בין עברית מודרנית (מה ההגדרה המדוייקת?) לעתיקה? מה שכיחות האותיות בתנ"ך לבדו? כמה מילים על השימושים + הפנייה לערכים המורחבים ועוד. Ranbar - שיחה 22:15, 1 בינואר 2009 (IST)
- ראוי ליצור את הערך הכללי שכיחות אותיות, על פי en:Letter frequencies (ואולי לשלב בו ערך זה. דוד שי - שיחה 23:00, 1 בינואר 2009 (IST)
- כן, זה רעיון טוב, ולאחד לתוכו גם את הערך הקיים המילים השכיחות ביותר באנגלית. חגי אדלר • שיחה • ל-115 ערי מיליונים אין עדיין ערך. קחו אחת! • ו' בטבת ה'תשס"ט • 23:07, 1 בינואר 2009 (IST)
- ראוי ליצור את הערך הכללי שכיחות אותיות, על פי en:Letter frequencies (ואולי לשלב בו ערך זה. דוד שי - שיחה 23:00, 1 בינואר 2009 (IST)
לא רואים ת'טבלה!
עריכההערך מכיל דיאגרמה וטבלה גם יחד, אך רק הדיאגרמה נראית לעין הקורא. נא לתקן! 89.138.188.251 14:59, 14 במרץ 2009 (IST)
- אם הטבלה לא נראית, כיצד את/ה יודע/ת על קיומה? חזרתי - שיחה 15:07, 14 במרץ 2009 (IST)
- איזה דפדפן יש לך ובאיזו גרסה? חגי אדלר • שיחה • ל-84 ערי מיליונים אין עדיין ערך. קחו אחת! • י"ט באדר ה'תשס"ט • 04:17, 15 במרץ 2009 (IST)
- אני משער שזה נובע מעבודה ברזולוציה נמוכה, שבה התמונה דורסת את הטבלה. הקטנתי את התמונה. דוד שי - שיחה 06:17, 15 במרץ 2009 (IST)
- איזה דפדפן יש לך ובאיזו גרסה? חגי אדלר • שיחה • ל-84 ערי מיליונים אין עדיין ערך. קחו אחת! • י"ט באדר ה'תשס"ט • 04:17, 15 במרץ 2009 (IST)
חיפושית הזהב
עריכהזהו ערך נאה. אם אי פעם תפתחו את הערך המקביל בלשון האנגלית ואני לא אהיה בסביבה, אנא זכרו להזכיר את 'חיפושית הזהב', סיפורו הקלאסי של אדגר אלן פו, שמתבסס על ניתוח התדירויות, ובדרך זו נפתרת החידה המרתקת. בן הטבע - שיחה 07:31, 15 במרץ 2009 (IST)
עשיתי זאת כבר בעצמי. בן הטבע - שיחה 07:34, 15 במרץ 2009 (IST)
אני אעשה זאת היום. בן הטבע - שיחה 07:36, 15 במרץ 2009 (IST)
הערך המקביל בויקיפדיה האנגלית הוא en:Letter frequency. בן הטבע - שיחה 07:38, 15 במרץ 2009 (IST)
כמו דוד שי, אני מציע להרחיב את הערך לכמה שפות. בן הטבע - שיחה 07:41, 15 במרץ 2009 (IST)
א פחות שכיחה רק מהאותיות י,ו,ה
עריכההאות א פחות שכיחה רק מהאותיות י,ו,ה ―אנונימי לא חתם
is this a bug or a feature?
עריכהסכום השכיחויות של כל האותיות בטבלה הוא 0.9341 ולא 1.0. ש. בן-ציון - שיחה 00:05, 13 בפברואר 2010 (IST)
- אכן. חוץ מזה, הערך הזה הוא לא מחקר ראשוני? מור שמש - שיחה 14:56, 11 באפריל 2010 (IDT)
- נכון, זה ממש בעייתי! מה גם שבמקור הסכום הוא כן 100%! יערה - שיחה 01:08, 8 באוגוסט 2010 (IDT)
- יכול להיות ששאר שבעת האחוזים הם סימני פיסוק שונים? בכל אופן, הערך הזה מאוד בעייתי במצבו הנוכחי. מור שמש - שיחה 08:22, 8 באוגוסט 2010 (IDT)
- מסכימה. כאן יש טבלאות נכונות ומדויקות (כלומר, לפחות הן מסתכמות ל-100%. אין לי דרך לבדוק אם הן נכונות אבסולוטית). יערה - שיחה 21:31, 8 באוגוסט 2010 (IDT)
- סכום השכיחויות קטן מ100% מאחר והטקסטים כללו גם סימני פיסוק. מן הסתם רוב הפער הוא סימן הרווח. טבלת השכיחויות הזו מבוססת על גוף טקסט גדול ועדכני שנאסף במחקר אקדמי, ואני מבקש לא לערוך בה שינויים ממקורות לא מוסמכים. תודה. אילן שמעוני - שיחה 13:52, 9 באוגוסט 2010 (IDT)
- אני לא מבין מדוע הטבלה הזו היא יותר "אקדמית" או "מוסמכת" מטבלאות אחרות שמופיעות במקומות אחרים. בלינק שמישהו מצא למעלה, מ"ם היא האות השלישית בשכיחותה, עם 9.4% מהמופעים, ואילו בטבלה פה למ"ם רק חצי מהשכיחות. זו לא נראה לי טעות קטנה, אלא איזשהי בעיה סיסטמטית במדידה. ייתכן שבקורפוס שנבדק באחד מהשיטות יש הטיה בוטה לכיוון אותיות מסוימות - למשל, שם העיתון מופיע בראשית כל ידיעה קצרה? בכל מקרה, יש פה בעיה שהטבלה הזו היא "מחקר ראשוני", וגם אם אני לא פוסל דבר כזה בויקיפדיה (יש אחרים שכן פוסלים...), אני חושב שלפחות ראוי לעשותו בצורה יותר רצינית. בשלב ראשון הייתי משווה שני קורופוסים שונים (ולראות שהתוצאות מספיק דומות). והאמת? הייתי מתחיל עם קורפוס של כל ערכי ויקיפדיה בעברית! נדב הראל.
- סכום השכיחויות קטן מ100% מאחר והטקסטים כללו גם סימני פיסוק. מן הסתם רוב הפער הוא סימן הרווח. טבלת השכיחויות הזו מבוססת על גוף טקסט גדול ועדכני שנאסף במחקר אקדמי, ואני מבקש לא לערוך בה שינויים ממקורות לא מוסמכים. תודה. אילן שמעוני - שיחה 13:52, 9 באוגוסט 2010 (IDT)
- מסכימה. כאן יש טבלאות נכונות ומדויקות (כלומר, לפחות הן מסתכמות ל-100%. אין לי דרך לבדוק אם הן נכונות אבסולוטית). יערה - שיחה 21:31, 8 באוגוסט 2010 (IDT)
- יכול להיות ששאר שבעת האחוזים הם סימני פיסוק שונים? בכל אופן, הערך הזה מאוד בעייתי במצבו הנוכחי. מור שמש - שיחה 08:22, 8 באוגוסט 2010 (IDT)
- נכון, זה ממש בעייתי! מה גם שבמקור הסכום הוא כן 100%! יערה - שיחה 01:08, 8 באוגוסט 2010 (IDT)
לדעתי זה על גבול הבדיחה שבטבלה שמתיימרת להציג שכיחות של אותיות (ולא של תווים) סכום אחוזי השכיחות הוא קטן מ-100. זה אומר שזה לא האחוז האמיתי של שכיחות האות יחסית לשאר האותיות, אלא יחסית לכל הסימנים. לא בכך עוסק הערך הזה. מור שמש - שיחה 22:09, 23 ביוני 2011 (IDT)
דרוש מקור?
עריכהמהיכן המידע בערך? מי ספר את האותיות? בעזרת איזה כלי? בברכה, --איש המרק - שיחה 12:09, 18 בפברואר 2011 (IST)
- אני מציע למחוק את הערך הזה. לגבי חשיבותו אין לי ספק, אבל מה שיש פה זה מחקר ראשוני בלי שום מקור, וערך שמציג את ממצאי המחקר כעובדות מוגמרות. סביר להניח שאם ניקח טקסטים אחרים ונבדוק את שכיחות האותיות שבהם, לא נקבל בדיוק את אותם מספרים, בטח לא ברמת דיוק של שתי ספרות עשרוניות. חבל גם שהמידע הזה נכנס לכל הערכים על האותיות עצמן, וגם שם אין שום מקור. מור שמש - שיחה 14:45, 18 בפברואר 2011 (IST)
- למיטב זכרוני הדולף, בספרו של סימון סינג "סודות ההצפנה" שאינו תחת ידי, מופיעים מקורות טובים לכל הנאמר בערך. מתניה • שיחה 17:22, 20 בפברואר 2011 (IST)
- המחקר הוא של ד"ר מני אדלר. הקורפוס שנבדק הוא בן 4 מליון מלים, וגדול באופן משמעותי מקורפוסים מקבילים - ומכאן גם חסינות התוצאות. אשר לטיעון "מחקר מקורי" - זה מידע שבא ממקור אקדמי. אני מסיר את הערת השכתוב. 79.182.35.155 00:50, 23 בפברואר 2011 (IST)
- ההסתייגות היחידה שתקפה היא שהקורפוס האמור, שאכן עולה בגדלו על כל קורפוס אחר ששימש לניתוח דומה, כולו מורכב מעברית מודרנית. אני מוסיף הערה ברוח זו בגוף הערך. כאמור, לתבנית שכתוב אין הצדקה ממשית. אילן שמעוני - שיחה 23:10, 25 בפברואר 2011 (IST)
- לא מדויק. ההסתייגות היא שלא כך מפנים למקור. כמובן שאנחנו אוהבים מקורות זמינים במרשתת, אבל אפילו אם לא, קצת פרטים: מה שם המחקר? באיזה פרסום מדעי הוא פורסם? מתי? מי עוד (אם מישהו) חתום עליו? במלים אחרות: אם מדובר במחקר שלא פורסם, יש להחזיר את הדרישה למקור, ואם מדובר במחקר שפורסם, יש לפרט את הפרסום. קיפודנחש - שיחה 02:45, 26 בפברואר 2011 (IST)
- עם כל הכבוד לאלמוני ולמשתמש:אילן שמעוני, אני מצטרף לקיפודנחש אי אפשר לטעון "בוצע מחקר" בלי מקור מספק. בערך יש מקור אחד, ובו תוצאות אחרות מאשר בערך עצמו. זה מצב שדורש שכתוב. בברכה, --איש המרק - שיחה 00:13, 27 בפברואר 2011 (IST)
- ההסתייגות היחידה שתקפה היא שהקורפוס האמור, שאכן עולה בגדלו על כל קורפוס אחר ששימש לניתוח דומה, כולו מורכב מעברית מודרנית. אני מוסיף הערה ברוח זו בגוף הערך. כאמור, לתבנית שכתוב אין הצדקה ממשית. אילן שמעוני - שיחה 23:10, 25 בפברואר 2011 (IST)
- המחקר הוא של ד"ר מני אדלר. הקורפוס שנבדק הוא בן 4 מליון מלים, וגדול באופן משמעותי מקורפוסים מקבילים - ומכאן גם חסינות התוצאות. אשר לטיעון "מחקר מקורי" - זה מידע שבא ממקור אקדמי. אני מסיר את הערת השכתוב. 79.182.35.155 00:50, 23 בפברואר 2011 (IST)
- למיטב זכרוני הדולף, בספרו של סימון סינג "סודות ההצפנה" שאינו תחת ידי, מופיעים מקורות טובים לכל הנאמר בערך. מתניה • שיחה 17:22, 20 בפברואר 2011 (IST)
תבנית שכתוב
עריכהאני לא רואה איפה הסתירה. דניאל ב. • תרמו ערך 12:25, 23 ביוני 2011 (IDT)
- מה זאת אומרת? המספרים במקור ובערך שונים... בברכה, --איש המרק - שיחה 20:55, 23 ביוני 2011 (IDT)
- למיטב הבנתי הקישור הזה הוא לא המקור של הערך, אלא מחקר שונה לבדיקת שכיחות האותיות. מור שמש - שיחה 22:05, 23 ביוני 2011 (IDT)
- אכן לפי הכתוב בערך זה מחקר אחר, שנערך על מאגר טקסט אחר עם הפרדה לשפה מקראית ושפה עיתונאית ושאין התייחסות נפרדת לסופיות. ברור כי התוצאות יהיו שונות. דניאל ב. • תרמו ערך 22:52, 23 ביוני 2011 (IDT)
- אם ברור שהמידע יהיה שונה, חבל שהערך מתייחס למחקר הזה כאל תורה מסיני. וכמו שכבר כתבתי למעלה, חבל שהמידע הזה גם נכנס לערכים על כל האותיות (דוגמה: "בשפה עברית מודרנית שכיחות השימוש באות א' היא כ־4.94% מכלל אותיות האלף-בית"), בלי שום ציון מקור. וכמו שכתבתי, זה בכלל לא מתוך כל האותיות, אלא מתוך כל הסימנים, כי סכום האחוזים בטבלה הוא לא 100. מור שמש - שיחה 07:05, 24 ביוני 2011 (IDT)
- אם "ברור שהתוצאות יהיו שונות", מה מדעי במחקר הזה? אם עכשיו אנחנו מקבלים בנחת את העובדה שהוא חסר תוקף, מה החשיבות שלו? תומר א. - שיחה - משנה ויקיפדית 07:55, 24 ביוני 2011 (IDT)
- כאמור, המחקרים נעשו בדרך שונה (סוגים שונים של שפה) ובתנאים שונים (ההחלטה לאיזה סימנים להתייחס). יש בעיה בערך, אבל לא זו המצוינת כרגע בתבנית. דניאל ב. • תרמו ערך 10:06, 24 ביוני 2011 (IDT)
- הבעיה המרכזית בערך זה שהוא מבוסס על מאמר יחיד שאין אליו הפניה (ברשת או מחוצה לה) ולכן לא ניתן אפילו לוודא שהנתונים הוזנו בצורה נכונה. והמקור היחידי שכן יש בערך מספק נתונים שונים, זה הופך את הערך ללא אמין. ערך ראוי היה סוקר את המחקרים בתחום (עם הפניות) ומציין את השכיחות בכל אחד מהם, ולא נותן מספרים מוחלטים שנראים לקורא ההדיוט (ללא תבנית השכתוב) כתורה מסיני. בברכה, --איש המרק - שיחה 09:22, 26 ביוני 2011 (IDT)
- דניאל, אם אכן כדבריך אזי שם הערך לא צריך להיות "שכיחות אותיות בעברית" אלא "שכיחות אותיות בטקסט X, ברמת מובהקות של 0.05". תומר א. - שיחה - משנה ויקיפדית 23:34, 13 באוגוסט 2011 (IDT)
- כאמור, המחקרים נעשו בדרך שונה (סוגים שונים של שפה) ובתנאים שונים (ההחלטה לאיזה סימנים להתייחס). יש בעיה בערך, אבל לא זו המצוינת כרגע בתבנית. דניאל ב. • תרמו ערך 10:06, 24 ביוני 2011 (IDT)
- אם "ברור שהתוצאות יהיו שונות", מה מדעי במחקר הזה? אם עכשיו אנחנו מקבלים בנחת את העובדה שהוא חסר תוקף, מה החשיבות שלו? תומר א. - שיחה - משנה ויקיפדית 07:55, 24 ביוני 2011 (IDT)
- אם ברור שהמידע יהיה שונה, חבל שהערך מתייחס למחקר הזה כאל תורה מסיני. וכמו שכבר כתבתי למעלה, חבל שהמידע הזה גם נכנס לערכים על כל האותיות (דוגמה: "בשפה עברית מודרנית שכיחות השימוש באות א' היא כ־4.94% מכלל אותיות האלף-בית"), בלי שום ציון מקור. וכמו שכתבתי, זה בכלל לא מתוך כל האותיות, אלא מתוך כל הסימנים, כי סכום האחוזים בטבלה הוא לא 100. מור שמש - שיחה 07:05, 24 ביוני 2011 (IDT)
השוואת שכיחויות
עריכהערכתי מחקרון קטן משלי עם קורפוס של כמה ערכים בויקיפדיה כשמספר התווים (א-ת כולל סופיות) הוא 142,887. (באמצעות python) הקורפוס ללא ספק לא מהימן, אך מצאתי תוצאות מעניינות:
- ההפרש הכי גבוה בין שכיחות של אות כאן לשכיחות של אות אצלי הוא - 0.86% - אחוז די נמוך, הייתי אומר.
- כמעט ואין הבדל בדירוג של המקומות הראשונים. (מקומות 1-7 יו"ד-תי"ו בכלל אין הבדל)
להלן קובץ אקסל שמסכם את התוצאות: שכיחות אותיות
--Shilog - שיחה 15:30, 10 בספטמבר 2012 (IDT)
- תודה לך. המתקיפים פה היו בדרך לטעון ששחור הוא לבן. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 17:39, 15 בדצמבר 2012 (IST)
מדוע סך כל ההתפלגות אינו מסתכם ב 100%?
עריכהסכמתי את האחוזים המופיעים בטבלה, והתוצאה הינה 93.47% איך זה יכול להיות?
- קראת את הפסקה "is this a bug or a feature?" בדף זה? Uziel302 - שיחה 01:24, 7 בינואר 2014 (IST)
- מה שכתוב שם שגוי. אם היו מתייחסים גם לתווים שאינם אותיות, כולל רווחים, כמו שכתוב בפסקה ההיא, הרי שהמסקנה היא שאורך מילה ממוצע בעברית הוא 15 תווים (כי רק 6 אחוזים מהתווים אינם אותיות), מכיוון שברור שזה שגוי, הפיסקה לעיל מטעה. יש סיבה שיש בערך הזה תבנית שכתוב, אין מקור לאף אחד מהנתונים בו. בברכה, --איש המרק - שיחה 04:42, 7 בינואר 2014 (IST)
הסרת הטבלה
עריכהמכיוון שכבר כמעט 3 שנים (מאז פברואר 2011), לא הצליחו לספק מקור לטבלאות בערך, ולטקסט שקודם להן, ולא הצליחו להסביר למה סכום האותיות לא מגיע ל100 אחוז, הסרתי אותן. לכשיציינו מקור אפשר יהיה להחזיר את הטבלאות. בברכה, --איש המרק - שיחה 10:39, 8 בינואר 2014 (IST)
- אם כבר, אני מציע גם להסיר את המידע שנכנס לערך על כל אחת מהאותיות. כמו המשפט "בשפה העברית המודרנית שכיחות השימוש באות א' היא 4.94% מכלל אותיות האלף-בית" בערך א. נראה שהמידע בערכים האלה מבוסס על הטבלה הזאת, וגם שם הוא מובא בלי מקורות. מור שמש - שיחה 19:49, 8 בינואר 2014 (IST)
- הטבלה היא הערך עצמו
- "דרוש מקור" הוא מונח דווקני למדי, כשהמקור זמין לגמרי ברשת.
- יש להשמיד את קרתגו הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:30, 12 בינואר 2014 (IST)
- אם המקור זמין ברשת יש להביא אותו לכאן. אם לא יתווסף המקור יש להוריד את הטבלה. לא די בקיומו של מקור "ברשת". וכבוד גדול לראות ציטוטים של קאטו הקנסור בדף שיחה זה :) גילגמש • שיחה 09:32, 12 בינואר 2014 (IST)
- אתה מודע לגודל של המקור? אלו קבצים של ג'יגאות רבות. על כל פנים נרשמתי ל MILA על מנת לקבל עותק לרשותי.בנוסף, אני מבקש לערער על המונחים "מחקר מקורי"+"דרוש מקור". עיקר המחקר הוא איסוף הקורפוס - כל אותם ג'יגאות - וזה בוצע ע"י MILA ומתועד היטב. הרצת תוכנת אקסל לספירת אותיות היא טריויאלית ממש, ואינה שקולה ל"מחקר". הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:52, 12 בינואר 2014 (IST)
- מה שמעניין הוא המאמר או למצער העמוד באינטרנט בו כתוב מהי שכיחות האותיות, קבצי הטקסט שמכילים את האותיות הללו, מעניינים הרבה פחות. ונדמה שלמרות שטענת ש"המקור זמין לגמרי ברשת", אתה עדיין מתקשה לספק אותו. בברכה, --איש המרק - שיחה 13:58, 12 בינואר 2014 (IST)
- אני לא מתקשה לספק מקור. פחחחח, שמא אתה מתקשה להבין שמדובר בכמה מאות ג'יגהבייט? אתה יכול להרשם, לגמרי בחינם, בדיוק כמוני, ולבדוק את כל מה שיעלה בדעתך. או אולי, אתה לא מתקשה להבין אלא רומז לי שאינך מעוניין להבין? איזו תשובה נכונה?
- על מנת לכסות את האפשרות שאתה מעוניין בתוצאה ולא בקנטרנות עקרה, הנה קישור לתכנת ניתוח טקסטים, שבין השאר מפיקה שכיחות של אותיות. היא עובדת הרבה יותר מהר מאקסל, במיוחד עם הר נתונים כזה: [1] הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 00:51, 13 בינואר 2014 (IST)
- אגב, כבר אחרי 30 ג'יגה תתקבל תוצאה קרובה מאד לטבלה שבערך, והיא לא משתנה באופן ניכר משם ואילך. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 01:02, 13 בינואר 2014 (IST)
- אני אתעלם מההשמצות והפומפוזיות. התוצאה הנוכחית בערך, לא יכולה להתקבל, מתמטית, כי המספרים לא מתחברים ל-100 אחוז ולכן היא שגויה א-פריורי. כעת, אם יש לך נתונים אחרים, אתה מוזמן לספק אותם, ולשנות את הערך בהתאם. אגב, בערך נאמר שהפעולה בוצעה על מאגר של 40 מיליון מילים, לא שהתעמקתי, אבל אין שום סיבה שטקסט (בהנחה שמדובר בטקסט בלבד) באורך כזה ישקול מאות ג'יגה בייטס (הערכה שמרנית מאוד תהיה 2 ג'יגה). בברכה, --איש המרק - שיחה 10:59, 13 בינואר 2014 (IST)
- אתעלם מההתעלמות (סתם, לא יכול להתאפק מול משחקי מלים): איש המרק, אני באמת לא מבין מה אתה רוצה. אם אתה חושב שהערך מיותר, פתח הצבעת מחיקה ואם רוב בקהילה חושב כמוך הוא ימחק, אלו כללי המשחק ואני מקבל אותם לגמרי. אם אתה חושב שהטבלה שגויה אתה מוזמן לבדוק אותה, זה לא קשה. תשובה מדוע הסיכום אינו 100% כבר ניתנה. על מה אתה חולק? נכון, באתר מילה את אין ניתוח התדירות הזה, אבל הוא טריויאלי בהינתן גוף הנתונים, שאיסופו הוא עיקר המחקר - בודאי שמבחינת השקעת זמן ומאמץ. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:09, 14 בינואר 2014 (IST)
- נ.ב. אתה צודק שהתבלבלתי בנפח הנתונים, אני מאשים את השעה בה כתבתי את התשובה... נפח הנתונים הוא כשני ג'יגה. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:14, 14 בינואר 2014 (IST)
- התשובה שניתנה אודות עניין ה-100 אחוז אינה מספקת. בטקסט עברי מודרני, אחוז התווים שאינם אותיות בעברית (סימני פיסוק, רווחים, מספרים, אותיות לועזיות, ניקוד וכו') גדול בהרבה משבעת האחוזים החסרים. סימן הרווח לבדו הוא בוודאי יותר מ-7 אחוזים מהטקסט (חשוב, מה אורכה של מילה ממוצעת?). בכל מקרה, אין מקום בטבלת שכיחויות של אותיות עבריות, להכניס את השכיחות של סימנים אחרים, ואם כן, אז למה נפקד מקומם בטבלה? בברכה, --איש המרק - שיחה 11:45, 14 בינואר 2014 (IST)
- נ.ב. אתה צודק שהתבלבלתי בנפח הנתונים, אני מאשים את השעה בה כתבתי את התשובה... נפח הנתונים הוא כשני ג'יגה. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:14, 14 בינואר 2014 (IST)
- אתעלם מההתעלמות (סתם, לא יכול להתאפק מול משחקי מלים): איש המרק, אני באמת לא מבין מה אתה רוצה. אם אתה חושב שהערך מיותר, פתח הצבעת מחיקה ואם רוב בקהילה חושב כמוך הוא ימחק, אלו כללי המשחק ואני מקבל אותם לגמרי. אם אתה חושב שהטבלה שגויה אתה מוזמן לבדוק אותה, זה לא קשה. תשובה מדוע הסיכום אינו 100% כבר ניתנה. על מה אתה חולק? נכון, באתר מילה את אין ניתוח התדירות הזה, אבל הוא טריויאלי בהינתן גוף הנתונים, שאיסופו הוא עיקר המחקר - בודאי שמבחינת השקעת זמן ומאמץ. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:09, 14 בינואר 2014 (IST)
- אני אתעלם מההשמצות והפומפוזיות. התוצאה הנוכחית בערך, לא יכולה להתקבל, מתמטית, כי המספרים לא מתחברים ל-100 אחוז ולכן היא שגויה א-פריורי. כעת, אם יש לך נתונים אחרים, אתה מוזמן לספק אותם, ולשנות את הערך בהתאם. אגב, בערך נאמר שהפעולה בוצעה על מאגר של 40 מיליון מילים, לא שהתעמקתי, אבל אין שום סיבה שטקסט (בהנחה שמדובר בטקסט בלבד) באורך כזה ישקול מאות ג'יגה בייטס (הערכה שמרנית מאוד תהיה 2 ג'יגה). בברכה, --איש המרק - שיחה 10:59, 13 בינואר 2014 (IST)
- אגב, כבר אחרי 30 ג'יגה תתקבל תוצאה קרובה מאד לטבלה שבערך, והיא לא משתנה באופן ניכר משם ואילך. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 01:02, 13 בינואר 2014 (IST)
- מה שמעניין הוא המאמר או למצער העמוד באינטרנט בו כתוב מהי שכיחות האותיות, קבצי הטקסט שמכילים את האותיות הללו, מעניינים הרבה פחות. ונדמה שלמרות שטענת ש"המקור זמין לגמרי ברשת", אתה עדיין מתקשה לספק אותו. בברכה, --איש המרק - שיחה 13:58, 12 בינואר 2014 (IST)
- אתה מודע לגודל של המקור? אלו קבצים של ג'יגאות רבות. על כל פנים נרשמתי ל MILA על מנת לקבל עותק לרשותי.בנוסף, אני מבקש לערער על המונחים "מחקר מקורי"+"דרוש מקור". עיקר המחקר הוא איסוף הקורפוס - כל אותם ג'יגאות - וזה בוצע ע"י MILA ומתועד היטב. הרצת תוכנת אקסל לספירת אותיות היא טריויאלית ממש, ואינה שקולה ל"מחקר". הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 09:52, 12 בינואר 2014 (IST)
- אם המקור זמין ברשת יש להביא אותו לכאן. אם לא יתווסף המקור יש להוריד את הטבלה. לא די בקיומו של מקור "ברשת". וכבוד גדול לראות ציטוטים של קאטו הקנסור בדף שיחה זה :) גילגמש • שיחה 09:32, 12 בינואר 2014 (IST)
- הטבלה בערך אינה אפשרית משום שהשכיחויות מסתכמות בה ל-0.93, ואני לא רואה דרך להשאיר אותה בערך בלי להבין בדיוק מה מקור הסטיה הזו. יתכן שמדובר על שכיחות התווים שאינם רווח (כלומר, אותיות וסימני פיסוק), אבל בהעדר גישה לטבלה המקורית אין לנו דרך לוודא שזה כך.
- למרות שהתאור של "שכיחות אותיות בשפה העברית" הוא מקובל וסביר, צריך להבין שאין תיחום טבעי לשפה: האם השפה היא כל מה שנכתב אי פעם? בתקופה מסויימת? נגיש במאגרי מידע? משוקלל לפי מספר עותקים? לכן כל חישוב של טבלת שכיחויות יהיה תלוי בקורפוס שממנו דוגמים. לא רק שחיוני לציין מהו הקורפוס הזה, אלא שעצם הבחירה בקורפוס מסויים ולא אחר היא שאלה קריטית, וצריך לפעול לפי המוסכמות הבלשניות בנושא.
- במובן הזה, אין הבדל גדול בין ספירה מלאה של אותיות בקורפוס נתון, לבין דגימה ממנו.
- דגימה של 200,000 אותיות מצדיקה הצגת שכיחויות ברמת דיוק של 0.1%. כדי להציג שתי ספרות אחרי הנקודה יש לדגום פי מאה: 20,000,000 אותיות.
- לגודל המדגם אין חשיבות רבה. דגימות של כ-200,000 אותיות או יותר אמורות להסכים זו עם זו עד רמת הדיוק שציינתי, וכשאין הסכמה פירושו של דבר שהקורפוסים שעליהם מבוססים החישובים שונים זה מזה מהותית.
- הטבלה המופיעה כאן יכולה להיות מוצגת בערך. את הטבלה המבוססת על נתוני MILA אני מציע למחוק עד שיובהר (לי) בדיוק כיצד חושבה. אם אכן מדובר בנתוני עיתונות (כמו בטבלה האחרת), מישהו צריך לפענח את מקור ההבדל הגדול בשכיחות האות א'. עוזי ו. - שיחה 13:44, 14 בינואר 2014 (IST)
- תודה על התגובה, --איש המרק - שיחה 16:10, 14 בינואר 2014 (IST)
- אני יכול לעשות שוב את מניית המופעים ואת החישוב - בדקתי בזמנו בנפרד חלק מהאותיות. מדובר בעבודה של שעתיים לכל היותר. אעשה זאת, בלי נדר, השבוע. אשר להבדלים בין הטבלה שהבאת לזו - אין לי הסבר. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 21:13, 14 בינואר 2014 (IST)
ספרתי את האותיות בשניים מן הקורפוסים באתר MILA: מאמרי "הארץ" בשנים 90-91, ופרוטוקולי הכנסת (הספריה "16" בלבד). להלן התוצאות: א 2231384 2129830; ב 1863963 2324357; ג 413236 633735; ד 1129090 1174693; ה 3290752 3869387; ו 3667593 4788238; ז 398404 377705; ח 899397 1088154; ט 321643 585203; י 4005239 5191194; ך 172968 170848; כ 937697 1002954; ל 2407584 2942932; ם 1073164 1327825; מ 1687754 2338831; ן 529700 561875; נ 1388629 1486094; ס 606108 764972; ע 1088167 1413907; ף 57666 103472; פ 537440 905434; ץ 40094 71230; צ 490958 592788; ק 661797 1021628; ר 1985909 2569531; ש 1786361 2101206; ת 2016951 2503135. סדר השכיחויות דומה, אבל יש הבדלים בין שני המאגרים האלה. אגב, באותו אתר מופיע גם המאגר "מאמרים מהאנציקלופדיה המקוונת ויקיפדיה, שנת 2010", וגודלו פי עשרה מכל מאגר אחר; זה מסביר מדוע הנתונים שבטבלה הנוכחית מסכימים היטב עם נתונים מוויקיפדיה. עוזי ו. - שיחה 21:19, 14 בינואר 2014 (IST)
אם כבר אני הולך לספור את המופעים שוב - מאחר ואני מבקש להמנע מלחזור על הדרמה ועל עבודה מיותרת, ולכן ....
עריכהבהתבסס על הקורפוסים של מ.י.ל.ה., איזה משקל לתת לקורפוסים השונים? ספציפית, יש שם קורפוסים מקצועיים מתחום הרפואה. האם לכלול אותם? האם לקחת רק עשירית מקורפוס ויקיפדיה, או לחלק את מספר המופעים בו ב 10, על מנת למנוע ממנו השפעה גדולה על התוצאות? לתשובותיכם אודה. הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 10:19, 15 בינואר 2014 (IST) עוד שאלה ששכחתי האם לכלול מופעי סימני פיסוק? (ניתן לשנות את שם הערך) הפיקנופודיה טובה ממך! אילן שמעוני, - שיחה 11:12, 15 בינואר 2014 (IST)
- הקורפוסים של "מילה" אינם מהווים מבחר מייצג של השפה העברית. הזמינות של הקורפוסים שהם אגרו מאפשרת להציג את הסטטיסטיקות של החשובים ביניהם, ואני לא רואה סיבה למצע אותם. אדרבה, כדאי שהערך יבהיר ששכיחות האותיות תלויה במקור. לגבי סימני פיסוק, אני חושד שהם תלויים באופן הרישום ולכן המידע עליהם יהיה מוטה מלכתחילה; עדיף לוותר. עוזי ו. - שיחה 13:02, 15 בינואר 2014 (IST)
- מחיקת הטבלה אכן הייתה מיותרת ופראית ואני מתנגד לה. הכי קל זה לפנות לחוקר שניתח את הקורפוסים, אבל זה לא עלה בדעת המוחקים... אעשה זאת אני. בורה בורה - שיחה 07:45, 20 בינואר 2014 (IST)
- המחיקה מוצדקת ואף הכרחית כפי שהוסבר בדיון הזה כמה פעמים. עוזי ו. - שיחה 11:12, 20 בינואר 2014 (IST)
- מחיקת הטבלה אכן הייתה מיותרת ופראית ואני מתנגד לה. הכי קל זה לפנות לחוקר שניתח את הקורפוסים, אבל זה לא עלה בדעת המוחקים... אעשה זאת אני. בורה בורה - שיחה 07:45, 20 בינואר 2014 (IST)
- כמו עוזי. ובנוסף, אני מבקש, שהדרך בה נספרו המופעים תהיה מתועדת ככל האפשר. כלומר אם אתה כותב קוד בעצמך, אז שהוא יועלה לוויקיפדיה, ואם אתה משתמש בכלי קיים, תציין מה הוא. בברכה, --איש המרק - שיחה 10:03, 20 בינואר 2014 (IST)
- ראו בסוף הסעיף הקודם: כבר ספרתי. עוזי ו. - שיחה 11:09, 20 בינואר 2014 (IST)
- ועדכנתי את הערך בהתאם. עוזי ו. - שיחה 12:29, 20 בינואר 2014 (IST)
- תודה עוזי. בלצ"ג. ספרת את המופעים באמצעות קוד שכתבת בעצמך? בברכה, --איש המרק - שיחה 13:32, 20 בינואר 2014 (IST)
- כן. בערך while ((c = getc()) != EOF) H[c++];. עוזי ו. - שיחה 13:58, 20 בינואר 2014 (IST)
- תודה עוזי. בלצ"ג. ספרת את המופעים באמצעות קוד שכתבת בעצמך? בברכה, --איש המרק - שיחה 13:32, 20 בינואר 2014 (IST)
- ועדכנתי את הערך בהתאם. עוזי ו. - שיחה 12:29, 20 בינואר 2014 (IST)
- ראו בסוף הסעיף הקודם: כבר ספרתי. עוזי ו. - שיחה 11:09, 20 בינואר 2014 (IST)
מעבר לקטנוניות הסטטיסטית
עריכהאפשר להתכתב הלוך וכתוב וחזור וכתוב על סיכום האחוזים ויחסיות הרווחים, ואפשר בשניה אחת לפתור את התעלומה (כמו שאני עשיתי בקובץ לעיל כשחילקתי אחוזים יחסיים לסכום, קסם). אבל כל ההתקטננויות האלה מצחיקות מאוד. גם אם בוחרים בשיטה האמפירית הפותחת המחקר ללא השערות ומסיקה את כל המסקנות לאור התוצאות, יש לדבר על חשיבות בין הפרשים שונים בקורפוסים.
- לא די להגיד "הקורפוסים לא מייצגים" - למה הם לא מייצגים מה שונה בלשון העיתונות שעלול לגרום לתוספות עיצורים/אימות קריאה לעומת לשון אחרת?
- האם יש הבדל בין טקסטים שונים מאותה תקופה?
- ואם יש הבדל מורופולוגי בין משלבים - כיצד הוא מתבטא בשכיחות האותיות?
- האם יש הבדל בין כמות המילים בלועזית במשלב גבוה ונמוך?
- מאיזה שפות/מקורות שואלים דוברי השפה הדבורה (הכתובה/דבורה) את מילותיהם לעומת הכותבים במשלב גבוה?
חשוב לפתח גם רעיונית את הערך ולא רק קטנונית. --Shilog - שיחה 09:51, 13 באוקטובר 2014 (IDT)
הבינוויקי לא בסדר
עריכההבינוויקי בערך מפנה לערכים בשפות אחרות העוסקים בשכיחות אותיות בשפה שלהם. צריך או לתקן את הבינוויקי או לכתוב הערה בערך על נושא ההפניה של הבינוויקי. בן עדריאל • שיחה • י"ז באדר ה'תשע"ה 20:31, 7 במרץ 2015 (IST)