שכיחות אותיות בעברית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
צ'קטי
שורה 1:
כבכל [[שפה]], גם ב[[עברית]] ''' שכיחות האותיות ''' אינה אחידה - יש אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.
 
מידע על [[שכיחות אותיות| שכיחות האותיות]] שימושי לפענוח [[הצפנה|צפנים]] המבוססים על החלפת [[אות]]יות, מסייע ל[[מחקר]] [[בלשנות|בלשני]] וחיוני ב[[בלשנות חישובית]] וב[[עיבוד שפה טבעית]].
 
להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בשניים הראשונים וכ-<span title="507779597" >500</span> מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים [[1990]]–[[1991]], השני מאגר פרוטוקולים של הכנסת משנת [[2004]] והשלישי הוא מוויקיפדיה עצמה. שני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית",{{הערה|[http://www.mila.cs.technion.ac.il אתר מילה]}} והאחרון נלקח מוויקיפדיה העברית של מאי [[2016]]{{הבהרה|מאי 2016 הוא חודש שלם ויש בו 31 ימים! גירסת האתר השתנתה רבות באותם 31 ימים! על איזו גירסה מדובר?}}.
[[קובץ:HebFreq.png|ממוזער|700px|[[שכיחות]] ה[[אלפבית עברי|אותיות בעברית]] ב[[אחוז]]ים, מהנדירות לנפוצות.]]
{| class="wikitable sortable"