שכיחות אותיות בעברית – הבדלי גרסאות

תוכן שנמחק תוכן שנוסף
מיפ33 (שיחה | תרומות)
אין תקציר עריכה
תגיות: עריכה ממכשיר נייד עריכה מיישום נייד
רן כהן (שיחה | תרומות)
אנחנו צריכים לאזכר את עצמנו...
שורה 3:
מידע על [[שכיחות אותיות| שכיחות האותיות]] שימושי לפענוח [[הצפנה|צפנים]] המבוססים על החלפת [[אות|אותיות]], מסייע ל[[מחקר]] [[בלשנות|בלשני]] וחיוני ב[[בלשנות חישובית]] וב[[עיבוד שפה טבעית]].
 
להלן שכיחות אותיותהאותיות בשניבשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בכלבשניים אחדהראשונים וכ<span title="507779597" >500</span> מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון [[הארץ]] מהשנים 1991-1990, והשניהשני מאגר [[פרוטוקול]]יםפרוטוקולים של [[הכנסת]] משנת 2004 והשלישי הוא ויקיפדיה עצמה. המאגרשני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [http://www.mila.cs.technion.ac.il], והאחרון נלקח מויקיפדיה העיברית של מאי 2016.
 
[[קובץ:HebFreq2.png|ממוזער|400px|[[שכיחות]] ה[[אלפבית עברי|אותיות בעברית]] ב[[אחוז]]ים, מהנדירות לנפוצות.]]
{| class="wikitable sortable"
! האות || שכיחות (עיתון הארץ) || שכיחות (כנסת) || שכיחות (ויקיפדיה)
|-
| [[א]]|| 6.25% || 4.83% || 4.66%
|-
| [[ב]]|| 5.22% || 5.27% || 5.36%
|-
| [[ג]]|| 1.15% || 1.43% || 1.78%
|-
| [[ד]]|| 3.16% || 2.66% || 2.66%
|-
| [[ה]]|| 9.22% || 8.78% || 8.40%
|-
| [[ו]]|| 10.27% || 10.87% || 11.2%
|-
| [[ז]]|| 1.11% || 0.85% || 0.93%
|-
| [[ח]]|| 2.52% || 2.47% || 2.20%
|-
| [[ט]]|| 0.90% || 1.32% || 1.78%
|-
| [[י]]|| 11.22% || 11.78% || 11.7%
|-
| [[ך]]|| 0.48% || 0.38% || 0.38%
|-
| [[כ]]|| 2.62% || 2.27% || 1.88%
|-
| [[ל]]|| 6.74% || 6.68% || 6.20%
|-
| [[ם]]|| 3.00% || 3.01% || 2.63%
|-
| [[מ]]|| 4.72% || 5.31% || 5.13%
|-
| [[ן]]|| 1.48% || 1.27% || 1.36%
|-
| [[נ]]|| 3.89% || 3.37% || 3.65%
|-
| [[ס]]|| 1.69% || 1.73% || 2.23%
|-
| [[ע]]|| 3.04% || 3.21% || 2.65%
|-
| [[ף]]|| 0.16% || 0.23% || 0.22%
|-
| [[פ]]|| 1.50% || 2.05% || 2.29%
|-
| [[ץ]]|| 0.11% || 0.16% || 0.20%
|-
| [[צ]]|| 1.37% || 1.34% || 1.30%
|-
| [[ק]]|| 1.85% || 2.31% || 2.62%
|-
| [[ר]]|| 5.56% || 5.83% || 6.65%
|-
| [[ש]]|| 5.00% || 4.77% || 4.24%
|-
| [[ת]]|| 5.65% || 5.68% || 5.46%
|-
|}