שכיחות אותיות בעברית – הבדלי גרסאות
תוכן שנמחק תוכן שנוסף
אנחנו צריכים לאזכר את עצמנו... |
אין תקציר עריכה |
||
שורה 5:
להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בשניים הראשונים וכ<span title="507779597" >500</span> מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 1991-1990, השני מאגר פרוטוקולים של הכנסת משנת 2004 והשלישי הוא ויקיפדיה עצמה. שני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [http://www.mila.cs.technion.ac.il], והאחרון נלקח מויקיפדיה העיברית של מאי 2016.
[[קובץ:
{| class="wikitable sortable"
! האות || שכיחות (עיתון הארץ) || שכיחות (כנסת) || שכיחות (ויקיפדיה)
|