Bag of words (ראייה ממוחשבת)
בתחום ראייה ממוחשבת, מודל bag-of-words (מודל BoW) מיושם בבעיות של סיווג תמונה, על ידי כך שמסתכלים על חלקים בתמונה כעל מילים ויזואליות. בסיווג מסמך, bag-of-words הוא וקטור דליל של ספירת מופעים של מילים. כלומר, היסטוגרמה דלילה על אוצר המילים הנתון (הנקרא מילון). בראייה ממוחשבת, bag-of-visual-words הוא וקטור דליל של ספירת מופעים של מילים ויזואליות מתוך אוצר מילים ויזואליות נתון.
ייצוג על בסיס מודל BoW
עריכהייצוג תמונה המבוסס על מודל BoW
עריכהעל מנת לייצג תמונה באמצעות מודל זה, ניתן להתייחס לתמונה כמו אל מסמך. באנלוגיה, יש צורך להגדיר מהן "מילים" בתמונות. הגדרת המילים והמילון תעשה באמצעות שלושה שלבים עיקריים: גילוי מאפיינים (ראייה ממוחשבת), תיאור מאפיינים ויצירת מילון באמצעות המתארים.
ייצוג מאפיינים
עריכהלאחר זיהוי מאפיינים, כל תמונה מיוצגת ע”י חלקים מקומיים באזור המאפיינים. שיטות לייצוג מאפיינים מתמודדות עם השאלה איך לייצג את המאפיינים באמצעות וקטורים מספריים. וקטורים אלו נקראים מתארים (feature descriptors). מתאר טוב הוא מתאר שמסוגל להתמודד עם שינויי עוצמה בתמונה, סיבוב, שינוי קנה מידה במידה מסוימת. אחד מהמתארים המפורסמים ביותר הוא SIFT Scale-invariant feature transform. המייצג כל אזור נבחר בתמונה כוקטור מספרי 128 ממדים.
לאחר שלב ייצוג המאפיינים, כל תמונה היא אוסף של וקטורים מאותו הממד (128 ל-SIFT), שבו הסדר של וקטורים שונים הוא חסר חשיבות.
יצירת המילון
עריכההשלב האחרון במודל BoW הוא להמיר את האזורים שיוצגו באמצעות וקטורים לאוסף של "מילות קוד" או "מילים ויזואליות" (מילים באנלוגיה למסמכי טקסט), שגם מייצר codebook (אנלוגיה למילה במילון). מילת קוד יכולה לייצג מספר אזורים דומים. שיטה פשוטה אחת לקבלת המילים הוויזואליות היא ביצוע אשכול k-means על כל הווקטורים. [5] מילות קוד לאחר מכן הן המרכזים של הצבירים שנלמדו. מספר האשכולות הוא מספר המילים במילון הוויזואלי (אנלוגיה לגודל של המילון בטקסט).
לפיכך, כל אזור מאפיין בתמונה ממופה למילת קוד מסוימת בתהליך האשכול, והתמונה יכולה להיות מיוצג על ידי היסטוגרמה של מילות הקוד. הסטוגרמה זו מיוצרת על ידי ספירה של המופעים של המילים הוויזואליות מתוך המילון, בתמונה.
לקריאה נוספת
עריכה- Szeliski, Richard. Computer vision: algorithms and applications. Springer, 2010. פרק 14
- Csurka, Gabriella, et al. "Visual categorization with bags of keypoints." Workshop on statistical learning in computer vision, ECCV. Vol. 1. 2004.