DALL-E (מסוגנן כ-DALL·E; הלחם בסיסים של דאלי ושל וול-E)[1][2] היא תוכנת בינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים.

Dall-E
DALL·E
תמונה שיצרה DALL-E 2 על פי ההנחיה: "תמונה של יד רובוטית מציירת, אמנות דיגיטלית" ("A photo of a robot hand drawing, digital art")
תמונה שיצרה DALL-E 2 על פי ההנחיה:
"תמונה של יד רובוטית מציירת, אמנות דיגיטלית"
("A photo of a robot hand drawing, digital art")
מפתח OpenAI
מחזור חיים 5 בינואר 2021 – הווה
labs.openai.com

התוכנה משתמשת בכ-12 מיליארד פרמטרים[2] בגרסה של מודל ה-GPT-3 כדי לפרש קלט טקסטואלי משפה טבעית (כמו "ארנק עור ירוק בצורת מחומש" או "תצוגה איזומטרית של קפיבארה מצויה עצובה") וליצור תמונות בהתאם.[1] היא יכולה ליצור דימויים של חפצים ריאליסטיים ("חלון ויטראז' עם תמונה של תות כחול") וגם של חפצים שאינם קיימים במציאות ("קובייה במרקם של דורבן").[3][4][5]

משנות ה-2000 ואילך רשתות עצביות מלאכותיות רבות הצליחו ליצור תמונות מציאותיות.[1] ייחודה של DALL-E בכך שהיא מסוגלת לייצר אותן על בסיס הנחיות בשפה טבעית, שאותן היא מיישמת לרוב ורק לעיתים נדירות נכשלת, וגם זאת לא באופן משמעותי.[1]

OpenAI לא פרסמה קוד מקור לאף אחד מהדגמים, אף על פי ש"בקר" של DALL-E זמין באתר האינטרנט של OpenAI, שבו ניתן לראות פלט ממבחר מוגבל של הנחיות לדוגמה.[2] חלופות קוד פתוח, שהוכשרו על כמויות קטנות יותר של נתונים, כמו DALL-E Mini, שוחררו על ידי אחרים.[6]

לפי "MIT Technology Review", אחת המטרות של OpenAI הייתה "לתת למודלי שפות תפיסה טובה יותר של המושגים היומיומיים שבני אדם משתמשים בהם כדי להבין דברים".[7]

היסטוריה עריכה

 
תמונות שהופקו על ידי DALL-E על פי הנחיית הטקסט: "איור מקצועי באיכות גבוהה של ג'ירף דרקון כימרה. ג'ירפה מחקה דרקון. ג'ירפה עשויה מדרקון."
 
DALL-E 2 הצליח לייצר תמונה מציאותית על פי ההנחיה "כלב שיבה אינו עם כומתה וצווארון גולף".

ב-5 בינואר 2021 נחשף DALL-E על ידי OpenAI, חברה אמריקאית למחקר בינה מלאכותית.[7]

באפריל 2022, OpenAI הכריזה על DALL-E 2, בטענה שהיא יכולה להפיק תמונות פוטו-ריאליסטיות מתיאורים טקסטואליים, יחד עם עורך המאפשר שינויים פשוטים בפלט. נכון לזמן ההכרזה, נאמר שהתוכנה עדיין נמצאת בשלב המחקר, כשהגישה מוגבלת למשתמשי בטא שנבחרו מראש. המודל עדיין יכול לעשות טעויות חמורות, כולל טעויות שאף אדם לא יעשה.[8] DALL-E 2 תואר כדגם ש"יכול ליצור תמונות ואמנות מקוריות וריאליסטיות מתיאור טקסט. היא יכולה לשלב מושגים, תכונות וסגנונות."[9]

באוקטובר 2023, OpenAI השיקה את DALL·E 3 המוטמעת בצורה אינטגרלית בתוך ChatGPT. הצ׳אטבוט יכול כעת ליצור תמונות ייחודיות משיחה פשוטה - והתכונה החדשה הזו זמינה בשלב זה למשתמשי Plus ו-Enterprise. מיקרוסופט הטמיעה את המודל בכלי Image Creator של Bing ומתכננת ליישם אותו באפליקציות נוספות שלהן.

CLIP עריכה

DALL-E פותח והוכרז לציבור בשיתוף עם CLIP (הדרכה מקדימה של שפה-תמונה נגדית).[7] CLIP הוא מודל נפרד שתפקידו "להבין ולדרג" את התפוקה של DALL-E.[1] התמונות ש-DALL-E מייצר נשמרות ומדורגות על ידי CLIP, שמציגה את התמונות האיכותיות ביותר עבור כל הנחיה נתונה.[7]

ארכיטקטורת תוכנה עריכה

המודל Generative Pre-trained Transformer ‏ (GPT) פותח לראשונה על ידי OpenAI בשנת 2018,[10] תוך שימוש בארכיטקטורת Transformer. האיטרציה הראשונה, GPT, הוגדלה כדי לייצר את GPT-2 ב-2019;[11] בשנת 2020 הוא הוגדל שוב לייצור GPT-3, עם 175 מיליארד פרמטרים.[2]

המודל של DALL-E הוא מימוש מולטי-מודאלי של PT-3 עם 12 מיליארד פרמטרים[2] אשר "מחליף טקסט לפיקסלים", מאומן על צמדי טקסט-תמונה מהאינטרנט.[7] הוא משתמש בלמידת אפס-שוט (zero-shot learning) כדי ליצור פלט מתיאור ורמז ללא הכשרה נוספת.[12]

DALL-E יוצר מספר תמונות בתגובה להנחיות. מודל CLIP[1] שהוכשרו בו למעלה מ-400 מיליון זוגות של תמונות וטקסטים מבין ומדרג תמונות אלו.[2][13] במקום מערך נתונים של תמונות עם כותרת (כמו ImageNet)[7] CLIP משייך תמונות לכיתובים שלמים.[7] CLIP הוכשר לחזות איזה כיתוב (מתוך "בחירה אקראית" של 32,768 כיתובים אפשריים) היה המתאים ביותר לתמונה, מה שמאפשר לה לזהות לאחר מכן אובייקטים בתמונות מחוץ לסט האימונים שלה.[7]

ביצועים עריכה

 
חוסר הבחנה בין "פנדה עושה ציור בקפה" לבין "ציור בקפה של פנדה" ב-DALL-E 2
 
הדמיה אדריכלית שייצר DALL-E תוך התבססות על סגנונה של האדריכלית זהא חדיד.

DALL-E מסוגלת ליצור דימויים במגוון סגנונות, מתמונות פוטוריאליסטיות[2] ועד לציורים ואמוג'י. היא מסוגלת לבצע מניפולציות ולסדר מחדש אובייקטים בתמונות.[2] אחת היכולות שצוינו על ידי יוצריה הייתה המיקום הנכון של אלמנטים עיצוביים ללא הוראה מפורשת: לדוגמה, כאשר מתבקש לצייר צנון-דייקון מקנח את אפו, לוגם לאטה או רוכב על חד אופן, DALL·E מצייר לעיתים קרובות את המטפחת, הידיים והרגליים במקומות סבירים.[14]

בעוד ש-DALL-E הציג מגוון רחב של מיומנויות ויכולות, עם הוצאתה של ההדגמה הציבורית שלו, רוב הסיקור התמקד בתת-קבוצה קטנה של תמונות פלט "סוריאליסטיות"[7] או "מוזרות".[15] באופן ספציפי, הפלט של DALL-E עבור "איור של צנון דייקון תינוק בחצאית טוטו מטייל עם כלב" הוזכר ב-Nature[16], ‏NBC[17] ופרסומים אחרים.[2][18][19] הפלט שלו ל"כורסה בצורת אבוקדו" צוין באופן דומה.[7][20] לעומת זאת, נצפה פיתוח לא מכוון של DALL-E של מיומנויות חשיבה חזותית המספיקות לפתור את המטריצות של רייבן (Raven's Progressive Matrices), מבחנים חזותיים המבוצעים לעיתים קרובות לבני אדם כדי למדוד אינטליגנציה.[21]

למרות זאת, DALL-E תואר כ"חזק להפליא לשינויים כאלה" ואמין בהפקת תמונות עבור מגוון רחב של תיאורים שרירותיים.[1] סם שד,מ-CNBC, כינה את התמונות שלו "מוזרות" וציטט את ניל לורנס, פרופסור ללמידת מכונה באוניברסיטת קיימברידג', שתיאר זאת כ"הדגמה מעוררת השראה של היכולת של מודלים אלה לאחסן מידע על העולם שלנו ולעשות הכללות בדרכים שעבור בני אדם הן טבעיות מאוד". שד גם ציטט את מארק רידל, פרופסור חבר בבית הספר למחשוב אינטראקטיבי של ג'ורג'יה טק, שאמר שתוצאות ההדגמה של DALL-E הראו שהיא מסוגל "למזג מושגים באופן קוהרנטי", מרכיב מפתח ביצירתיות אנושית, וכי התוכנה מדגימה באופן יוצא דופן הפקת איורים שהם הרבה יותר קוהרנטיים ממערכות Text2Image אחרות מהשנים האחרונות.[15] רידל גם צוטט על ידי ה-BBC שהוא "התרשם ממה שהמערכת יכולה לעשות".[20]

צוינה לטובה גם היכולת של DALL-E "להשלים את החסר" ולהסיק מפרטים . ExtremeTech ציין כי הנחיה לצייר פינגווין שלובש סוודר חג המולד יצרה לא רק תמונות של פינגווינים לובשים סוודרים, אלא גם כובעי סנטה הקשורים לנושא,[22] ו-Engadget ציין כי צללים ממוקמים כראוי הופיעו בפלט עבור ההנחיה "ציור של שועל יושב בשדה בחורף".[12] יתר על כן, DALL-E מציג הבנה רחבה של מגמות חזותיות ועיצוביות; ExtremeTech אמר כי "אתה יכול לבקש מ-DALL-E תמונה של טלפון או שואב אבק מתקופת זמן מוגדרת, והוא מבין איך החפצים האלה השתנו".[22] Engadget גם ציין את יכולתה יוצאת הדופן "להבין כיצד טלפונים וחפצים אחרים משתנים עם הזמן".[12] DALL-E תואר, יחד עם "AI צר" אחר כמו AlphaGo, AlphaFold ו-GPT-3 כיוצר עניין בשאלה האם וכיצד ניתן להשיג בינה כללית מלאכותית.[23]

קישורים חיצוניים עריכה

  מדיה וקבצים בנושא DALL-E בוויקישיתוף
ביקורות

הערות שוליים עריכה

  1. ^ 1 2 3 4 5 6 7 Coldewey, Devin (5 בינואר 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". ארכיון מ-6 בינואר 2021. נבדק ב-5 בינואר 2021. {{cite web}}: (עזרה)
  2. ^ 1 2 3 4 5 6 7 8 9 Johnson, Khari (5 בינואר 2021). "OpenAI debuts DALL-E for generating images from text". VentureBeat. ארכיון מ-5 בינואר 2021. נבדק ב-5 בינואר 2021. {{cite web}}: (עזרה)
  3. ^ Grossman, Gary (16 בינואר 2021). "OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator". VentureBeat. ארכיון מ-26 בפברואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  4. ^ Andrei, Mihai (8 בינואר 2021). "This AI module can create stunning images out of any text input". ZME Science. ארכיון מ-29 בינואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  5. ^ Walsh, Bryan (5 בינואר 2021). "A new AI model draws images from text". Axios. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  6. ^ Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata (2021), DALL·E Mini, doi:10.5281/zenodo.5146400, נבדק ב-2021-11-29
  7. ^ 1 2 3 4 5 6 7 8 9 10 Heaven, Will Douglas (5 בינואר 2021). "This avocado armchair could be the future of AI". MIT Technology Review. נבדק ב-5 בינואר 2021. {{cite web}}: (עזרה)
  8. ^ KAHN, JEREMY (6 באפריל 2022). "Move over Photoshop: OpenAI has just revolutionized digital image making". Fortune (באנגלית). נבדק ב-2022-04-10. {{cite web}}: (עזרה)
  9. ^ "DALL·E 2". OpenAI (באנגלית). נבדק ב-6 באפריל 2022. {{cite web}}: (עזרה)
  10. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 ביוני 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. ארכיון (PDF) מ-26 בינואר 2021. נבדק ב-23 בינואר 2021. {{cite web}}: (עזרה)
  11. ^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 בפברואר 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). ארכיון (PDF) מ-6 בפברואר 2021. נבדק ב-19 בדצמבר 2020. {{cite journal}}: (עזרה); Cite journal requires |journal= (עזרה)
  12. ^ 1 2 3 Dent, Steve (6 בינואר 2021). "OpenAI's DALL-E app generates images from just a description". Engadget. ארכיון מ-27 בינואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  13. ^ "For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions". Synced. 5 בינואר 2021. ארכיון מ-6 בינואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  14. ^ Dunn, Thom (10 בפברואר 2021). "This AI neural network transforms text captions into art, like a jellyfish Pikachu". BoingBoing. ארכיון מ-22 בפברואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  15. ^ 1 2 Shead, Sam (8 בינואר 2021). "Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab". CNBC. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  16. ^ Ehrenkranz, Melanie (27 בינואר 2021). "Here's DALL-E: An algorithm learned to draw anything you tell it". NBC News. ארכיון מ-20 בפברואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  17. ^ Stove, Emma (5 בפברואר 2021). "Tardigrade circus and a tree of life — January's best science images". Nature. ארכיון מ-8 במרץ 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  18. ^ Knight, Will (26 בינואר 2021). "This AI Could Go From 'Art' to Steering a Self-Driving Car". Wired. ארכיון מ-21 בפברואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  19. ^ Metz, Rachel (2 בפברואר 2021). "A radish in a tutu walking a dog? This AI can draw it really well". CNN. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  20. ^ 1 2 Wakefield, Jane (6 בינואר 2021). "AI draws dog-walking baby radish in a tutu". British Broadcasting Corporation. ארכיון מ-2 במרץ 2021. נבדק ב-3 במרץ 2021. {{cite web}}: (עזרה)
  21. ^ Markowitz, Dale (10 בינואר 2021). "Here's how OpenAI's magical DALL-E image generator works". TheNextWeb. ארכיון מ-23 בפברואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  22. ^ 1 2 Whitwam, Ryan (6 בינואר 2021). "OpenAI's 'DALL-E' Generates Images From Text Descriptions". ExtremeTech. ארכיון מ-28 בינואר 2021. נבדק ב-2 במרץ 2021. {{cite web}}: (עזרה)
  23. ^ Nichele, Stefano (2021). "Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve". Genetic Programming and Evolvable Machines. 22: 141–145. doi:10.1007/s10710-021-09398-5.