מה זה stable diffusion ובמה הוא שונה ממחוללי תמונות אחרים?

מה היתרונות של כלי הבינה המלאכותית Stable Diffusion בהשוואה למתחרים ואיך עובדים איתו נכון: ענבל שטרייכמן-טל, מרצה ורכזת מחשוב וחדשנות דיגיטלית בבית הספר לעיצוב וחדשנות, עושה סדר

ההתפתחות המהירה בתחום הבינה המלאכותית מייצרת כלים רבים יחסית המספקים מענה למגוון צרכים. כבר כעת, בתחומים מסוימים, ישנם מספר כלים העונים על אותו צורך, עם הבדלים קטנים או גדולים, אותם כדאי להכיר.

אחד הכלים שהפכו לפופולריים הוא ה-Stable Diffusion. ענבל שטרייכמן-טל, מרצה ורכזת מחשוב וחדשנות דיגיטלית בבית הספר לעיצוב וחדשנות, מספקת סקירה על הכלי ויכולותיו.

Stable Diffusion היא מכונה משוכללת ועדכנית של בינה מלאכותית שפותחה בשנת 2022 על ידי חוקרים בחברת Anthropic - Stability AI ומוסדות מחקריים נוספים. מכונה זו יודעת להפיק ייצוג ויזואלי ריאליסטי מ- Prompt כתוב.

התחרות בין שני המודלים עליהם מבוסס הכלי יוצרת שיפור מתמיד

על מנת להבין מה עומד מאחורי המושג Stable Diffusion, יש לצלול עמוק לנושא של Machine Learning. אם מנסים לפשט את ההסבר - מדובר במערכת למידה, המורכבת משני מודלים המתחרים זה בזה המכונים GAN (Generative Adversarial Network). מדובר בשני מודלים של רשתות נוירונים: מודל ה-Generator ומודל ה-Discriminator. מודלים אלו מתחרים אחד בשני, על מנת להשתפר במשימת היעד שלהם – לייצר תמונות מסונתזות אך ראליסטיות.

מודל ה- Generator מאומן על מערכת נתונים גדולה מאוד של זוגות טקסט ותמונה, דבר המאפשר לו ללמוד את היחסים בין שפה ומושגים חזותיים, וכתוצאה מכך לייצר נתונים סינטטיים חדשים. דוגמא פשוטה ללימוד המכונה, היא המילה 'כלב' ותמונה ויזואלית של כלב. כאשר למילה כלב יש מילות תיאור רבות, אך כך גם לתיאור ויזואלי של כלב. החיבור והלימוד של המכונה על מאגר נתונים גדול מאוד, מאפשר לה לייצר תמונה ראליסטית של כלב כאשר מזינים ב- Prompt את המילה 'כלב'. בשורה תחתונה, המטרה העיקרית של מודל זה, לייצר תמונות מסונתזות חדשות הדומות לתמונות אמיתיות שצולמו ע"י צלם אנושי, באמצעות לימוד של מושגים והייצוג הוויזואלי שלהן.

לעומתו, תפקידו של מודל ה-Discriminator הוא לזהות אילו מהנתונים שמודל ה- Generator אומן עליהם הם אמיתיים ואילו מזויפים.
"התחרות" ביניהם יוצרת שיפור מתמיד עד שהנתונים המיוצרים זהים כמעט לחלוטין לנתונים האמיתיים, כדוגמת תמונות ריאליסטיות,
שלא ניתן לזהות האם נוצרו באמצעות בינה מלאכותית או צולמו ע"י גורם אנושי.

בנוסף הכוח של הבינה המלאכותית הוא לא רק לייצר תוכן על בסיס מערך הידע שהוזן בה, אלא בכך שהיא מסוגלת להכליל את הידע שרכשה מעבר לנתוני האימון הישירים וליישמו על נתונים חדשים. זו יכולת חשובה מאוד עבור מודלים מתקדמים, ויש לה פוטנציאל יצירתי משמעותי ביצירת מדיה, אמנות דיגיטלית, עיצוב גרפי ועוד.

מאז השקת הקוד הפתוח באוגוסט 2022, מפתחים בנו ממשקים הממנפים את Stable Diffusion לשימוש ציבורי. פלטפורמות פופולריות שמאחוריהן עומדת המכונה Stable Diffusion כוללות בין השאר את Leonardo Ai , DreamStudio ו- RunwayML. פלטפורמות אלו מאפשרות לכל אחד לגשת בקלות ליצירת תמונות, באמצעות Prompt טקסט ללא צורך במומחיות נרחבת בלמידת מכונה.

כאשר משתמשים ב-prompt חשוב להזכיר את השימוש בפרמטר No בכתיבת Prompts : כאשר משתמשים בפרמטר No בכתיבת Prompt הכוונה למילים, ביטויים, מושגים שלא רוצים שיכללו בדימויים שהמכונה מייצרת. לדוגמא, כאשר אנו רוצים לייצר תמונה של דמות אישה על רקע עירוני ולא רוצים לראות בתמונה מכוניות ועצים, אז יהיה צורך להגדיר את ה -Prompt כך: Imagine a front view of a young, stylish woman in an urban setting. The scene is vibrant, capturing the essence of urban energy, --no cars, trees.

מובילה מול המתחרות באיכות התמונה

בתחום הבינה המלאכותית הוויזואלית, במקביל ל- Stable Diffusion נמצאות גם Dall-E3 ו- Midjourney.
Stable Diffusion נחשבת היום למובילה מבחינת איכות התמונה, ובנוסף ל- Stable Diffusion יש יתרונות בפיתוח, שינוי ועדכון של הקוד הפתוח, כמו גם, ניתן להריץ את המכונה על חומרה אישית ולא רק בענן, ויש לה יכולות עריכה ושליטה מתקדמות. החסרונות שלה לעומת זאת, מתבטאים בחוסר עקביות ביצירת אובייקטים והידע הטכני הנדרש להפעלה ואימון על חומרה אישית (כאשר מורידים את המכונה בפורמט הקוד הפתוח למחשב האישי). Dall-E3 ו- Midjourney לעומתה הם ממשקים פשוטים וידידותיים למשתמש, בעלי זמני עיבוד מהירים, יכולת הכללה ועקביות של התוצרים.

לסיכום, Stable Diffusion מייצגת קפיצת מדרגה משמעותית ביכולת של בינה מלאכותית ליצור תוכן חזותי ריאליסטי ואיכותי. הטכנולוגיה מאפשרת לכל אדם ליצור גרפיקה, איורים, תמונות ואמנות דיגיטלית באיכות גבוהה על בסיס טקסט בלבד.

זוהי קפיצת מדרגה עצומה שמאפשרת דמוקרטיזציה של יצירה ועיצוב, נגישות לקהל יעד רחב של יוצרים מתחומים שונים למימוש הרעיונות שלהם ללא צורך במיומנות אמנותית. יחד עם זאת, הטכנולוגיה עדיין בתחילת דרכה, ונדרשת עבודה רבה על שיפור איכות התוצאות, יציבות ומניעת הטיות שליליות. אך הפוטנציאל למהפכה בתחומי היצירה והעיצוב כבר בעיצומו, והשפעתו צפויה לגדול משמעותית בשנים הקרובות.

בבית הספר לעיצוב וחדשנות, הושק קורס חדש - "הלוחש ל- Ai, בינה מלאכותית בשירות המעצב" - בו לומדים הסטודנטים והסטודנטיות כלים של בינה מלאכותית, ונפתחים בפניהם עולמות חדשים של יצירתיות, המתאפשרים כתוצאה מהשילוב בין המוח האנושי לבינת המכונה.

הקורס מלמד כלים של:
• Text to Text -Chat GPT / Claud Ai / Perplexity Ai
• Text to Image / Image to Image – Midjourney / Dall-E3 / Adobe
• Image to Video / Video to Video – RunwayML / Kiber
• כלים לפרזנטציה מבוססי בינה מלאכותית - Canva / Adobe Express

בסוף הקורס, הסטודנטים והסטודנטיות יפתחו באמצעות בינה מלאכותית פרויקט שלם, החל מניתוח מילולי, דרך אימג'ים ויזואליים ועד סרטונים ופרזנטציה. כלים אלו יאפשרו להם לצאת לשוק העבודה ולהיות חלק מדור של מעצבים ומעצבות חדשניים שיעבדו בעולם דיגיטלי המתפתח במהירות בתחומים אלו.