Meta משחררת AI גנרטיבי ליצירת מוזיקה, צלילים

Meta משחררת AI גנרטיבי ליצירת מוזיקה, צלילים

Meta משחררת AI גנרטיבי ליצירת מוזיקה, נשמע PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Meta הוציאה ביום רביעי את AudioCraft, קבוצה של שלושה דגמי AI המסוגלים ליצור סאונד אוטומטית מתיאורי טקסט.

כשמודלים של AI גנרטיביים שלוקחים הנחיות כתובות והופכים אותן לתמונות או לטקסט נוסף ממשיכים להתבגר, מדעני מחשב בוחנים ליצור צורות אחרות של מדיה באמצעות למידת מכונה.

אודיו קשה למערכות AI, במיוחד מוזיקה, מכיוון שהתוכנה צריכה ללמוד לייצר דפוסים קוהרנטיים על פני מספר דקות ולהיות יצירתית מספיק כדי ליצור משהו קליט או נעים להאזנה.

"רצועת מוזיקה טיפוסית של כמה דקות שנדגמה ב-44.1 קילו-הרץ (שהיא האיכות הסטנדרטית של הקלטות מוזיקה) מורכבת ממיליוני שלבי זמן", הסביר Team Meta. כלומר, מודל שמייצר אודיו צריך להוציא הרבה נתונים כדי לבנות מסלול ידידותי לאדם.

"לשם השוואה, מודלים מחוללים מבוססי טקסט כמו Lama ו-Llama 2 מוזנים בטקסט המעובד כמילות משנה המייצגות רק כמה אלפי שלבי זמן לכל דוגמה."

ענקית פייסבוק רואה בעיני רוחם אנשים המשתמשים ב-AudioCraft כדי להתנסות בהפקת צלילים שנוצרו על ידי מחשב ללא צורך ללמוד לנגן בכל כלי. ערכת הכלים מורכבת משלושה דגמים: MusicGen, AudioGen ו-EnCodec. 

MusicGen הוכשרה על 20,000 שעות של הקלטות, בבעלות או ברישיון של Meta, לצד תיאורי הטקסט התואמים שלהם. AudioGen מתמקדת יותר ביצירת אפקטים קוליים ולא במוזיקה, והוכשרה על נתונים ציבוריים. לבסוף, EnCodec מתואר כ-Codec עצבי אובדן שיכול לדחוס ולפרוק אותות אודיו בנאמנות גבוהה.

Meta אמרה שזה "מקור פתוח" של AudioCraft, וזה במידה מסוימת. התוכנה הדרושה כדי ליצור ולהכשיר את המודלים ולהפעיל מסקנות, זמינה תחת רישיון MIT בקוד פתוח. ניתן להשתמש בקוד באפליקציות חינמיות (כמו בחופש ובבירה חופשית) ויישומים מסחריים וכן בפרויקטי מחקר.

עם זאת, משקלי הדגם אינם בקוד פתוח. הם משותפים תחת רישיון Creative Commons האוסר במפורש על שימוש מסחרי. כפי שראינו עם לאמה 2, בכל פעם שמטה מדברת על דברים של מקורות פתוחים, בדוק האותיות הקטנות.

MusicGen ו-AudioGen יוצרים צלילים בהינתן הודעת טקסט קלט. אתה יכול לשמוע קליפים קצרים שנוצרו מהתיאורים "שורקים עם רוח נושבת" ו"רצועת ריקוד פופ עם מנגינות קליטות, כלי הקשה טרופיים ומקצבים אופטימיים, מושלם לחוף הים" ב-Meta's AudioCraft דף נחיתה, כאן

אפקטי הסאונד הקצרים הם מציאותיים, אם כי אלה דמויי המוזיקה אינם נהדרים לדעתנו. הם נשמעים כמו ג'ינגלים שחוזרים על עצמם וגנריים למוזיקה גרועה או לשירי מעליות ולא לסינגלים להיטים. 

חוקרים ב-Meta אמרו AudioGen - מתואר לעומק כאן - הוכשר על ידי המרת אודיו גולמי לרצף של אסימונים, ושחזור הקלט על ידי הפיכתם חזרה לאודיו בנאמנות גבוהה. מודל שפה ממפה קטעים של הנחיית טקסט הקלט לאסימוני השמע כדי ללמוד את המתאם בין מילים וצלילים. MusicGen הוכשר באמצעות תהליך דומה על דגימות מוזיקה ולא על אפקטים קוליים. 

"במקום לשמור על העבודה כקופסה שחורה בלתי חדירה, להיות פתוח לגבי האופן שבו אנחנו מפתחים את המודלים האלה ולהבטיח שקל לאנשים להשתמש בהם - בין אם זה חוקרים או קהילת המוזיקה כולה - עוזר לאנשים להבין מה המודלים האלה יכולים לעשות, להבין מה הם לא יכולים לעשות, ולהיות מוסמכים להשתמש בהם בפועל", טען Team Meta.

"בעתיד, בינה מלאכותית גנרטיבית תוכל לעזור לאנשים לשפר מאוד את זמן האיטרציה על ידי כך שיאפשר להם לקבל משוב מהר יותר בשלבי האב-טיפוס והגרייבוקס המוקדמים - בין אם הם מפתחים גדולים בונה עולמות עבור המטא-וורס, מוזיקאי (חובב, מקצועי או אחרת) עובדים על ההרכב הבא שלהם, או בעל עסק קטן או בינוני שמעוניין לעלות רמה של הנכסים היצירתיים שלו."

אתה יכול להביא את קוד AudioCraft כאן, ולהתנסות עם MusicGen כאן ולנסות את זה. ®

בול זמן:

עוד מ הקופה