כלי הבינה המלאכותית גורמים לתמונות להיראות טובות יותר | מגזין קוונטה

כלי הבינה המלאכותית גורמים לתמונות להיראות טובות יותר | מגזין קוונטה

כלי הבינה המלאכותית גורמים לתמונות להיראות טובות יותר | Quanta Magazine PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מבוא

זו אחת הקלישאות הגדולות ביותר בפשע ובמדע בדיוני: חוקר מעלה תמונה מטושטשת על מסך מחשב ומבקש לשפר אותה, ובום, התמונה נכנסת לפוקוס, וחושף איזה רמז חיוני. זו נוחות נהדרת לסיפור סיפורים, אבל זו הייתה פיקציה מתסכלת במשך עשרות שנים - פוצץ תמונה יותר מדי, והיא הופכת להיות מפוקסלת בעליל. אין מספיק נתונים כדי לעשות יותר.

"אם אתה רק משדרג תמונה נאיבית, היא תהיה מטושטשת. יהיו הרבה פרטים, אבל זה יהיה שגוי", אמר בריאן קטנזארו, סגן נשיא למחקר למידה עמוקה יישומי ב-Nvidia.

לאחרונה החלו חוקרים ואנשי מקצוע לשלב אלגוריתמי בינה מלאכותית בכלים לשיפור התמונה שלהם, מה שהופך את התהליך לקל וחזק יותר, אך עדיין יש גבולות לכמה נתונים ניתן לאחזר מכל תמונה. למרבה המזל, כאשר חוקרים דוחפים אלגוריתמי שיפור עוד ועוד, הם מוצאים דרכים חדשות להתמודד עם המגבלות הללו - אפילו, לפעמים, מוצאים דרכים להתגבר עליהם.

בעשור האחרון, חוקרים החלו לשפר תמונות עם סוג חדש של מודל בינה מלאכותית הנקראת רשת יריבות יצירתית, או GAN, שיכולה לייצר תמונות מפורטות ומרשימות למראה. "התמונות פתאום התחילו להיראות הרבה יותר טוב", אמר תומר מיכאלי, מהנדס חשמל בטכניון בישראל. אבל הוא הופתע מכך שתמונות שנוצרו על ידי GANs הראו רמות גבוהות של עיוות, המודדת עד כמה תמונה משופרת קרובה למציאות הבסיסית של מה שהיא מציגה. מערכות GAN יצרו תמונות שנראו יפות וטבעיות, אבל הן למעשה הרכיבו, או "הזוי", פרטים שלא היו מדויקים, שנרשמו כרמות גבוהות של עיוות.

מיכאלי צפתה בתחום שחזור התמונות מתפצל לשתי תת-קהילות מובחנות. "אחד הראה תמונות נחמדות, רבות מהן נוצרו על ידי GANs. השני הראה נתונים, אבל הם לא הראו הרבה תמונות, כי הם לא נראו נחמדים", אמר.

בשנת 2017, מיכאלי ותלמידו לתואר שני יוחאי בלאו בחנו את הדיכוטומיה הזו בצורה רשמית יותר. הם שרטטו את הביצועים של אלגוריתמים שונים לשיפור התמונה על גרף של עיוות לעומת איכות תפיסה, תוך שימוש במדד ידוע לאיכות תפיסה שמתאם היטב עם השיפוט הסובייקטיבי של בני אדם. כפי שציפתה מיכאלי, חלק מהאלגוריתמים הביאו לאיכות חזותית גבוהה מאוד, בעוד שאחרים היו מאוד מדויקים, עם עיוות נמוך. אבל לאף אחד לא היו שני היתרונות; היית צריך לבחור אחד או אחר. החוקרים כינו את זה הפשרה בין תפיסה לעיוות.

גם מיכאלי אתגר חוקרים אחרים להמציא אלגוריתמים שיוכלו לייצר את איכות התמונה הטובה ביותר עבור רמת עיוות נתונה, כדי לאפשר השוואה הוגנת בין האלגוריתמים של התמונות היפות לאלו הסטטיסטיות הנחמדות. מאז, מאות חוקרי בינה מלאכותית דיווחו על איכויות העיוות והתפיסה של האלגוריתמים שלהם, מצטט את העיתון מיכאלי ובלאו שתיאר את הפשרה.

לפעמים, ההשלכות של הפשרה בין תפיסה לעיוות אינן חמורות. Nvidia, למשל, מצאה שמסכי ברזולוציה גבוהה לא מציגים בצורה יפה תוכן חזותי בחדות נמוכה יותר, אז בפברואר היא הוציאה כלי שמשתמש בלמידה עמוקה כדי לשדרג סטרימינג של וידאו. במקרה זה, המהנדסים של Nvidia בחרו באיכות תפיסתית על פני דיוק, תוך שהם מקבלים את העובדה שכאשר האלגוריתם משדרג את הווידאו, הוא מרכיב כמה פרטים ויזואליים שאינם בסרטון המקורי. "הדוגמנית הזויה. הכל ניחוש," אמר קטנזארו. "לרוב זה בסדר שמודל ברזולוציית על מנחש לא נכון, כל עוד זה עקבי."

מבוא

יישומים במחקר וברפואה דורשים כמובן הרבה יותר דיוק. טכנולוגיית בינה מלאכותית הובילה להתקדמות גדולה בתחום ההדמיה, אך היא "לפעמים מגיעה עם תופעות לוואי לא רצויות, כמו התאמה יתר או [הוספת] תכונות מזויפות, ולכן יש להתייחס אליה בזהירות רבה", אמר. ג'ונג'י יאו, מהנדס ביו-רפואי באוניברסיטת דיוק. בשנה שעברה, הוא היה שותף לכתיבת א מאמר מתאר כיצד כלי בינה מלאכותית יכולים לשפר שיטות קיימות למדידת זרימת דם ומטבוליזם במוח - תוך הישארות בטוחה בצד המדויק של הפשרה בין תפיסה לעיוות.

אחת הדרכים לעקוף מגבלות על כמות הנתונים שניתן לחלץ מתמונה היא פשוט לשלב נתונים מיותר תמונות - אם כי לרוב זה לא כל כך פשוט. חוקרים שחוקרים את הסביבה באמצעות צילומי לוויין התקדמו בשילוב מקורות שונים של נתונים חזותיים. בשנת 2021, קבוצת חוקרים בסין ובבריטניה נתונים מתמזגים משני סוגים שונים של לוויינים כדי לקבל תצוגה טובה יותר של כריתת היערות באגן קונגו, יער הגשם הטרופי השני בגודלו בעולם ואחד מחנויות המגוון הביולוגי הגדולות ביותר. החוקרים לקחו נתונים משני לווייני Landsat, שמדדו כריתת יערות במשך עשרות שנים, והשתמשו בטכניקות למידה עמוקה כדי לחדד את הרזולוציה של התמונות מ-30 מטרים ל-10 מטרים. לאחר מכן הם איחו את סט התמונות הזה עם נתונים משני לווייני Sentinel-2, שיש להם מערך גלאים שונה במקצת. התמונות המשולבות "אפשרו לזהות 11% עד 21% יותר אזורים מופרעים ממה שהיה אפשרי באמצעות תמונות Sentinel-2 או Landsat-7/8 בלבד", הם כתבו.

מיכאלי מציעה דרך נוספת לעקוף, אם לא דרך, מגבלות קשות על נגישות המידע. במקום להסתפק בתשובה נחרצת אחת כיצד לשפר תמונה באיכות נמוכה, דגמים יכולים להראות מספר פרשנויות שונות של התמונה המקורית. במאמר שכותרתו "רזולוציית סופר ניתנת לבדיקה," הוא עזר להדגים כיצד כלים לשיפור תמונה יכולים להציג למשתמש מספר הצעות. תמונה אחת מטושטשת ברזולוציה נמוכה של אדם לובש מה שנראה כחולצה אפורה יכולה להיות משוחזרת לתמונה ברזולוציה גבוהה יותר שבה לחולצה יש פסים אנכיים בשחור-לבן, פסים אופקיים או שיבולים, כולם סבירים באותה מידה .

בדוגמה אחרת, מיכאלי צילמה תמונה באיכות נמוכה של לוחית רישוי והעבירה אותה דרך משפר תמונה מוביל בינה מלאכותית, שהראה ש-1 בלוחית הרישוי נראה הכי כמו אפס. אבל כשהתמונה עובדה על ידי אלגוריתם אחר ופתוח יותר שמיכאלי עיצבה, הספרה נראתה באותה מידה להיות אפס, 1 או 8. גישה זו יכולה לעזור לשלול ספרות אחרות מבלי להגיע למסקנה מוטעית שהספרה היא אפס.

בעוד דיסציפלינות שונות מתמודדות עם הפשרה בין תפיסה לעיוות בדרכים שלהן, השאלה כמה אנחנו יכולים לחלץ מתמונת AI ועד כמה אנחנו יכולים לסמוך על התמונות האלה נשארת מרכזית. "עלינו לזכור שכדי להוציא את התמונות היפות האלה, האלגוריתמים רק מרכיבים פרטים", אמרה מיכאלי. אנחנו יכולים למתן את ההזיות האלה, אבל כפתור ה"שפר" הכל יכול, פותר פשע, יישאר בגדר חלום.

בול זמן:

עוד מ קוונטמגזין