גוגל'ס נודלס: טכנולוגיית Machine learning של גוגל לזיהוי תמונה עולה ביכולותיה על העין האנושית

אזורי תוכן באתר

Tech Forum VideosCTO CornerYalla To The CloudNewsletterBlogsFinOpsCloud SecurityAWS

אחד הטרנדים החמים שכבש את הקולינריה הישראלית לאחרונה הוא מרק ה'ראמן' (Ramen), אותו תבשיל יפני מסורתי מאטריות, ציר בשר, ביצה וירקות. רבים בישראל וגם בעולם כבר מכורים למרק ראמן ופיתחו מומחיות בסגנונות ההכנה ובמסורות השונות להגשתו, אבל יתכן מאוד שחסידת הראמן הגדולה מכולן היא דווקא... האינטליגנציה המלאכותית של גוגל. כך לפחות עולה ממקרה-בוחן שערך לאחרונה ביפן מדען הנתונים קנג'י דוי (Kenji Doi).

קנג'י השתמש במודלים של לימוד מכונה וב-Cloud AutoML Vision של גוגל כדי לסווג תמונות של קערות ראמן שהוכנו באותה רשת מזון ולזהות באיזה מ-41 סניפי הרשת הוכנה המנה, והגיע לרמת דיוק של 95%. הישג מדהים ללא ספק - במיוחד אחרי שרואים עד כמה התמונות דומות זו לזו:

‍

‍

רשת מסעדות "ראמן ג'ירו" (Ramen Jiro) היא אחת מהפופולריות ביפן, עם 41 סניפים באזור הבירה טוקיו אשר מגישים מרקי ראמן מסורתיים במחיר אטרקטיבי לכל דורש. בכל סניפי "ראמן ג'ירו" יש אותו תפריט בסיסי, וכמו שתוכלו לראות בתמונות למעלה, כמעט בלתי אפשרי לזהות באיזה מ-41 סניפי הרשת הוכנה קערה ספציפית של מרק ראמן - במיוחד אם אינך לקוח קבוע.

אבל ד"ר קנג'י חשב שדווקא בעזרת שימוש ב-deep learning אפשר יהיה להבחין בכל אותם פרטים קטנים שמבדילים בין קערות הראמן של סניפי הרשת השונים. לאחר שכבר יצר מודל לסיווג תמונות של מרקי ראמן, קנג'י רצה לראות אם טכנולוגיית AutoML Vision החדשה של גוגל תוכל לעשות זאת בצורה יעילה יותר.

AutoML Vision יוצרת באופן אוטומטי מודלים מותאמים אישית שבעזרתם ניתן, למשל, לזהות חיות בר בטבע או להבחין בין סוגי מוצרים על מנת לשפר את חוויית הקניה בחנויות אונליין. או במקרה שלנו - לסווג תמונות של מרקי ראמן. אינך צריך להיות מדען נתונים כדי להשתמש בטכנולוגיה – כל שעלייך לעשות זה להזין למערכת תמונות מתויגות היטב ואז פשוט ללחוץ על הכפתור. במקרה שלנו, ד"ר קנג'י לקח כ־48 אלף תמונות של מרקי ראמן ממסעדות רשת "ראמן ג'ירו", תייג כל תמונה בסניף המתאים לה, ולאחר מכן פשוט העלה אותן ל-AutoML Vision. למודל לקחו 24 שעות של אימון, באופן אוטומטי לחלוטין (למרות שישנו מצב פחות מדויק, שנקרא Basic mode, שהיה מסיים לאמן את המודל ב-18 דקות בלבד). התוצאות היו מרשימות: המודל של ד"ר קנג'י הצליח להשיג 94.5 אחוזי דיוק בניבוי החנות המדויקת בהתבסס על התמונות והנתונים.

‍

‍Confusion matrix of Ramen Jiro shop classifier by AutoML Vision (Advanced mode). Row = actual shop, column = predicted shop. You can see AutoML Vision incorrectly identified the restaurant location in only a couple of instances for each test case.

‍

למרות ש-AutoML Vision פותחה עבור אנשים שאינם מנוסים בלמידת מכונה, היא יכולה להאיץ תהליכים באופן דרמטי גם עבור מי שמומחה בתחום. במקרה שלנו למשל, ברור שכדי לבנות מאפס מודל לסיווג תמונות של מרקי ראמן היה נדרש זמן רב ומספר גדול של צעדים - החל מתיוג, דרך Hyper parameter tuning, ניסיונות עם ארכיטקטורות רשת עצבית שונות, ומן הסתם גם אימוני מודל כושלים – וזה לפני שבכלל דיברנו על הניסיון שנדרש כמדען נתונים. או כפי שניסח זאת ד"ר קנג'י, "בעזרת AutoML Vision, מדען נתונים לא צריך לבזבז המון זמן על אימון המודל בשביל להשיג את התוצאות הטובות ביותר. זה אומר שבעזרתו עסקים יכולים להרחיב את השימוש שלהם בבינה מלאכותית (AI) אפילו עם מספר מוגבל של מדעני נתונים". מי שמתעניין ימצא דוגמא נוספת לשימוש ב-AutoML Vision בפוסט הזה , אשר מכיל גם פרטים טכניים נוספים על המודל של קנג'י.

ובאשר לאיך AutoML מצליח לזהות את ההבדלים בין מרקי ראמן? ובכן, זה בהחלט לא בגלל הטעם... ההנחה הראשונה של קנג'י הייתה שהמודל מסתכל על הצבע או הצורה של הקערה או של השולחן – אבל זה נראה בלתי-סביר מאחר שהמודל היה מאוד מדויק אפילו שבכל הסניפים היו אותם שולחנות ואותן קערות. התיאוריה החדשה של קנג'י היא שהמודל מדויק מספיק בכדי להבחין בהבדלים עדינים – בין אם בצורת החיתוך של נתחי הבשר או בצורה בה התוספות הונחו בקערה. מה שבטוח, זה שקנג'י מתכנן להמשיך את הניסויים שלו ב־AutoML Vision כדי לראות אם התיאוריות שלו נכונות.

גופים וחברות כמו Disney ,Urban Outfitters וגן החיות של לונדון כבר משתמשים ב-AutoML Vision למגוון רחב של יישומים הקשורים בסיווג וזיהוי תמונות. מי שמעוניין ללמוד יותר על שירותי AutoML השונים, מוזמן להתעדכן בכנס הענן הגדול של גוגל - Google Cloud Summit - שיתקיים ב-30 במאי 2018 בגני התערוכה, ביתן 2.

‍

המאמר נכתב ע"י ניר חינסקי, מנהל פעילות Google Cloud במזה"ת, אפריקה ומז'-מרכז אירופה