JOKOPOST | עיתון המאמרים והבלוגים המוביל בישראל

facebook twitter linkedin
  • ראשי » 
  • IT
  •  » מעשה במחשב שוביניסט

מעשה במחשב שוביניסט

אפליה והטיות במערכות המלצה ולמידת מכונה

מעשה במחשב שוביניסט ליאור סידי צילום: דני מכליס
יוני 21
08:58 2017

מערכות ההמלצה (recommender systems) ממליצות למשתמשים על מוצרים בתחומים שונים. ליבת המערכות מבוססת על מודל שנבנה משילוב כמה שיטות: מידע דמוגרפי, העדפות עבר של המשתמש והדמיון בין העדפותיו לאלו של משתמשים אחרים. דוגמאות: המלצות על מוצרים (e-commerce), פרסומות (Google Ads), עבודה (LinkedIn). בדומה לכך מערכות מבוססות למידת מכונה בדרך כלל מבססות את המודל על מידע עבר במטרה לסווג מקרה קיים או לנבא ערך עתידי. דוגמאות: סיווג של קבצים זדוניים, תמונות, עיבוד שפה, ניבוי ערך מניות.

מערכות אלו תורמות מאוד לרווחיותן של החברות המשתמשות בהן, אך מחקרים אחרונים מראים שטמונות בהן בעיות אתיות בנוגע לפרטיות המשתמשים ואף הטיה נגד אוכלוסיות מסוימות. למשל נמצא שגוגל מציג לנשים פחות מודעות פרסום על משרות עם שכר גבוה, שקיימות הטיות בקביעת מחירים שונים למשתמשים שונים על סמך מידע פרטי ושיש הטיה נגד אנשים כהי עור במערכת לקביעת רמת סיכון לביצוע פשע.

כל משתמש זכאי לפרטיות של המידע האישי שלו, ועל כן טוב יהיה אם מחזיק המודל – גוגל, חברת מכירות, בית המשפט או כל גוף אחר – יידע את המשתמש שברצונו להשתמש בנתוניו ויקבל את אישורו. בדוגמה הראשונה גוגל אכן מיידעת את המשתמש ומאפשרת לו להגדיר את רמת איסוף המידע על אודותיו, אך מדובר בתהליך מסובך יחסית ומייגע למדי, והמשתמש אינו תמיד מודע לכל פרטיו. בדוגמה השנייה שתוארה חברת המכירות מחויבת ליידע על שימוש בעוגיות (cookies) המאפשרות צבירת מידע על המשתמש, אך בדרך כלל למשתמש יש ברירה אחת בלבד: לסמן "קראתי ואני מסכימ/ה". בדוגמה השלישית הנוגעת לבית המשפט, לנשפט אין שום אפשרות לקבל מידע בנוגע לשימוש במידע על אודותיו בשל טענות ביטחוניות. מכאן עולה שמחזיק המודל יכול לאפשר למשתמש למנוע מעקב אחריו, אלא שמרבית הגופים אינם מאפשרים זאת בשל מורכבות התהליך ומעדיפים שיקולים אחרים כמו רווחיות וביטחון.

בחברה תקינה על המשתמשים להיות בעלי שוויון זכויות והזדמנויות, ושימוש במערכת מוטה נגד קבוצה עלול לפגוע בעיקרון זה. חשוב לציין כי שימוש במערכת מוטה נגד קבוצת משתמשים או נאשמים היא סוגיה מורכבת ולא פשוטה, מכיוון שלא ניתן להאשים בגזענות מערכות המבוססות על מידע סטטיסטי, במיוחד כשאין כוונה זדונית נגד האוכלוסייה מצד מחזיק המודל.

במקרה הראשון גוגל מסבירים כי בחירת המודעות שיוצגו קשורה בדרך כלל בהכוונה פרסומית (targeting) עקיפה או ישירה שמבוצעת אצל מפרסם, ואינה תלוי בהם, מחזיקי המודל. אשר למקרה השלישי, במחקרים נוספים הסתבר שמערכות הסיכון עוזרות לשופטים להחליט על עונש מתאים והובילו דווקא לירידה משמעותית בכליאה.

למרות השימושים המושכלים שהועלו לעיל, קיימת סתירה אתית בהסבריהם של מחזיקי המודל, מכיוון שמלכתחילה עליהם להימנע משימוש במודל מוטה. אדרבה, קיימות שיטות להתמודדות עם ההטיות נגד אוכלוסיות במודל, לדוגמה:

  • הימנעות מאימון מודל על מידע שאינו בעל קשר ישיר לערך שרוצים לחזות.
  • הימנעות מאימון מודל בכל קשר ישיר לקבוצת אוכלוסייה המועדת להטיה.
  • הוספת גורם של אי סדר באימון המודל אשר ימנע ממנו להתמקד באוכלוסיות מסוימות.
  • פיצול רב של המידע ומניעת אימון יתר על קבוצות אוכלוסייה ספציפיות.
  • בניית מודלים רבים ושילוב ביניהם (ensemble learning).
  • אימון מודל בעזרת שאלון המוצג למדגם אוכלוסייה גדול. לדוגמה עבור מכוניות אוטונומיות אשר נתקלות בסוגיות אתיות בכביש, כגון פעולה בעת התנגשות בלתי נמנעת באוכלוסיות שונות, ב-MIT פיתחו שאלון המונים שבו הוצגו המצבים הבעייתיים, ועל סמך דעת ההמונים לימדו את הרכב האוטונומי להגיב.
  • בדיקה פרטנית של המודל על קבוצות אוכלוסייה אשר מועדות להטיה, ואם מוכחת הטיה מובהקת סטטיסטית חזרה לאימון באמצעות השיטות שנמנו לעיל.

יש לזכור שהשיטות למניעת הטיה עשויות להאריך את זמן פיתוח המודל וכן לפגוע ביכולותיו וברווחיותו – ייתכן שיפחתו כמות הכניסות לקישור ויצומצמו קניות המוצרים. יכולות להיות גם השלכות אתיות, למשל ירידה ביכולת למנוע פשעים. על מחזיק המודל לשקול את המטרות האלו – רווח פיננסי או מטרה אתית – לעומת שמירה על אתיקה ופרטיות, ולהבין שפגיעה באוכלוסיות גדולות או במיעוטים עשויה לפגוע באמון הצרכנים כלפיו ולהגדיל את אי השוויון בחברה.

על המחבר / המחברת

Avatar

ליאור סידי

data scientist בתחום אבטחת מידע במעבדות החדשנות של דויטשה טלקום בנגב. סטודנט לתואר שני במחלקה להנדסת מערכות מידע באוניברסיטת בן גוריון.

6 תגובות

  1. מרצה
    מרצה יוני 21 2017, 12:03
    כל הכבוד למקצוען צעיר

    שיודע כמו רבים כנראה לעשות
    אבל בניגוד לרוב יודע גם להביע דעתו בצורה רצינית

    השב לתגובה
  2. ג.
    ג. יוני 21 2017, 17:06
    אף אחד מלא יצליח לבלום את הגדולים

    גוגל אמזון ודומיהם חזקים יותר ממדינות

    השב לתגובה
  3. שירי
    שירי יוני 22 2017, 13:37
    מאמר מעורר מחשבה

    לאן זה יגיע בסוף

    השב לתגובה
  4. מ פלג
    מ פלג יוני 23 2017, 13:19
    בפילוסופיה ואתיקה לא בונים עסקים

    אין מודל שיקיים ניבוי מדויק בלי אמות מידה בסיסיות. אם יש דעות קדומות במודל – אכן בעיה, אבל יתכן ובסביבות מסוימות זה מדויק, באחרות לא בהכרח. אם מודל יש בו הטיות, הבעיה היא במפתחי המודל ובהנחות היסוד, ולא במודל עצמו. צריך להבין את סביבת המודל, כי אי אפשר להחיל אותם תנאים על גברת כהן מחדרה וגברת כהן מרמת אביב. אולי יהיה מודל בתחום מסוים שכן מתאים לשתיים, אבל לא כל מודל. לכן חשוב למה משתמשים במודל. אפשר לכתוב מגילה ארוכה מדוע הבסיס של המאמר הוא לא פרקטי כי הוא דן רק במודלים כלליים שמנסים להחיל אותם על הכל. אין דבר כזה. מודל מרובה פרמטרים קשה לתכנון, אבל הוא הנכון. כאשר שאלות סקר מובילות לתוצאה שונה מאשר בבחירות – מי אשם? עורך הסקר? מכין השאלות? ואז יש שפע טיעונים והצטדקויות. לא מודים באמת שסקרים הם לעיתים חזונו של מחברם.

    השב לתגובה
  5. עודד מ.
    עודד מ. יוני 23 2017, 14:03
    בכלל לא מעניין אם טוב או רע

    זה המצב
    השאלה איך מוציאים מזה את המקסימום
    ומקטחינים הביות למינימום

    השב לתגובה
  6. י. הררי
    י. הררי יוני 25 2017, 19:36
    הפרסום הלוחץ ופונה אישית ואינטימית

    אחת הסוגיות המרכזיות לדיון ציבורי וממסדי.

    השב לתגובה

כתוב תגובה

הוסף תגובה:

<

* אני מתחייב לפעול על פי תנאי השימוש באתר


התגובות יפורסמו לפי שיקול דעת העורך

כתבות נוספות

פוסטים אחרונים בIT

יתר המאמרים במדור
Do NOT follow this link or you will be banned from the site!