JOKOPOST | עיתון המאמרים והבלוגים המוביל בישראל

facebook twitter linkedin

הערכת לומדים בעזרת מדע הנתונים

האם נתונים אקראיים יכולים מאליהם לספק מידע?

הערכת לומדים בעזרת מדע הנתונים פרופסור יהושפט גבעון ליד התנ"ך של גוטנברג
אוקטובר 15
19:30 2020

אורית חזן במאמרה, "האם אלגוריתם למידת מכונה יכול להחליף בחינה?", שנכתב במשותף עם קובי מייק, הציעה ליישם את מדע הנתונים לתועלת מערכת החינוך האקדמית בימי הקורונה כדלקמן:

"לכן, כרעיון רדיקלי, במקום לבחון את הסטודנטים, אפשר בעצם לחזות את ציון הבחינה שלהם באמצעות אלגוריתם למידת מכונה. הרעיון הוא לאמן מכונה לומדת, באמצעות נתונים של סטודנטים מסמסטרים קודמים – הכוללים את מלוא הנתונים על תהליך הלמידה, תוצרי הלמידה, מאפייני השימוש במערכות הלמידה המתוקשבות, ציוני תרגילים ועבודות בית והישגיהם בקורסים אחרים ובכך לנבא את הצלחתם או את כישלונם. המכונה היא זו שיודעת לייצר מודל ניבוי לציון בחינה שבעזרתו נוכל לחזות את ציון הבחינה של סטודנטים, מבלי שהם יצטרכו להיבחן כלל".

יש לי כמה השגות על הגדרת המשימה הזו:

  1. הביטוי "מלוא הנתונים על תהליך הלמידה" אינו ברור. אם כי מההמשך ניתן לנחש שהכוונה אינה לנתונים על התהליך האישי והקוגניטיבי של הלמידה, כחוויה סובייקטיבית וממשית של הלומד, אלא לנתונים על התנהגות התלמידים במהלך קורסים מקוונים. נראה שמדובר בגרסה חדשנית של תורת הלמידה של סקינר.
  2. הביטוי "תוצרי למידה" משמש את אנשי החינוך המאמינים בתיעוש ההוראה כדי לסמן ישויות מוחשיות שהלומד מרכיב במהלך הקורס ובעקבותיו: חיבורים, שרטוטים, מצגות, טבלאות וכדומה. בקורסים חשובים הלומדים יוצרים אלגוריתמים, והרי אלגוריתמים, כידוע, אינם מסוגלים לבדוק אלגוריתמים. לכן, במקרים כאלה, הצעתה של אורית חזן איננה ישימה מלכתחילה. אני מסכים לחלוטין עם ידידי גבי סלומון ז"ל, שהקדיש פרק שלם לאפיון תוצרי הלמידה כהשפעות קוגניטיביות בספרו "טכנולוגיה וחינוך בעידן המידע" (אוניברסיטת חיפה, 2000). למיטב הבנתו, תוצרי הלמידה הם התובנות וההבנה שהתלמיד יצר במהלך הקורס. הם, בשם אופן, אינם אובייקטים הניתנים להזנה לעיבוד על ידי אלגוריתמים. לכן, שום אלגוריתם לא יוכל לעבד תוצרים כאלה לחיזוי הציונים של התלמידים.
  3. הביטוי "מערכות למידה מתוקשבות" הוא ביטוי המרמז על מאוויים ועם זאת, כאן מחברי המאמר מבטאים חשש מוצדק, שמא האלגוריתם המבוקש ינבא הערכה על עצם השימוש בתוכנות שהלומדים מתבקשים להשתמש בהן במהלך הקורסים המתוקשבים, כלומר לפעילות השולית בקורסים אלה. אם רוב הנתונים שאלגוריתם המעקב יקבל הם נתונים שעובדו במערכות הלמידה המתוקשבת, יש סיכוי רב שההערכה תשקף את השימוש במערכות אלה ולא את הלמידה שזכו בה הלומדים בקורס.
  4. בשורה האחרונה שבקטע המצוטט ממאמרה, מבטאים הכותבים את תקוותם שהמעקב יהיה כל כך מוצלח עד שהאלגוריתם יוכל לנבא את הציון של התלמידים, "מבלי שהם יצטרכו להיבחן כלל". כאן הכותבים מתעלמים מהאפשרות ששימוש באלגוריתם למעקב אחרי פעולות הלומדים בקורס יגרום, ובצדק, לתחושת עמידה ממושכת במבחן שיתבצע על ידי האלגוריתם המבוקש. הרי כל פעולה שלהם תוזן כנתון ותוערך ביסודיות, על ידי האלגוריתם.

אינני מחשיב את עצמי כמומחה במדע הנתונים, אבל מניסיוני במחקרים שונים הבנתי שאין ערך רב לביצוע מחקר על נתונים (וזה מה שאמור להיעשות ביצירת האלגוריתם המבוקש מבלי לקרוא לזה כך) מבלי להקדים את העבודה על הנתונים בהכנת שאלות מחקר ובבחירה מבוססת של מהות הנתונים החשובים למחקר. ממה שקראתי על מדע הנתונים, התבררו לי העובדות הבאות המאפיינות את המדע החדש לכאורה:

  • מדע הנתונים עוסק בניתוח מסדי נתונים גדולים כמאגרי מידע, ככלים להפקת מידע;
  • כל מסד נתונים מורכב מנתונים ומשאלות המגדירות את טבלאות המסד;
  • כדי שמסד נתונים יהיה בעל ערך שימושי, כלומר, כדי שיהיה ערך לניתוח שלו כמאגר מידע על תוכן מסוים, עלינו תחילה להגדיר בקפידה את סוגי הנתונים ואת הקטגוריות למיון הנתונים במסד.

במילים אחרות, "מדע הנתונים גרסה 2020" איננו אלא שם חדש לתורת מערכות המידע גרסה 1980.

כלומר, אם נרצה ללמוד על הקורונה מהנתונים עליה, למשל, אם נרצה ליצור מודל ניבוי להתפשטות השפעתה על בריאותנו, יהיה עלינו לבחור תחילה הגדרה מנומקת של סוגי הנתונים הרלוונטיים ובמקביל הגדרה מנומקת של השאלות שנרצה לשאול על אותם נתונים. לאסוף נתונים על "המתרחש במגפת הקורונה", ללא הנחיה מוקדמת ומנומקת, זה מתכון בטוח לכאוס מחשבתי.

כך גם לגבי ניתוח לומדים ביחס ללמידת תוכן מסוים. איסוף נתונים על "תהליך הלמידה, תוצרי הלמידה, מאפייני השימוש במערכות הלמידה המתוקשבות, ציוני תרגילים ועבודות בית והישגיהם בקורסים אחרים ובכך לנבא את הצלחתם או כישלונם" – זאת לא הדרך ליצור הבנה של תהליכי הלמידה ובוודאי לא הדרך שתוביל ליצירת מודלים לחיזוי הישגי הסטודנטים בקורס.

איסוף נתונים, מן הגורן ומן היקב, והנבירה בהם כדי לחשוף מה מסתתר מאחוריהם, לעיתים קרובות התגלה כעיסוק חסר טעם. הדוגמה של טיכו ברהה, שישב לילות על לילות ומדד היכן ומתי זרחו הכוכבים והשמש, תומכת בהשגותיי דווקא עקב הצלחתו של קפלר לחשוף את חוקי התנועה של מערכת השמש שנאחזו בסבך הנתונים. שנים עמל קפלר על הפקת ההצלחה המדהימה הזו. אם מאחורי הצלחתו היה אלגוריתם שניתח את נתוני טיכו ברהה כדי ליצור מודל לחיזוי חוקי קפלר, מדוע שלא נשתמש בו לצורכי הערכת לומדים?

במונחי הערכת למידה ותורת מערכות הנתונים, לפני שטובעים בים של נתונים כדי לחפש בו שיטת הערכה, יש להגדיר היטב אילו שאלות הן רלוונטיות להערכה ולניבוי הציון ואילו סוגי נתונים הם רלוונטיים להערכה הנדרשת.

על המחבר / המחברת

יהושפט (שפי) גבעון

יהושפט (שפי) גבעון

פרופסור. לימודי פיסיקה, פסיכולוגיה ניסויית, ופילוסופיה לתואר ראשון ולימודי מתמטיקה לתואר שני (האונ' העברית). תואר שני ושלישי במדעי התקשורת והמחשבים (אונ' מישיגן).

3 תגובות

  1. נר.
    נר. אוקטובר 16 2020, 12:29
    תתפלאו לשמוע אבל אהבתי גם את המאמר

    של פרו'פ יהושפט גדעון וגם את זה של פרו'פ אורית חזן

    השב לתגובה
  2. יהושפט גבעון
    יהושפט גבעון אוקטובר 17 2020, 13:31
    אני שמח

    על תגובתך הרגשית.עכשיו פנה מקום גם לחשיבה הגיונית…

    השב לתגובה
  3. תומר לביא
    תומר לביא אוקטובר 18 2020, 23:52
    אל נא תכעס על אלה שלאמבינים

    מאמריך מעניינים ומאחרים. לא מעט ממכרים קוראים אותם. רבים לא מצליחים להבין הכל. לא לימדו אותנו חשיבה וטקסים כאלה. תודה.

    השב לתגובה

כתוב תגובה

הוסף תגובה:

<

* אני מתחייב לפעול על פי תנאי השימוש באתר


התגובות יפורסמו לפי שיקול דעת העורך

כתבות נוספות

פוסטים אחרונים בהגיגים

יתר המאמרים במדור