JOKOPOST | עיתון המאמרים והבלוגים המוביל בישראל

facebook twitter linkedin
  • ראשי » 
  • IT
  •  » לְמָה התְממָה?

לְמָה התְממָה?

כיצד שומרים על פרטיות בניתוח בסיסי נתונים

לְמָה התְממָה? אבנר שרון
פברואר 17
09:30 2019

זה לא חדש שהפרטיות נעלמה מחיינו, כתבתי על כך כאן במדור לפני למעלה משנתיים. הארגונים מחזיקי המידע ומפרסמיו מנסים, ומצליחים חלקית, לשמור על פינה פרטית בתוך אוקיינוס המידע הפתוח לציבור. הפעילות אינה חדשה אך לאחרונה ניתן לה פרסום על במות שונות.

בדרך כלל קבצים עתירי מידע פרטי דרושים לצורך הפקת מידע סטטיסטי, ושם אנחנו מבקשים שמירה על פרטיותם של בעלי הנתונים ובה בעת אפשרות לנתח מתמטית, לצרכים שונים, את יתרת הנתונים. הנושא מורכב ואנסה להסבירו כאן בפשטות.

דוגמה פשוטה לכך היא טבלה המכילה שורות של נתונים – בעמודות מפורט שם פרטי, שם משפחה, מספר תעודת הזהות, תאריך הלידה, עלות שכר, מספר שנות עבודה בארגון ומספרים דומים. מטרתי לשנות את הקובץ – להוציא ממנו פרטים אחדים – כדי שיהיה סיכוי קטן מאוד לזיהוי מלא של הפרט אך תישמר ככל האפשר שימושיות המידע הנותר.

בעזרת טבלה כגון זו אני יכול לבצע מספר פילוחים, כגון גיל ממוצע של העובדים בארגון, שכר ממוצע וכדומה. מובן שאם יהיה טור של חלוקה על פי מגדר אפשר יהיה לבצע פילוחים נוספים. לצורך כל אלו ולשם שמירה על זהות הפרט לא מעניין אותנו השם הפרטי ושם המשפחה של כל עובד. השלב הראשון בשמירה על הפרטיות הוא למחוק את שני הטורים של הנתונים האלו ולבצע את כל הפילוחים על יתרת הטורים. פעולה זו קרויה Data Anonymization, ובעברית – "הַתְממָה".

בפעילות מסוג זה יכולים להיות מיוצגים בסיסי נתונים רבי שורות וטורים, וחשוב להפריד זיהוי, כלומר לבצע התממה, באופן שיאפשר לחזור ולחבר את הנתונים במדויק, כולל זיהוי. ברור שככל שאני מוריד טורים מטבלת המידע אני מגדיל את ההגנה על הפרט אך במקביל מוריד את יעילות המידע לצורך הפקת נתונים סטטיסטיים, ולהפך.

עם גדולי הצרכנים של הטכנולוגיה בארץ נמנים בנק ישראל ומשרד הבריאות, ולשניהם דרושה התממה לצורכי מחקר והפקת מידע סטטיסטי. שני הגופים ודומיהם יכולים להיות ניזונים מאותו בסיס נתונים ענק המכיל פרטים על אזרחי המדינה, אבל – וכאן הבדל חשוב – אף גוף אינו צריך את שמי ואת כתובתי לצורכי סטטיסטיקה. יתרה מכך, במידע שיימסר למשרד הבריאות אין צורך להעביר את השכר שלי, ולבנק ישראל בדרך כלל לא חשוב מתי עליתי ארצה.

בהכנת נתונים למסירה יש להקפיד שלא תהיה אפשרות לקבל את הזהות האמיתית שלי בהצלבת נתונים מבסיסי נתונים שונים, ובמקביל יש לשמור אפשרות לאיחוד הנתונים ובנייה מחדש של קובץ הנתונים הבסיסי, טרום ההתממה.

על המחבר / המחברת

Avatar

אבנר שרון

מומחה מחשוב וסייבר. יועץ וותיק בתחום. הרצאות העשרה לארגונים ופרטיים סייבר וטכנולוגיה, עבר, הווה ועתיד.

15 תגובות

  1. אבישי כהן
    אבישי כהן פברואר 17 2019, 11:41
    למדנו מושג חדש

    יותר קל לבטא מאשר המושג באנגלית

    השב לתגובה
  2. גיל
    גיל פברואר 17 2019, 14:25
    התממה

    תמיד אפשר ללמוד,,,,

    השב לתגובה
  3. מיטל ברנהולץ
    מיטל ברנהולץ פברואר 17 2019, 15:12
    מאמר מצויין ומעניין

    תודה רבה!

    השב לתגובה
  4. v
    v פברואר 17 2019, 16:22
    הרעיון נראה נכון וחשוב

    הביצוע פשוט וטריוויאלי

    השב לתגובה
  5. נעמי זלצינגר
    נעמי זלצינגר פברואר 17 2019, 18:11
    התממה

    תודה. זה מידע חשוב וגם חדיש למדיי ( לפחות עבורי)

    השב לתגובה
  6. חיים איטקיס
    חיים איטקיס פברואר 18 2019, 13:07
    מעניין ומשכיל

    מאמר מעניין ומשכיל
    אבנר גם למדת אותי מונח חדש בעברית התממה
    תודה

    השב לתגובה
  7. גידי
    גידי פברואר 18 2019, 13:27
    חשוב ומעניין

    כתבה מעננינת וחשובה!

    השב לתגובה
  8. דניאל ברקת
    דניאל ברקת פברואר 18 2019, 13:29
    אין ספק שאתה צודק אבל.....

    לפני שחושבים על התממה צריך להגן על בסיסי ה תונים מםני פריצה ומפני כניסה של כל מיני גורמים מיותרים בארגון. אצלנו מזלזלים בכל, אז דוקא בהתממה יקפידו?

    השב לתגובה
    • אבנר שרון
      אבנר שרון Author פברואר 18 2019, 16:19
      אתה רץ רחוק....

      הכוונה היתה להסביר בפשטות את המושג ואני מקווה שאת היעד הזה השגתי…

      השב לתגובה
  9. עידו
    עידו פברואר 19 2019, 14:02
    המושג לא מוצלח בעיני

    הורדת הזהויות לא הופכת את המידע בהכרח לתמים.אני הייתי משתמש במושג של ניטרול זהויות.

    השב לתגובה
  10. ד.
    ד. פברואר 19 2019, 22:26
    היום אפשר להשיג בכסף כל מידע

    על כל אדם
    זה בהרבה תחומים
    אפילו לגבי הבנקים

    השב לתגובה
  11. יחזקאל קדוש
    יחזקאל קדוש פברואר 20 2019, 15:39
    ככל שטכנולוגית המידע מתקדמת

    סיכוני הסייבר ובתוכם האיום על צינעת הפרט גדלים. כמעט כל האזרחים לא מודעים עד כמה הבעיה חמורה.

    השב לתגובה
  12. בעל דעה
    בעל דעה פברואר 21 2019, 18:15
    מבלי לפגוע בכוונה הטובה

    באבטחת סייבר צעד אחד או מנגנון אחד לא פותרים את הבעיה. מדובר במשהו סבוך שמורכב מרשת שלמה של אמצעים. ואם אחד מהם פגום או לא קים או לא מתפקד נכון או שיש לו חולשה אז הרעים יצליחו.

    השב לתגובה
  13. יבגני א.
    יבגני א. מרץ 01 2019, 15:34
    הסייבר זה האתגר המקצועי של העתיד

    אפשר ללמוד באינטרנט הרבה ולא דוקא באוניברסיטה

    השב לתגובה
  14. מאיר מועלם
    מאיר מועלם מרץ 07 2019, 13:19
    הפיכת מידע לאנונימי

    לצרכים מסויימים תוך שהוא ממשיך להתעדכן ולעבוד מסרבל מאוד את כל התהליכים.

    השב לתגובה

כתוב תגובה

הוסף תגובה:

<

* אני מתחייב לפעול על פי תנאי השימוש באתר


התגובות יפורסמו לפי שיקול דעת העורך

כתבות נוספות

פוסטים אחרונים בIT

יתר המאמרים במדור
Do NOT follow this link or you will be banned from the site!