חברת פינטק החליטה לאמן את מודל הבינה המלאכותית שלה על נתונים סינתטיים — כדי לא לגעת בנתוני הלקוחות האמיתיים. מבחינתם, הם היו מוגנים. שנה לאחר מכן, הרגולטור הגיע עם שאלות. הנתונים הסינתטיים נוצרו מנתונים אמיתיים — ושם בדיוק הבעיה.
מה זה נתונים סינתטיים — ולמה הם נכנסו לאג'נדה?
נתונים סינתטיים (Synthetic Data) הם נתונים שנוצרו על ידי אלגוריתם — לא נאספו מהמציאות. המודל לומד את הדפוסים הסטטיסטיים של נתונים אמיתיים ומייצר קבוצת נתונים חדשה שמתנהגת בצורה דומה, אך אינה מצביעה על אנשים ספציפיים.
למה זה הפך לטרנד? כי GDPR ועליית תביעות הפרטיות הפכו את אימון מודלי AI על נתוני לקוחות אמיתיים לסיכון משפטי ממשי. נתונים סינתטיים אמורים לפתור את הבעיה — וברוב המקרים הם אכן עוזרים. אבל לא תמיד.
- המודל לומד מנתונים אמיתיים ומייצר "תאומים דיגיטליים" שמשמרים דפוסים סטטיסטיים
- שימושי במיוחד כשנתונים אמיתיים נדירים: תרחישי קצה, מחלות נדירות, הונאות לא שכיחות
- מאפשר שיתוף נתונים בין ארגונים ללא חשיפת מידע רגיש
האם נתונים סינתטיים פטורים מחוקי פרטיות?
התשובה הקצרה: לא בהכרח. זו הטעות הנפוצה ביותר בתחום.
חוק הגנת הפרטיות, 1981 מגדיר "מידע" לפי האפשרות לייחסו לאדם מזוהה — לא לפי שאלת המקור. אם נתון סינתטי מאפשר לזהות אדם ספציפי (אפילו בהסתברות גבוהה בלבד), הוא מידע אישי לפי החוק.
המבחן הקובע הוא סיכון הזיהוי מחדש (re-identification risk): כמה קשה למשתמש עוין לחבר בין הנתון הסינתטי לאדם אמיתי? אם התשובה היא "לא כל כך קשה" — אתם עדיין בתחולת החוק.
- נתונים סינתטיים שנוצרו מנתונים רפואיים עשויים לחשוף מחלות ספציפיות
- נתונים פיננסיים סינתטיים עשויים להצביע על הרגלי צריכה מזהים
- גם בלי שם ותעודת זהות — שילוב מאפיינים (גיל, מיקום, הכנסה) יכול לזהות אדם
מה אומר GDPR — ומתי הוא חל על חברות ישראליות?
GDPR חל על כל חברה ישראלית שמעבדת נתונים של אזרחי האיחוד האירופי — גם אם החברה יושבת בתל אביב. ורגולציה זו עושה הבחנה קריטית בין שלוש רמות:
אנונימיזציה מלאה (true anonymization): הנתונים יוצאים מתחולת GDPR. אבל הדרישות גבוהות מאוד — הרגולטור האירופי לא מקבל קלות ראש בנושא זה.
פסאודואנונימיזציה (pseudonymization): הנתונים עדיין בתחולת GDPR, רק עם הגנות מופחתות. רוב הנתונים הסינתטיים נופלים בדיוק כאן.
הבעיה של רוב הארגונים: הם יוצרים נתונים סינתטיים ומניחים שיצאו מ-GDPR. בדרך כלל הם לא.
- נתונים סינתטיים שנוצרו מנתוני EU נחשבים לרוב לפסאודואנונימיים, לא אנונימיים
- נדרש לתעד את תהליך היצירה ולבצע הערכת סיכוני זיהוי מחדש (DPIA)
- בישראל — רשות הגנת הפרטיות צפויה לאמץ גישה דומה ככל שהתחום יתפתח
קראו גם:
מי משתמש בנתונים סינתטיים — וכמה הסיכון גבוה בכל תחום?
לא כל שימוש בנתונים סינתטיים שווה מבחינת חשיפה משפטית. הסיכון תלוי ישירות ברגישות הנתונים המקוריים:
- בנקאות ופיננסים: אימון מודלי איתור הונאות — סיכון בינוני, תלוי ב-re-identification של דפוסי הוצאות
- בריאות ותרופות: מחקר קליני וניסויים — סיכון גבוה במיוחד. נתוני בריאות מסווגים כ"נתונים רגישים במיוחד" לפי GDPR, וסף האנונימיזציה גבוה יותר
- רכבים אוטונומיים: אימון מודלי ראייה — סיכון נמוך יחסית כשמדובר בנתוני סביבה, גבוה יותר אם כולל תמונות אנשים
- HR וגיוס עובדים: מודלי סינון מועמדים — סיכון גבוה, כולל חשיפה לתביעות אפליה אפילו על נתונים סינתטיים
האם נתונים סינתטיים יכולים "לדלוף"?
כן — בשתי דרכים שחברות רבות לא מכירות.
Re-identification attack: תוקף עם גישה לנתונים הסינתטיים ובסיס נתונים נוסף (רשת חברתית, נתוני ציבוריים) יכול לחבר בין השניים ולזהות אנשים ספציפיים. המחקר האקדמי מראה שזה אפשרי ב-20%-30% מהמקרים של נתונים סינתטיים שנוצרו ללא הגנה מספקת.
Memorization: חלק ממודלי הגנרציה (GANs, LLMs) "שוכרים" בפועל חלקים מנתוני האימון ומשחזרים אותם בנתונים הסינתטיים. זו בעיה מוכרת בעולם ה-AI, לא תיאוריה. אם מודל האימון שלכם "זוכר" נתון ספציפי — הנתון הסינתטי שלכם הוא בעצם נתון אמיתי.
- בדקו את הנתונים הסינתטיים שלכם עם כלי re-identification לפני שחרור
- אל תניחו שהמודל "שכח" את נתוני האימון — זה לרוב לא נכון
- תעדו את תהליך היצירה וקיימו ביקורת פנימית
מתי כדאי להשתמש בנתונים סינתטיים — ומתי עדיף לא?
כדאי להשתמש כאשר: אין גישה לנתונים אמיתיים מסיבות חוקיות, צריך לאזן מחלקות נדירות, או בוחנים מודלים בסביבת פיתוח לפני deployment. בתרחישים האלה הנתונים הסינתטיים מספקים ערך אמיתי עם סיכון מנוהל.
לא מספיק לסמוך עליהם כאשר: הנתונים מיועדים להחליף נתוני לקוחות בסביבת ייצור, כוללים מידע רפואי או פיננסי רגיש, או שהארגון לא עבר הערכת סיכוני re-identification. במקרים האלה — ייעוץ משפטי לפני השקה הוא לא אופציה, הוא חובה.
- לפני שימוש: בדקו אם הנתונים הסינתטיים שלכם עברו DPIA
- כתבו מדיניות ברורה המגדירה "נתונים סינתטיים" בהסכמי עיבוד הנתונים שלכם
- אם אתם חברת SaaS שמוכרים לאחרים — הוסיפו סעיף ייעודי בהסכמי הלקוח
📌 זווית מקצועית — לעורכי דין
- טיפ פרקטי: בעת ייעוץ לחברות טכנולוגיה, בדקו אם נתונים סינתטיים שנוצרו מנתוני לקוחות עדיין נחשבים מידע אישי לפי חוק הגנת הפרטיות — בדרך כלל כן, כל עוד ניתן לזהות מחדש את הפרט. הכלל: חבירת פרמטרים (גיל + מיקום + הכנסה) לרוב מספיקה לזיהוי.
- פסיקה רלבנטית: קיימת פסיקה אמריקאית רלוונטית (FTC v. Kochava) הנוגעת לסיווג נתונים ייצוגיים. בישראל — תחום חדש שטרם נדון לגופו בבתי המשפט. ⚠️ יש לעקוב אחר עמדת רשות הגנת הפרטיות כשתפרסם הנחיות בנושא.
- טעות נפוצה: עורכי דין רבים מניחים שנתונים סינתטיים מוציאים את הלקוח מתחולת GDPR וחוק הפרטיות — הדבר שגוי. הקביעה תלויה בתהליך היצירה ובאפשרות הזיהוי מחדש, לא בשם "סינתטי".
- נקודה טקטית: הכניסו סעיף ייעודי בהסכמי ניתוח נתונים המגדיר במפורש האם נתונים סינתטיים נחשבים נתוני לקוח לצורך ההסכם — מונע מחלוקות יקרות בהמשך. במיוחד רלבנטי בהסכמי SaaS ו-API.