חברת פינטק החליטה לאמן את מודל הבינה המלאכותית שלה על נתונים סינתטיים — כדי לא לגעת בנתוני הלקוחות האמיתיים. מבחינתם, הם היו מוגנים. שנה לאחר מכן, הרגולטור הגיע עם שאלות. הנתונים הסינתטיים נוצרו מנתונים אמיתיים — ושם בדיוק הבעיה.

בקצרה: נתונים סינתטיים אינם "נתונים נקיים" בהגדרה. אם נוצרו מנתונים אישיים אמיתיים — חוק הגנת הפרטיות ו-GDPR ממשיכים לחול, בהתאם לסיכון הזיהוי מחדש. לפני שמשיקים מוצר AI על בסיס נתונים סינתטיים, יש לבחון את שרשרת היצירה עם יועץ משפטי.

מה זה נתונים סינתטיים — ולמה הם נכנסו לאג'נדה?

נתונים סינתטיים (Synthetic Data) הם נתונים שנוצרו על ידי אלגוריתם — לא נאספו מהמציאות. המודל לומד את הדפוסים הסטטיסטיים של נתונים אמיתיים ומייצר קבוצת נתונים חדשה שמתנהגת בצורה דומה, אך אינה מצביעה על אנשים ספציפיים.

למה זה הפך לטרנד? כי GDPR ועליית תביעות הפרטיות הפכו את אימון מודלי AI על נתוני לקוחות אמיתיים לסיכון משפטי ממשי. נתונים סינתטיים אמורים לפתור את הבעיה — וברוב המקרים הם אכן עוזרים. אבל לא תמיד.

האם נתונים סינתטיים פטורים מחוקי פרטיות?

התשובה הקצרה: לא בהכרח. זו הטעות הנפוצה ביותר בתחום.

חוק הגנת הפרטיות, 1981 מגדיר "מידע" לפי האפשרות לייחסו לאדם מזוהה — לא לפי שאלת המקור. אם נתון סינתטי מאפשר לזהות אדם ספציפי (אפילו בהסתברות גבוהה בלבד), הוא מידע אישי לפי החוק.

המבחן הקובע הוא סיכון הזיהוי מחדש (re-identification risk): כמה קשה למשתמש עוין לחבר בין הנתון הסינתטי לאדם אמיתי? אם התשובה היא "לא כל כך קשה" — אתם עדיין בתחולת החוק.

מה אומר GDPR — ומתי הוא חל על חברות ישראליות?

GDPR חל על כל חברה ישראלית שמעבדת נתונים של אזרחי האיחוד האירופי — גם אם החברה יושבת בתל אביב. ורגולציה זו עושה הבחנה קריטית בין שלוש רמות:

אנונימיזציה מלאה (true anonymization): הנתונים יוצאים מתחולת GDPR. אבל הדרישות גבוהות מאוד — הרגולטור האירופי לא מקבל קלות ראש בנושא זה.

פסאודואנונימיזציה (pseudonymization): הנתונים עדיין בתחולת GDPR, רק עם הגנות מופחתות. רוב הנתונים הסינתטיים נופלים בדיוק כאן.

הבעיה של רוב הארגונים: הם יוצרים נתונים סינתטיים ומניחים שיצאו מ-GDPR. בדרך כלל הם לא.

קראו גם:

מי משתמש בנתונים סינתטיים — וכמה הסיכון גבוה בכל תחום?

לא כל שימוש בנתונים סינתטיים שווה מבחינת חשיפה משפטית. הסיכון תלוי ישירות ברגישות הנתונים המקוריים:

האם נתונים סינתטיים יכולים "לדלוף"?

כן — בשתי דרכים שחברות רבות לא מכירות.

Re-identification attack: תוקף עם גישה לנתונים הסינתטיים ובסיס נתונים נוסף (רשת חברתית, נתוני ציבוריים) יכול לחבר בין השניים ולזהות אנשים ספציפיים. המחקר האקדמי מראה שזה אפשרי ב-20%-30% מהמקרים של נתונים סינתטיים שנוצרו ללא הגנה מספקת.

Memorization: חלק ממודלי הגנרציה (GANs, LLMs) "שוכרים" בפועל חלקים מנתוני האימון ומשחזרים אותם בנתונים הסינתטיים. זו בעיה מוכרת בעולם ה-AI, לא תיאוריה. אם מודל האימון שלכם "זוכר" נתון ספציפי — הנתון הסינתטי שלכם הוא בעצם נתון אמיתי.

מתי כדאי להשתמש בנתונים סינתטיים — ומתי עדיף לא?

כדאי להשתמש כאשר: אין גישה לנתונים אמיתיים מסיבות חוקיות, צריך לאזן מחלקות נדירות, או בוחנים מודלים בסביבת פיתוח לפני deployment. בתרחישים האלה הנתונים הסינתטיים מספקים ערך אמיתי עם סיכון מנוהל.

לא מספיק לסמוך עליהם כאשר: הנתונים מיועדים להחליף נתוני לקוחות בסביבת ייצור, כוללים מידע רפואי או פיננסי רגיש, או שהארגון לא עבר הערכת סיכוני re-identification. במקרים האלה — ייעוץ משפטי לפני השקה הוא לא אופציה, הוא חובה.

📌 זווית מקצועית — לעורכי דין

הבהרה משפטית: המידע במאמר זה נועד לצרכי מידע כללי בלבד ואינו מהווה ייעוץ משפטי, חוות דעת או תחליף להתייעצות עם עורך דין. כל מקרה ייחודי ויש לבחון אותו לגופו. אין ליישם את המידע ללא ייעוץ משפטי פרטני.