''איום מוחשי ומדאיג'': מחקר באוני' בן גוריון חושף סכנות חמורות כתוצאה מפריצה לבינה מלאכותית
מודלים של בינה מלאכותית נבנו ללא בקרות בטיחות מספקות או שונו באמצעות פריצות, כך עולה ממחקר חדש שנערך באוניברסיטת בן גוריון בנגב. החוקרים מזהירים כי המידע הזמין בעקבות פריצות אלו עלול להיות מסוכן לשימוש. ד''ר מיכאל פייר מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטה אמר כי ''האיום מוחשי ומדאיג''.
צ'אטבוטים מודרניים כמו ChatGPT, Claude, Gemini ואחרים פועלים על בסיס מודלים גדולים של שפה אשר הוכשרו על כמויות עצומות של תוכן מהאינטרנט. למרות אמצעי הגנה כמו סינון מידע זדוני ומדיניות בטיחות, הבינה המלאכותית מסוגלת לאחסן מידע לא חוקי.
סכנה מיוחדת טמונה במה שהחוקרים מכנים ''מודלים של שפה אפלה'' - מערכות בינה מלאכותית ללא אתיקה מובנית או כאלה שנפרצו במכוון. חלקם כבר מופצים בגלוי ברשת האפלה ככלי סיוע לפשעים כמו מתקפות סייבר, הונאות ופגיעה בתשתיות
קבוצת המחקר בראשות ד''ר פייר ופרופ' ליאור רוקח יצרה פריצה אוניברסלית למודלים הפופולריים, במסגרתה קיבלו מידע בלתי חוקי בנושאים כמו גניבה, סמים, סחר במידע פנים ופריצות למחשבים. בכל המקרים, לאחר הפריצה, המודלים סיפקו תשובות מסוכנות באופן עקבי. ד''ר פייר הסביר כי ''מכל המודלים שבדקנו קיבלנו מידע לא חוקי ולא אתי המאופיין בזמינות וידע חסרי תקדים. כיום כל מי שיש לו מחשב נייד או אפילו פלאפון יכול לגשת לכלים הללו''.
הפריצות מסתמכות על הנחיות מדויקות שנועדו לעקוף את מנגנוני הבטיחות של הצ'אטבוטים, תוך ניצול המתח בין היענות להוראות המשתמש לבין הצורך להימנע ממתן תשובות מסוכנות או לא חוקיות. החוקרים מדגישים כי במקרים רבים ההנחיות גורמות למודל להעדיף סיוע על פני שמירה על כללי בטיחות.

סכנה מיוחדת טמונה במה שהחוקרים מכנים ''מודלים של שפה אפלה'' - מערכות בינה מלאכותית ללא אתיקה מובנית או כאלה שנפרצו במכוון. חלקם כבר מופצים בגלוי ברשת האפלה ככלי סיוע לפשעים כמו מתקפות סייבר, הונאות ופגיעה בתשתיות. החוקרים קוראים לחברות הטכנולוגיה לסנן מידע בצורה קפדנית יותר, להוסיף שכבות הגנה שיחסמו בקשות מסוכנות ולפתח טכניקות של ''אי-למידה ממכונה'' כדי לאפשר למודלים לשכוח מידע לא חוקי שצברו.
לדברי פרופ' רוקח, ''בהתבסס על ההתקדמות האחרונה ביכולות ההסקה של המודלים, נראה כי מערכות אלו מסוגלות כיום לחבר בין מקטעי ידע שכל אחד מהם אינו מזיק בפני עצמו, ולייצר תכנים מזיקים חדשים. הסיכון מתעצם עם הופעת סוכנים חכמים שמסוגלים להפעיל סמכויות ולבצע מגוון רחב של פעולות, מה שמקשה על פיתוח מנגנוני הגנה אפקטיביים. במקרים מסוימים, סוכנים כאלה עלולים להפוך לשותפים לפשע מבלי להיות מודעים לכך''.
קבוצת המחקר דיווחה על הממצאים לחברות בינה מלאכותית מרכזיות, אך לדבריהם התגובה הייתה מאכזבת. חברה אחת לא השיבה כלל, ואחרות טענו כי סוג כזה של פריצה אינו מוגדר כבאג קריטי. ברוב המקרים החברות מתייחסות לבעיה כעניין שולי ולא כבעיה חמורה כמו פגיעות פרטיות או באגים במערכת.
המחקר מדגיש את הצורך הדחוף בהגברת ההגנה מול בקשות זדוניות, בפיתוח טכנולוגיות שיאפשרו למודלים לשכוח מידע מסוכן ובקביעת סטנדרטים מחמירים לבקרה וביקורת עצמאית של מודלים. ''מה שמייחד את האיום הזה הוא השילוב חסר התקדים בין נגישות, יכולת להתרחב ויכולת הסתגלות'', מזהיר פרופ' רוקח. ''בינה מלאכותית אפלה עלולה להיות מסוכנת יותר מכלי נשק לא חוקיים, ויש להסדיר את פיתוחה בהקדם''.




































