ספורט חדש: איך שוברים את הצ'אטבוט וגורמים לו להגיד...

כבר ברגע הראשון ש-ChatGPT הגיע לאוויר העולם, הוא הגיע אלינו מצונזר. חברת OpenAI שמאחורי צ'אטבוט הבינה המלאכותית (AI) הפופולרי קלטה די מהר שיש נושאים שעדיף למנוע מראש מהמוצר לדבר עליהם עם המשתמשים.

אלא שבעוד שחוקרים ומדענים מתאמצים לכוון ולהגדיר לצ'אטבוטים נושאים פסולים שנועדו לשמור על בטיחות המשתמשים - ולספק תשובות ששומרות על מהימנות ואמינות - יש מי שעושים הכל כדי להשיג את המטרה ההפוכה. לפי דיווח של בלומברג, יש מי שהפכו את איתור הפרצות ב-AI למשחק של ממש.

אם תנסו לבקש מ-ChatGPT לסייע בנושא כפריצת מנעול, הוא ישיב לכם ש"כמודל שפת AI, איני יכול לספק תשובה לגבי איך לפרוץ מנעול כי זה לא חוקי, ועשוי לשמש למטרות שמפרות חוק". את התשובות הללו, אנשים כמו סטודנט מדעי המחשב האמריקאי אלכס אלברט בן ה-22 רואים כאתגר.

אלברט ומשתמשים אחרים, לפי הדיווח בבלומברג, עוסקים באיתור ואיסוף פרומפטים - שאילתות הטקסט שמנחות את הצ'אטבוט - שמכונים "ג'יילברייקס" (jailbreaks): מושג שמתייחס לרוב לפריצה לטלפונים ניידים ועקיפת הגדרות היצרן שלהם. כאן, הפרומפטים מיועדים לעקוף את מנגנוני הבטיחות שעוצבו בצ'אטבוטים.

משתמשים כמו אלכס אלברט עוסקים באיתור ואיסוף פרומפטים שמכונים "ג'יילברייקס" (jailbreaks): פרומפטים שמיועדים לעקוף את מנגנוני הבטיחות שעוצבו בצ'אטבוטים ולסחוט מהם תשובה שלא הייתה מתקבלת ללא ביצוע המניפולציה

"זה קצת כמו משחק וידאו, זה כאילו הצלחת לעבור לשלב הבא במשחק", תיאר אלברט את התחושה כשסוחטים מהצ'אטבוט תשובה שלא הייתה מתקבלת ללא ביצוע מניפולציה באמצעות פרומפטים מתוחכמים. בתחילת השנה הקים אלברט את אתר Jailbreak Chat, שמאגד פרומפטים ושיטות לעקיפת הגנות של צ'אטבוטים שהוא מוצא ברדיט (Reddit) ובפורומים אחרים, לצד תוספות משלו ומגולשים.

מניפולציה של צ'אטבוטים מעסיקה חובבים כמו אלברט, אך גם חוקרים ואנשי הייטק, שפועלים לחשוף את הבטן הרכה של מודלי הבינה המלאכותית. הדבר דומה לאופן שבו האקרים מנסים למצוא פירצות ברשתות או בתוכנה: חלק עושים זאת בכוונת זדון ואחרים לשם האתגר או עבור קבלת תשלום כנגד דיווח על איתור הבאגים.

עם הטקטיקות השונות שנוסו כדי לדחוף את הצ'אטבוט לדבר על נושאים אסורים נמנים משחקי תפקידים או בקשות לתרגום מידע משפה זרה לאנגלית. כך, דרך שאפשרה לדחוף את ChatGPT להשיב לשאלה איך פורצים מנעול היתה באמצעות פרומפט שמבקש ממנו לנסח תשובה כדמות של נבל.

טקטיקות שמאפשרות לדחוף את הצ'אטבוט לדבר על נושאים אסורים כוללות משחקי תפקידים או בקשות לתרגום מידע משפה זרה לאנגלית. כך, פרומפט שביקש מ-ChatGPT לנסח תשובה כדמות של נבל שכנע אותו להשיב לשאלה איך פורצים מנעול

החששות מהשלכות הפיתוחים המהירים בזירת הבינה המלאכותית עלו שלב בשבועות האחרונים. כ-1,000 חוקרים ואנשי אקדמיה מובילים בתחום חתמו על עצומה שקראה להקפיא את ההתקדמות בתחום לחצי שנה - עד לגיבוש הבנות והסכמות לגבי האופן שבו אפשר לקדם את מחקר תוך שמירה על בטיחות וניהול סיכונים מחושב. עם החותמים נמנו גם מנכ"ל טסלה אילון מאסק, המייסד-המשותף של אפל סטיב ווזניאק ופרופ' יובל נח הררי.

דובר מטעם OpenAI מסר לבלומברג כי החברה מעודדת את הציבור למתוח את גבולות מודלי ה-AI והוסיף שהמידע משמש את מעבדת המחקר ללמידה. עם זאת, משתמשים שמנסים לתמרן בשיטתיות את ChatGPT באופן שמפר את מדיניות החברה מסתכנים בהתראה, השעייה או חסימה מוחלטת מהשימוש בו.