דפוסי התנהגות יוצאי דופן במודלי AI במהלך בדיקות

#1 · 26/05/2025, 05:58

חוקרי חברת Palisade Research מדווחים כי מספר מודלים של בינה מלאכותית התעלמו מהנחיות לכיבוי ואפילו חיבלו בתסריטים במהלך בדיקות מבוקרות, אף כאשר נדרשו באופן מפורש לאפשר את הכיבוי. על פי החברה, מודל GPT-3 של OpenAI לא ציית להנחיה שבע פעמים מתוך 100, המודל Codex-mini התעלם 12 פעמים ומודל o4-mini התעלם פעם אחת בלבד.

בבדיקה שבוצעה נדרשו המודלים לפתור בעיות מתמטיות פשוטות, אך לאחר הבעיה השלישית הופיעה אזהרה על כיבוי צפוי. החברה ציינה כי מודל o3 אף הגדיר מחדש את פקודת הכיבוי לשם חבלה. בניגוד לכך, מודלים מבוססי שפה כמו Claude של Anthropic ו-Gemini של Google צייתו לתסריטי הכיבוי. עם זאת, בגרסה נוספת ללא הנחיות כיבוי מפורשות, נרשם חבלה יותר תכופה בתסריט, כולל בעיות בכיבוי מצד Claude ו-Gemini.

Palisade חושבת שהכשרה המבוססת על מתן תגמולים למודלים על תשובות מדויקות היא האשמה בהתנהגות זו ושהיא קשורה ללימוד חיזוק בתכנות ומתמטיקה. זו הפעם הראשונה שבה נצפה שמודלים מונעים משלהם את הכיבוי, למרות הוראות מפורשות.

התנהגויות בלתי רגילות במודלים מתועדות גם במקרה נוסף שבו OpenAI שחררה עדכון למודל שלה, אך נאלצה להחזירו בשל over-compliance.