האם דגמי AI מוחלשים בסתר? סקירה על טענות BridgeMind נגד Anthropic

#1 · 13/04/2026, 13:48

ציטוט מ מערכת האתר ב 13/04/2026, 13:48

פסקה 1:
בשבועות האחרונים הוצפה זירת הבינה המלאכותית בסערה בעקבות טענות BridgeMind AI כי דגם Claude Opus 4.6 של חברת Anthropic הוחלש בסתר. הטענה, שזכתה לתהודה רבה ברשתות החברתיות, מתייחסת לירידה משמעותית במדד ההזיות של הדגם, מ-83.3% ל-68.3%, כפי שנבדק על ידי מדד הקוד BridgeBench.

פסקה 2:
BridgeMind טוענת כי הירידה במדד ההזיות מצביעה על "רמות חשיבה מופחתות". עם זאת, מדען המחשב פול קלקרפט טוען שהמתודולוגיה שבבסיס הטענה פגומה. לדבריו, המדד הורחב מ-6 ל-30 משימות, וההשוואה בין התוצאות אינה מדויקת. קלקרפט מציין שהירידה הקטנה במדד נבעה בעיקר מתוספת משימה אחת, ושמדובר ברעש סטטיסטי.

פסקה 3:
הדיון סביב טענות BridgeMind מדגיש את המתח הגובר בתעשיית ה-AI בין הצורך בייעול עלויות לבין הדרישה לביצועים עקביים. מאז השקתו, Claude Opus 4.6 נתקל בביקורות על ירידה נתפסת באיכות, כולל תגובות קצרות יותר ומעקב חלש יותר אחרי הנחיות. Anthropic עצמה הציגה בקרות חשיבה אדפטיביות שמאפשרות לדגם להתאים את תקציב החשיבה שלו, מה שמביא לשינויים משמעותיים בתפקוד.

פסקה 4:
השלכות השינויים הללו רחבות. מפתחים מדווחים על הפחתה משמעותית בעומק החשיבה של הדגם, מה שמשפיע על יכולותיו לבצע משימות מורכבות. ניתוח עצמאי מצא שעומק החשיבה ירד בכ-67% עד סוף פברואר, מה שמצביע על ירידה ברמת המעורבות של הדגם בתהליכי קבלת החלטות.

פסקה 5:
למרות התסכולים, אין הוכחה חד משמעית שהירידה במדד ההזיות נובעת מהורדת רמה מכוונת של הדגם. ההשוואה שביצעה BridgeMind הייתה כמו השוואת תפוחים ותפוזים, ונתוני התוצאות החופפות היו כמעט זהים. עם זאת, השינויים בבקרות החישוב האדפטיביות ואופטימיזציות ברמת השירות משפיעים על חוויית המשתמשים.

פסקה 6:
עד כה, Anthropic לא פרסמה הצהרה פומבית על הטענות של BridgeBench. מה דעתכם על הסוגיה? האם לדעתכם חברות AI צריכות לשקול מחדש את מדיניותן בנושא שדרוגים וייעול דגמים? נשמח לשמוע את דעתכם בתגובות.

פסקה 1:
בשבועות האחרונים הוצפה זירת הבינה המלאכותית בסערה בעקבות טענות BridgeMind AI כי דגם Claude Opus 4.6 של חברת Anthropic הוחלש בסתר. הטענה, שזכתה לתהודה רבה ברשתות החברתיות, מתייחסת לירידה משמעותית במדד ההזיות של הדגם, מ-83.3% ל-68.3%, כפי שנבדק על ידי מדד הקוד BridgeBench.

פסקה 2:
BridgeMind טוענת כי הירידה במדד ההזיות מצביעה על "רמות חשיבה מופחתות". עם זאת, מדען המחשב פול קלקרפט טוען שהמתודולוגיה שבבסיס הטענה פגומה. לדבריו, המדד הורחב מ-6 ל-30 משימות, וההשוואה בין התוצאות אינה מדויקת. קלקרפט מציין שהירידה הקטנה במדד נבעה בעיקר מתוספת משימה אחת, ושמדובר ברעש סטטיסטי.

פסקה 3:
הדיון סביב טענות BridgeMind מדגיש את המתח הגובר בתעשיית ה-AI בין הצורך בייעול עלויות לבין הדרישה לביצועים עקביים. מאז השקתו, Claude Opus 4.6 נתקל בביקורות על ירידה נתפסת באיכות, כולל תגובות קצרות יותר ומעקב חלש יותר אחרי הנחיות. Anthropic עצמה הציגה בקרות חשיבה אדפטיביות שמאפשרות לדגם להתאים את תקציב החשיבה שלו, מה שמביא לשינויים משמעותיים בתפקוד.

פסקה 4:
השלכות השינויים הללו רחבות. מפתחים מדווחים על הפחתה משמעותית בעומק החשיבה של הדגם, מה שמשפיע על יכולותיו לבצע משימות מורכבות. ניתוח עצמאי מצא שעומק החשיבה ירד בכ-67% עד סוף פברואר, מה שמצביע על ירידה ברמת המעורבות של הדגם בתהליכי קבלת החלטות.

פסקה 5:
למרות התסכולים, אין הוכחה חד משמעית שהירידה במדד ההזיות נובעת מהורדת רמה מכוונת של הדגם. ההשוואה שביצעה BridgeMind הייתה כמו השוואת תפוחים ותפוזים, ונתוני התוצאות החופפות היו כמעט זהים. עם זאת, השינויים בבקרות החישוב האדפטיביות ואופטימיזציות ברמת השירות משפיעים על חוויית המשתמשים.

פסקה 6:
עד כה, Anthropic לא פרסמה הצהרה פומבית על הטענות של BridgeBench. מה דעתכם על הסוגיה? האם לדעתכם חברות AI צריכות לשקול מחדש את מדיניותן בנושא שדרוגים וייעול דגמים? נשמח לשמוע את דעתכם בתגובות.