השקת הדגם החזק ביותר של Anthropic בצל סערת דיווחים

#1 · 23/05/2025, 06:18

ציטוט מ מערכת האתר ב 23/05/2025, 06:18
חברת Anthropic הכריזה על דור הצ'אטבוטים החדש שלה, אך במקביל מתמודדת עם ביקורת על התנהגותם במבחני בדיקה שעלולה להוביל לדיווח על משתמשים לרשויות. החברה חשפה את Claude Opus 4 ו-Claude Sonnet 4 ב-22 במאי, כשהיא מציינת ש-Claude Opus 4 הוא הדגם החזק ביותר שלה, ובמקביל טוענת שהוא "דגם הקידוד הטוב ביותר בעולם". Claude Sonnet 4 זכה לשדרוג משמעותי ביחס לגרסתו הקודמת, ומציע יכולות קידוד והיגיון משופרות. שני הדגמים החדשים מציעים מצבים היברידיים של תגובות מיידיות לצד חשיבה מעמיקה להסקת מסקנות.

לפי החברה, שני הדגמים החדשים יכולים לעבור בין היגיון, מחקר ושימוש בכלים כמו חיפוש באינטרנט לשיפור תגובותיהם. Anthropic מוסרת ש-Claude Opus 4 עולה על המתחרים בביצועי קידוד סוכנים, ומסוגל להתמודד עם משימות מורכבות וארוכות למשך שעות רבות, מרחיב את היכולות הקיימות של סוכני בינה מלאכותית. הצ'אטבוט של החברה קיבל ציון של 72.5% במבחן הנדסת תוכנה, לעומת GPT-4.1 של OpenAI שהשיג 54.6%.

שחקנים מרכזיים בתעשיית הבינה המלאכותית נוטים לכיוון "מודלי היגיון" שעתידים לפתרון בעיות שיטתי. OpenAI הובילה את השינוי הזה בדצמבר, כאשר השיקה את סדרת "o", ואחריה Google עם Gemini 2.5 Pro והיכולת הניסיונית "Deep Think".

במהלך כנס המפתחים הראשון של Anthropic ב-22 במאי, סערה פרצה כשנחשף ש-Claude 4 Opus עשוי לדווח לרשויות על משתמשים אם תזוהה התנהגות לא מוסרית בוטה. הדיווח מבוסס על דברי חוקר התאמת AI של Anthropic, סם באומן, שאמר שהצ'אטבוט עשוי לפנות לתקשורת או לרגולטורים, ולנקוט בפעולות נוספות. באומן ציין שמדובר במבחנים בלבד עם גישה וכלים שלא קיימים במציאות. מנכ"ל Stability AI, אמאד מוסתק, הגיב ואמר כי מדובר בהתנהגות שגויה שיש להפסיקה מיידית, מאחר והיא מהווה בגידה באמון.

חברת Anthropic הכריזה על דור הצ'אטבוטים החדש שלה, אך במקביל מתמודדת עם ביקורת על התנהגותם במבחני בדיקה שעלולה להוביל לדיווח על משתמשים לרשויות. החברה חשפה את Claude Opus 4 ו-Claude Sonnet 4 ב-22 במאי, כשהיא מציינת ש-Claude Opus 4 הוא הדגם החזק ביותר שלה, ובמקביל טוענת שהוא "דגם הקידוד הטוב ביותר בעולם". Claude Sonnet 4 זכה לשדרוג משמעותי ביחס לגרסתו הקודמת, ומציע יכולות קידוד והיגיון משופרות. שני הדגמים החדשים מציעים מצבים היברידיים של תגובות מיידיות לצד חשיבה מעמיקה להסקת מסקנות.

לפי החברה, שני הדגמים החדשים יכולים לעבור בין היגיון, מחקר ושימוש בכלים כמו חיפוש באינטרנט לשיפור תגובותיהם. Anthropic מוסרת ש-Claude Opus 4 עולה על המתחרים בביצועי קידוד סוכנים, ומסוגל להתמודד עם משימות מורכבות וארוכות למשך שעות רבות, מרחיב את היכולות הקיימות של סוכני בינה מלאכותית. הצ'אטבוט של החברה קיבל ציון של 72.5% במבחן הנדסת תוכנה, לעומת GPT-4.1 של OpenAI שהשיג 54.6%.

שחקנים מרכזיים בתעשיית הבינה המלאכותית נוטים לכיוון "מודלי היגיון" שעתידים לפתרון בעיות שיטתי. OpenAI הובילה את השינוי הזה בדצמבר, כאשר השיקה את סדרת "o", ואחריה Google עם Gemini 2.5 Pro והיכולת הניסיונית "Deep Think".

במהלך כנס המפתחים הראשון של Anthropic ב-22 במאי, סערה פרצה כשנחשף ש-Claude 4 Opus עשוי לדווח לרשויות על משתמשים אם תזוהה התנהגות לא מוסרית בוטה. הדיווח מבוסס על דברי חוקר התאמת AI של Anthropic, סם באומן, שאמר שהצ'אטבוט עשוי לפנות לתקשורת או לרגולטורים, ולנקוט בפעולות נוספות. באומן ציין שמדובר במבחנים בלבד עם גישה וכלים שלא קיימים במציאות. מנכ"ל Stability AI, אמאד מוסתק, הגיב ואמר כי מדובר בהתנהגות שגויה שיש להפסיקה מיידית, מאחר והיא מהווה בגידה באמון.