חדשות

Grok 4.3: ארבעה סוכנים שבודקים זה את זה, ווידאו שהמודל פשוט רואה

xAI שחררה מודל frontier חסכוני עם הבנת וידאו מובנית וצוות סוכנים שמצליבים זה את זה לפני התשובה. בדקתי את הרעיון, ואת המספרים.

מאת Yuval Avidani30 ביוני 2026קריאה בת 5 דק׳

Grok 4.3: ארבעה סוכנים שבודקים זה את זה, ווידאו שהמודל פשוט רואה

הקטע שתפס אותי: לא מודל בודד, צוות

"כמה סוכנים שבודקים זה את זה לפני תשובה סופית" — זו השורה שגרמה לי לעצור כשקראתי על Grok 4.3. בואו נפרק את זה. xAI שחררה את Grok 4.3 בבטא ב-17 באפריל 2026, וההשקה המלאה ב-API הושלמה ב-30 באפריל. מסתבר שהמשחק כאן הוא לא עוד מודל שמנסה להיות הכי חכם בחדר לבדו — אלא צוות קטן של סוכנים מתמחים (בשמות Grok, Harper, Benjamin ו-Lucas) שעובדים במקביל, מצליבים ובודקים זה את זה, ורק אז מפיקים תשובה.

בעיניי, המעבר מ"מודל גאון בודד" ל"צוות שבודק את עצמו" הוא הרעיון הכי מעניין בגרסה הזו — ואני רוצה להסביר למה, בלי הייפ.

תחשבו על זה כמו בדיקת קוד אצלנו במשרד. כשאני כותב קוד ודוחף קומיט ישר לפרודקשן בלי שאף אחד עבר עליו — שם נולדים הבאגים הכי מביכים. אבל כשיש מישהו שעושה code review, שואל "רגע, בדקת את המקרה הזה?", פתאום חצי מהשגיאות נתפסות לפני שהן מגיעות למשתמש. Grok 4.3 לוקח את העיקרון הזה ומכניס אותו פנימה: במקום מוח אחד שזורק תשובה, יש כמה סוכנים שמריצים את אותה בעיה מזוויות שונות ומתעמתים על התוצאה. בתצורת "Heavy" זה מתרחב ל-16 סוכנים שעובדים יחד.

reasoning: לחשוב לפני שמדברים

לפני שנמשיך, מילה אחת שחוזרת הרבה — reasoning. reasoning הוא תהליך שבו המודל "חושב" צעד-אחר-צעד בתוך עצמו לפני שהוא נותן את התשובה הסופית, עבור מי שצריך פתרון לבעיה מורכבת ולא רק שליפה מהירה.

תחשבו על ההבדל בין חבר שיורה לכם תשובה מהבטן באמצע שיחה, לבין חבר ששותק שתי שניות, מסדר את המחשבות, ואז עונה. אותו אדם, שתי איכויות תשובה שונות לגמרי. ב-Grok 4.3 ה-reasoning הזה הוא מובנה — כלומר זה לא טריק שאני צריך להפעיל ידנית עם פרומפט מתוחכם, זה חלק מאיך שהמודל בנוי. וכשמשלבים את זה עם הסוכנים המצליבים, מקבלים שילוב מעניין: כל סוכן לא רק שולף — הוא גם חושב, וגם נבדק על ידי האחרים.

בדקו את עצמכם

למה הרעיון של כמה סוכנים שבודקים זה את זה אמור להפחית טעויות?

השילוב של "כל סוכן חושב צעד-אחר-צעד" ו"הסוכנים בודקים זה את זה" הוא הסיבה שמודל כזה אמור לטעות פחות בבעיות מורכבות. זה לא קסם — זה פשוט יותר עיניים על אותה בעיה.

וידאו שהמודל פשוט רואה

עכשיו לפיצ'ר שהכי הרים לי גבה: קלט וידאו מובנה (native video input). בואו נפרק מה זה אומר.

עד היום, רוב המודלים שטענו ש"הם מבינים וידאו" עשו את זה בעקיפה — לקחו את הסרטון, חתכו אותו לפריימים בודדים (תמונות נייחות), ניתחו כל תמונה בנפרד, ולפעמים הוסיפו תמלול של הקול. זה עובד, אבל זה כמו לתאר סרט למישהו דרך אלבום תמונות: הוא יקלוט את הסצנות, אבל יפספס את התנועה, את הקצב, את הרגע שבו משהו קורה.

קלט וידאו מובנה הוא היכולת של המודל לעבד את הווידאו עצמו כסוג מדיה ראשוני, עבור כל מי שעובד עם תוכן שזז — לא רק רצף של תמונות שהודבקו יחד. המודל מולטי-מודלי, כלומר הוא קולט כמה סוגי מדיה ביחד: טקסט, תמונות וּוידאו, באותה נשימה.

למה זה משנה לנו בפועל? תחשבו כמה מהעולם שלנו הוא וידאו — שיעורים, פגישות מוקלטות, הדגמות מוצר, סרטוני אבטחה, קליפים מהרשת. עד עכשיו, כדי שמודל "יבין" סרטון, הייתי צריך לבנות צינור (pipeline) שמפרק אותו, מתמלל, ומאכיל את המודל בחתיכות. כשהיכולת הזו מובנית, השלב המתיש הזה פשוט נעלם. אני נותן וידאו, ושואל שאלה.

נוסיף לזה את חלון ההקשר של מיליון טוקנים. טוקן הוא פיסת טקסט קטנה — בערך מילה או חלק ממילה — שהמודל קורא ביחידות. חלון ההקשר הוא כמות המידע שהמודל יכול להחזיק בראש בו-זמנית, עבור מי שצריך להזין מסמך ארוך או הרבה חומר בבת אחת. מיליון טוקנים זה כמו זיכרון עבודה ענק: אני יכול לזרוק פנימה ספר שלם, או תמלול של פגישה בת שעות, והמודל "זוכר" את ההתחלה גם כשהוא מגיע לסוף.

המספרים, בלי לייפות

עכשיו לחלק שאני הכי אוהב — נתונים, לא הבטחות. Grok 4.3 רושם 53 ב-Intelligence Index, כשהחציון בשוק הוא 35. בשביל הסדר: חציון 35 אומר שמחצית מהמודלים מתחת לזה. ציון 53 הוא פער משמעותי כלפי מעלה. בנוסף, המודל לקח מקום ראשון בשני בנצ'מארקים ספציפיים: CaseLaw v2 (משפטי) ו-CorpFin (פיננסי-תאגידי).

השוואה

וידאו בעקיפין מול קלט וידאו מובנה

אני מדגיש את ה-ספציפיים בכוונה. מקום ראשון בשני בנצ'מארקים תחומיים זה הישג אמיתי, אבל הוא לא אומר "הכי טוב בהכל" — הוא אומר "חזק במשפט ובפיננסים". זו הגינות בסיסית: מודל אחר עשוי להוביל בקוד או בכתיבה יצירתית, ובנצ'מארק הוא תמיד מבחן מסוים, לא האמת המוחלטת.

ומה עם המחיר? כאן הסיפור נהיה מעניין כלכלית. ה-API עולה 1.25 דולר למיליון טוקני קלט ו-2.50 דולר למיליון טוקני פלט. xAI ממצבת את זה כמודל frontier (כלומר מהשורה הראשונה) שהוא גם חסכוני. מודל מהשורה הראשונה שגם זול יחסית להרצה זה בדיוק הצירוף שגורם לאנשי מוצר לעצור ולחשב מחדש. כי בסוף, כשאני בונה מוצר אמיתי שרץ אלפי פעמים ביום, המחיר לטוקן הוא לא פרט טכני — הוא ההבדל בין פיצ'ר שאפשר לשחרר לבין פיצ'ר שנשאר במגירה.

השוואה

המספרים של Grok 4.3, בלי לייפות

מעבר לכל זה יש עוד שכבה מעשית: יצירת מסמכים (PDF, גליונות, מצגות) ו-tool-calling משופר — היכולת של המודל להפעיל כלים חיצוניים בעצמו, כמו לחפש מידע או להריץ חישוב, במקום רק לדבר. זה מה שהופך מודל מ"צ'אט חכם" ל"סוכן שעושה דברים".

שורה תחתונה, וגם הסייג

בעיניי, הדבר שכדאי לקחת מ-Grok 4.3 הוא לא פיצ'ר בודד — זו הגישה. הרעיון של "כמה סוכנים שבודקים זה את זה" הוא בדיוק איך שצוות אנושי טוב עובד: לא סומכים על גאון בודד, סומכים על תהליך שבו אנשים מצליבים ותופסים את הטעויות אחד של השני. כשמוסיפים לזה הבנת וידאו שהיא חלק מהמודל ולא טלאי מבחוץ, ומחיר שמאפשר להריץ את זה בקנה מידה — מקבלים כלי שמעניין לבנות איתו.

הסייג שלי, וחשוב לי להגיד אותו: כל המספרים כאן הם בנצ'מארקים, וכל הפיצ'רים הם מה ש-xAI מצהירה. הידע של המודל מעודכן עד דצמבר 2025, אז בכל מה שקרה אחרי — הוא מסתמך על כלים חיצוניים, לא על זיכרון. צוות של סוכנים שבודקים זה את זה מצמצם טעויות, אבל לא מאפס אותן — אם כל הסוכנים חולקים את אותה הטיה, הם יאשרו זה לזה גם דברים שגויים. ובנצ'מארק, כמה שיהיה מרשים, הוא אף פעם לא תחליף לבדיקה שלי על המשימה האמיתית שלי.

מה אתם הייתם בודקים ראשון — את הבנת הווידאו, או את הצוות שמצליב את עצמו?

אמ;לק

5 הדברים שצריך לדעת

כמה סוכנים מתמחים (Grok, Harper, Benjamin, Lucas) עובדים במקביל ובודקים זה את זה לפני תשובה סופית; תצורת Heavy מרחיבה ל-16 סוכנים.

קלט וידאו מובנה שמעבד את הסרטון כמדיה ראשונית, לא רצף תמונות, בתוך חלון הקשר של מיליון טוקנים.

מול חציון 35 בשוק, ומקום ראשון בבנצ'מארקים CaseLaw v2 ו-CorpFin — חזק בתחומים ספציפיים, לא 'הכי טוב בהכל'.

1.25 דולר למיליון טוקני קלט, 2.50 דולר למיליון פלט — הצירוף של איכות גבוהה ומחיר נמוך הוא מה שמשנה החלטות מוצר.

בנצ'מארק הוא לא בדיקה אמיתית, וצוות סוכנים עם הטיה משותפת עדיין יכול לאשר לעצמו טעויות.

פניות תקשורת

לראיונות, שיתופי פעולה והרצאות — נשמח לדבר.

info@yuv.ai

Grok 4.3: ארבעה סוכנים שבודקים זה את זה, ווידאו שהמודל פשוט רואה

הקטע שתפס אותי: לא מודל בודד, צוות

reasoning: לחשוב לפני שמדברים

למה הרעיון של כמה סוכנים שבודקים זה את זה אמור להפחית טעויות?

וידאו שהמודל פשוט רואה