רצינו לדעת דבר אחד קטן ומעצבן: כמה טוקנים באמת עולה לנו לשלוח את המילה "שלום" למודל שפה — מילה אחת, לא יותר. במקום לנחש, פתחנו טרמינל, חיברנו את ה-API של אנתרופיק, ומדדנו הכל עד הטוקן הבודד — קלט, פלט, קאש, ובכל אחד ממודלי Claude. מה שיצא משם הפתיע גם אותנו, וגם ענה על שאלה קונספירטיבית קטנה ששווה לדבר עליה בגלוי.
הדרכות
כמה טוקנים באמת עולה לומר 'שלום' ל-AI? מדדנו כל אחד
פתחנו טרמינל ומדדנו עד הטוקן הבודד כמה עולה לשלוח מילה אחת — 'שלום' — למודלי Claude, ל-Gemini, ומה קורה כשהיא עוברת דרך Claude Code עצמו: תקורה, מס-עברית חוצה-ספקים, מצב חשיבה, וסיסטם-פרומפט ששוקל פי-4,800 מהמילה.

אמ;לק
5 הדברים שצריך לדעת
לשלוח 'שלום' עולה בערך 9-10 טוקני קלט, אבל רק ~2 מהם הם המילה עצמה. השאר הוא תקורה קבועה של מבנה ההודעה (~7-8 טוקנים), שמופיעה בכל בקשה — גם על 'היי'. אין דבר כזה בקשה זולה של מילה אחת.
נקודת הקצה count_tokens של אנתרופיק החזירה בדיוק את המספר שחויב בפועל (9=9, 10=10). גם ל-Gemini יש countTokens חינמי שתאם בול. אפשר לתקצב את כל הקלט מראש, בלי להריץ את המודל ובלי לשלם.
אותו משפט בעברית עלה 30-45% יותר טוקנים מאנגלית. מהיעיל לבזבזני: GPT-4o (o200k) 1.14 כפול, Gemini 1.29, Claude בערך 1.7, והטוקנייזר הישן של GPT-4 (cl100k) 2.57. Claude דווקא הכי פחות ממוטב לעברית מהדור הנוכחי — אבל המס אוניברסלי, לא מזימה.
Haiku 4.5 שילש את הפלט (27→81) על ברכה; Gemini 2.5 Flash חשב 31 טוקנים ו-Gemini 3.5 Flash 264 טוקנים (!). Opus 4.8 עם adaptive thinking היה היחיד שחשב 0. אל תדליקו חשיבה גורף על קלט טריוויאלי.
מדדנו את הסשן הזה עצמו: 'שלום' היא 9 טוקנים, אבל דרך Claude Code (סיסטם-פרומפט + כלים + זיכרון) התור הראשון עלה 43,483 טוקני קלט, בממוצע 119,331 לקריאה. 95% נקרא מהקאש — בלי caching, סוכן כזה בלתי-אפשרי כלכלית.
נתחיל מהבסיס, כי אסור לי להניח כלום. טוקן הוא פיסת הטקסט הקטנה שמודל שפה קורא בבת אחת — לפעמים מילה שלמה, לפעמים חצי מילה, לפעמים רק כמה אותיות. תחשבו על זה כמו על אריחי לגו של שפה: המודל לא רואה "אותיות", הוא רואה אריחים, ואנחנו משלמים לפי כמות האריחים שנכנסים (input) ושיוצאים (output). כל מה שאנחנו משלמים עליו ב-AI נמדד בטוקנים, אז "כמה טוקנים" זה בעצם "כמה כסף".
המצב: אנחנו משלמים פר-טוקן, אבל לא באמת יודעים כמה מילה עולה
מסתבר שרובנו פשוט מנחשים. יש הרגשה כללית ש"מילה זה בערך טוקן", אז "שלום" זה טוקן אחד, נכון? לא בדיוק. הבעיה היא ששלושה דברים מסתתרים מאיתנו בו-זמנית: התקורה הקבועה של כל בקשה, האופן שבו הטוקנייזר מפרק דווקא עברית, וכמה המודל יחליט לענות לנו בחזרה. בלי למדוד, כל אחד מהשלושה יכול להכפיל לנו את החשבון בלי שנשים לב.
איך בכלל מודדים את זה — שתי דרכים משלימות
יש שתי דרכים, והן משלימות זו את זו. הראשונה נקראת count_tokens — נקודת קצה ייעודית ב-API של אנתרופיק שסופרת כמה טוקני קלט יש בבקשה בלי להריץ את המודל בכלל. היא חינמית, מהירה, ומקבלת בדיוק אותם פרמטרים כמו בקשה אמיתית. הדרך השנייה היא לשלוח הודעה אמיתית ולקרוא את אובייקט ה-usage שחוזר בתשובה — שם, ורק שם, אנחנו רואים גם את טוקני הפלט וגם את שדות הקאש. עם count_tokens אנחנו מתקצבים את כל הקלט בחינם, עוד לפני שהוצאנו סנט.
הרצנו את שתי הדרכים וקיבלנו הפתעה נעימה: המספר של count_tokens היה זהה בול לקלט האמיתי שחויב — 9 מול 9, 10 מול 10, בכל שורה. כלומר אפשר לסמוך עליו כמעט לגמרי לתכנון עלויות (אנתרופיק כן מסייגת שבמקרים נדירים ההערכה עשויה לזוז במעט).
הממצא הראשון: "מילה אחת" היא בעיקר תקורה
הנה מה שהכי הפתיע אותנו. כשמדדנו הודעה עם התו הבודד "." לבד, קיבלנו 7 טוקנים ב-Opus ו-8 ב-Sonnet/Haiku — על נקודה אחת. זו התקורה הקבועה של כל הודעה: המבנה, תפקיד ה-user, העטיפה סביב הטקסט. המילה "שלום" עצמה הוסיפה בערך 2 טוקנים בלבד מעל הבסיס הזה. כשאנחנו שולחים 'מילה אחת', בערך 70-80% מהחשבון הוא בכלל לא המילה — זו תקורה קבועה. המסקנה המעשית: אין דבר כזה "בקשה זולה של מילה אחת". כל ping עולה בערך 9-10 טוקני קלט, גם אם כתבנו בסך הכל "היי".
ומה עם קאש? הוא היה אפס בכל המדידות, וזה הגיוני. המינימום לקאשש prompt במודלים החדשים עלה ל-4096 טוקנים (ב-Opus 4.5 וב-Haiku 4.5), ו"שלום" נמצא שנות אור מתחת לסף הזה. מילה בודדת אי אפשר לקאשש בכלל — היא קטנה מדי מכדי שהמערכת תשמור אותה.
מס-העברית: אותה כוונה, יותר טוקנים
עכשיו לחלק שבאמת נוגע לנו כישראלים. השווינו את "שלום, מה שלומך היום?" מול "Hi, how are you today?" — שני משפטים במשמעות דומה. בעברית שילמנו בעקביות בערך 30-45% יותר טוקנים, למרות שהמשפט העברי קצר יותר באותיות. הסיבה נעוצה באיך שבנוי הטוקנייזר: הוא בנה את ה"אריחים" שלו מתוך אינטרנט שרובו אנגלית, אז לאנגלית יש אריחים גדולים ויעילים, ולעברית אריחים קטנים ויקרים.
כדי לוודא שזו לא גזירה של Claude דווקא, הרצנו את אותם משפטים דרך הטוקנייזר הפתוח של OpenAI (tiktoken) וגם חי מול Gemini, וקיבלנו דירוג מלא. בטוקנייזר הישן של GPT-4 (בשם cl100k) המילה "שלום" עלתה 4 טוקנים, ומס-העברית טיפס ל-2.57 כפול. בטוקנייזר החדש של GPT-4o (בשם o200k) אותה "שלום" עלתה טוקן אחד בלבד, ומס-העברית צנח ל-1.14 כפול. Gemini נחת על 1.29 כפול, ו-Claude על בערך 1.7 כפול. הדירוג מהיעיל לבזבזני: GPT-4o, ואז Gemini, ואז Claude, ואז הדור הישן של GPT-4 — כלומר Claude דווקא הכי פחות ממוטב לעברית מבין הדור הנוכחי, אך רחוק מהישן.
אותה מילה, מול Gemini ו-GPT — והפתעה על התקורה
ניסינו למדוד את "שלום" חי גם אצל המתחרים. את GPT לא הצלחנו — המפתח שלנו נגמר במכסה (insufficient_quota), אז נשארנו עם צד-הטוקנייזר שלו בלבד (tiktoken, שכבר מדדנו). אבל Gemini הרצנו חי, והוא חשף הבדל ארכיטקטוני שלא ציפינו לו. אצל Gemini המילה "שלום" עלתה בסך הכל 2 טוקני קלט, והתו "." עלה טוקן אחד — כלומר Gemini כמעט לא גובה תקורת-הודעה, בעוד Claude גובה ~7-8 טוקנים קבועים על כל בקשה. שני ספקים, אותה מילה, אבל התקורה הקבועה של Claude לבדה כמעט שווה לכל "שלום" שלמה ב-Gemini. וגם ל-Gemini יש countTokens חינמי, שתאם אצלנו בול לחיוב האמיתי — אז ההרגל של "מדוד לפני שאתה מנחש" עובד זהה בשני העולמות.
אז למה אנתרופיק לא מפרסמת את הטוקנייזר שלה?
זו שאלה ששווה לשאול בקול, כי OpenAI כן פרסמו את tiktoken בקוד פתוח. קודם כל, כדאי לדעת שאנתרופיק לא לבד — גם Google עם Gemini לא מפרסמת ספריית טוקנייזר, אלא רק API לספירה. אז דווקא OpenAI הם החריגים כאן, לא הכלל. הסיבות, בעיניי, פרוזאיות ולא מפחידות: אוצר-המילים של טוקנייזר מסגיר מידע על הרכב דאטת האימון (כמה עברית, כמה קוד), הוא מכיל טוקנים מיוחדים שאפשר לנצל להזרקת פקודות, ואי-פרסום שלו משאיר גמישות לשדרג בין גרסאות בלי לשבור אף אחד.
ומה עם החשד ש"בזבזני בכוונה כדי לגבות מאיתנו יותר"? זו דווקא התיאוריה שהכי קל להפריך, כי היא פשוט נגד האינטרס של אנתרופיק עצמה. טוקנים הם יחידת החישוב עצמה — יותר טוקנים למילה זה יותר עלות שרת עבור אנתרופיק, וגם חלון-הקשר אפקטיבי קטן יותר עבורנו. כל מעבדה בעולם רצה להפוך את הטוקנייזר ליעיל יותר, לא בזבזני יותר. וכפי שראינו במספרים, Claude טובה מ-GPT-4 הישן — קשה לטעון לבזבוז מכוון כשאתה בעצם עוקף דור קודם של המתחרה.
מצב חשיבה: כאן מתחיל הבזבוז האמיתי
עכשיו לניסוי שהכי אהבתי. מצב חשיבה (extended thinking) הוא כשהמודל "חושב בקול" לפני שהוא עונה — הוא מייצר שרשרת הגיון פנימית, וכל הטוקנים האלה מחויבים כ-output. שאלנו את עצמנו: מה קורה אם מדליקים חשיבה על "שלום"? התשובה מטרידה. ב-Haiku 4.5, עצם הדלקת החשיבה קפצה את הקלט מ-10 ל-39 טוקנים (עוד לפני שהמודל חשב תו אחד), והפלט זינק מ-27 ל-81 טוקנים — פי-3 — כדי "לחשוב" על ברכה של מילה אחת. הדלקת חשיבה על קלט טריוויאלי היא שריפת טוקנים נטו, בלי שום תועלת.
והנה החלק היפה — Opus 4.8 עובד אחרת לגמרי. יש לו מצב "adaptive" עם פרמטר effort, והוא מחליט לבד כמה לחשוב לפי קושי המשימה. כששלחנו לו "שלום", אפילו ב-effort הכי גבוה, הוא חשב 0 תווים. הדור החדש למד לזהות שברכה לא דורשת מחשבה, ופשוט לא ביזבז עליה כלום. זה בדיוק ההבדל בין מתג טיפש (חשיבה כפויה על כל דבר) לבין מנגנון חכם שמתאים את המאמץ לקושי האמיתי של השאלה.
והתבנית הזאת חוצה ספקים. גם Gemini חושב כברירת מחדל: Gemini 2.5 Flash שרף 31 טוקני מחשבה על "שלום", ו-Gemini 3.5 Flash שרף 264 טוקני מחשבה (!) — הכול כדי לענות למילה אחת. גם שם, הגדרת thinkingBudget=0 מאפסת את זה מיידית. הכלל חוצה-הספקים: חשיבה דלוקה כברירת מחדל שורפת עשרות עד מאות טוקנים על קלט טריוויאלי — אלא אם המודל adaptive כמו Opus 4.8, או שכיביתם אותה ידנית.
המס הנסתר: מה קורה כש"שלום" עוברת דרך Claude Code
כאן זה נהיה אישי, כי את כל הניסוי הזה הרצנו מתוך Claude Code — הסוכן שרץ בטרמינל וכתב את הכתבה הזאת. ל-Claude Code יש סיסטם-פרומפט ענק: הוראות, רשימת כל הכלים, הסקילז, שרתי ה-MCP והזיכרון שלנו. כל המעטפת הזאת נוסעת יחד עם כל הודעה שאנחנו שולחים, גם "שלום". מדדנו את הסשן הזה עצמו, ישירות מתוך לוגי ה-usage: התור הראשון — סיסטם-פרומפט והגדרות הכלים והזיכרון וההודעה הראשונה — עלה 43,483 טוקני קלט, והממוצע לאורך 145 הקריאות בסשן היה 119,331 טוקני קלט לכל קריאה. המילה "שלום" היא 9 טוקנים; מעטפת Claude Code סביבה היא בערך 43,000 — פי ~4,800.
אבל הנה ההצלה, והיא מחזירה אותנו לקאש. 95% מהקלט העצום הזה נקרא מהקאש (cache-read), שעולה בערך עשירית ממחיר קלט רגיל. הפריפיקס הקבוע — הסיסטם-פרומפט והכלים — נכתב פעם אחת ואז נקרא בזול בכל תור. בלי prompt caching, סוכן כמו Claude Code היה בלתי-אפשרי כלכלית — הקאש הוא בדיוק מה שהופך מעטפת של 40 אלף טוקן לבת-קיימא. וזה סוגר מעגל יפה: על מילה בודדת אין קאש, אבל על סוכן שלם הקאש הוא כל הסיפור.
שורה תחתונה
בעיניי, השיעור האמיתי כאן הוא לא "שלום עולה X טוקנים", אלא ההרגל עצמו: לפני שאנחנו בונים משהו על LLM, למדוד במקום לנחש. גילינו ש-70-80% מ"מילה אחת" זה תקורה, שעברית עולה בערך 40% יותר מאנגלית ו-Claude הכי פחות ממוטב לה מבין הדור הנוכחי, שקאש לא רלוונטי בקטן אבל הוא כל הסיפור בסוכן שלם, ושמצב חשיבה גורף שורף עשרות עד מאות טוקנים בחינם — אצל Claude וגם אצל Gemini. וראינו שאותה "שלום" בת-9-הטוקנים הפכה לפי-4,800 ברגע שעברה דרך המעטפת של Claude Code. כל אלה מספרים שאי אפשר היה לנחש — רק למדוד. והכלים לזה חינמיים ולוקחים חמש דקות.
יש פה גם סייג הגון: המדידות הן צילום-מצב של היום (יולי 2026), הטוקנייזרים משתנים בין גרסאות, והפלט לא-דטרמיניסטי — תריצו שוב ותקבלו מספרים מעט שונים. אז אל תסמכו על המספר הבודד; תסמכו על השיטה.
אז מה איתכם — כמה טוקנים לדעתכם עולה הפרומפט הכי נפוץ שאתם שולחים כל יום, ומתי בפעם האחרונה באמת מדדתם אותו במקום לנחש?
מקורות ואימות
כל טענה עובדתית בכתבה נבדקה מול המקורות הבאים.
- Token counting — Claude Platform Docsplatform.claude.com
- Count tokens in a Message — Claude API Referencedocs.anthropic.com
- Prompt caching — Claude Platform Docsplatform.claude.com
- Adaptive thinking — Claude Platform Docsplatform.claude.com
- Effort — Claude Platform Docsplatform.claude.com
- openai/tiktoken — BPE tokenizer (o200k_base / cl100k_base)github.com
- Understand and count tokens — Gemini APIai.google.dev
- Gemini thinking (thoughtsTokenCount, thinkingBudget) — Gemini APIai.google.dev
אהבתם את הכתבה? ספרו לי
הקורס המוביל שלי
Practical AI with Claude
הקורס הכי מקיף בעברית לשליטה מלאה ב-Claude — מ-Claude Desktop לעבודה יומיומית, ועד בניית סוכנים ואוטומציות אמיתיות.
פניות תקשורת
לראיונות, שיתופי פעולה והרצאות, נשמח לדבר.



