כמה באמת עולה טוקן? המדריך שגורם לך להפסיק להרגיש פראייר
קלט, פלט, מטמון, מנוי מול API — כולנו משלמים על AI ומעטים באמת מבינים על מה. בואו נפרק את החשבון עד ה-FLOPs, עם מספרים אמיתיים מדפי התמחור הרשמיים, גרפים אינטראקטיביים, ומחשבון שאפשר לשחק איתו.
מאת Yuval Avidaniקריאה בת 10 דק׳
אהבתם? שתפו
אמ;לק
5 הדברים שצריך לדעת
טוקן הוא פיסת טקסט קטנה (כ-4 תווים באנגלית) שעולה כסף כי היא צורכת זמן חישוב אמיתי על כרטיס גרפי יקר. משלמים לפי טוקנים בדיוק כמו שמשלמים על חשמל לפי קוט"ש.
קלט נכנס במקביל ומהר (prefill), אבל פלט נוצר טוקן-אחר-טוקן וכל אחד דורש לקרוא את כל המודל מהזיכרון (decode). לכן אנתרופיק מתמחרת פלט בדיוק פי 5 מקלט.
קריאה מהמטמון עולה עשירית ממחיר קלט רגיל. שמים את החלק הקבוע של הפרומפט בהתחלה עם סימון cache_control; ברירת המחדל נשמרת 5 דקות ומתאפסת בכל שימוש.
מילה עברית שוקלת כ-5.6 טוקנים מול 1.33 באנגלית, פי 4 בערך. הטוקנייזר קבוע ואי אפשר להחליף אותו, אבל אפשר לתמחר מראש עם count_tokens בחינם.
לשימוש אישי דרך הצ'אט מנוי כמעט תמיד זול יותר; לאפליקציה אוטומטית ה-API הוא הדרך. Bedrock עולה אותו דבר לטוקן כמו אנתרופיק ישירות.
"נמאס לי להרגיש פראייר." אם אי פעם הסתכלנו על החשבון של OpenAI, של אנתרופיק או של גוגל, וראינו שורות של input, output, cache write, cache read — ולא הבנו על מה בדיוק אנחנו משלמים — אנחנו לא לבד. היום אנחנו הולכים לפרק את זה עד הסוף, עם מספרים אמיתיים מדפי התמחור הרשמיים, ובלי בולשיט.
בואו נפרק את זה לאט, כי ברגע שמבינים את המנגנון, מפסיקים לפחד ממנו — ומתחילים לחסוך.
קודם כל, מה זה בכלל טוקן
נתחיל מהיחידה הכי בסיסית, כי כל השאר בנוי עליה. טוקן הוא פיסת טקסט קטנה שהמודל באמת "רואה" — לא אות, לא מילה שלמה, אלא משהו באמצע. המודל לא קורא אותיות כמונו; הוא שבר את כל השפה מראש לחתיכות נפוצות, וכל חתיכה כזו היא טוקן.
תחשבו על זה כמו על לגו של שפה. המילה "שלום" יכולה להיות טוקן אחד, אבל מילה נדירה תישבר לכמה חתיכות. השיטה עצמה נקראת BPE (ראשי תיבות של Byte Pair Encoding), והרעיון פשוט: מה שמופיע הרבה — נשמר כחתיכה אחת; מה שנדיר — נשבר לחתיכות קטנות. ככה המודל מסתדר עם מילון מצומצם ועדיין מכסה כל טקסט בעולם.
וכאן מגיע מספר חשוב שכדאי לזכור: באנגלית, טוקן אחד שווה בערך ל-4 תווים, או שלושה רבעים ממילה. זו הערכה רשמית של OpenAI, וגם גוגל אומרת בדיוק אותו דבר בתיעוד של Gemini. כלומר 100 טוקנים הם בערך 75 מילים באנגלית.
הכי טוב פשוט לראות את זה קורה. הנה מנוע אמיתי — כתבו בו מה שבא לכם, בעברית ובאנגלית, ותראו איך הטקסט מתפרק לטוקנים לנגד העיניים:
מנוע אמיתי · נסו בעצמכם
הטוקנייזר: איך טקסט הופך לטוקנים
זה לא סרטון. כתבו כאן מה שתרצו: בעברית, באנגלית, מספרים וסימנים, ותראו איך הטקסט מתפרק לטוקנים, הפיסות הקטנות שהמודל באמת רואה. ==שימו לב: עברית מתפרקת לצפוף יותר מאנגלית, ולכן עולה יותר טוקנים.==
17 טוקנים42 תווים~2.5 תווים לטוקן
שלום!␣אני␣בונה␣סוכן␣AI␣עם␣Claude␣Sonnet␣5.
זה טוקנייזר להמחשה: מודלים אמיתיים משתמשים בשיטה ששמה BPE (Byte-Pair Encoding) שמאחדת צמדי אותיות נפוצים, אז החלוקה המדויקת שונה. אבל האינטואיציה זהה: מילה נפוצה = טוקן אחד, מילה נדירה מתפרקת לכמה, ורווחים וסימנים נספרים גם הם. בדיוק לפי המספר הזה משלמים על כל בקשה.
הקטע שכואב לנו כישראלים: מס העברית
עכשיו שימו לב לדבר שגילינו כשכתבנו בעברית באותו מנוע — עברית מתפרקת להרבה יותר טוקנים מאנגלית, וזה עולה לנו כסף ישירות.
בואו נשים על זה מספרים. אם באנגלית מילה ממוצעת היא כ-1.33 טוקנים, בעברית מדדו שמילה ממוצעת שוקלת כ-5.6 טוקנים תחת הטוקנייזר של GPT-4 — פי ארבעה בערך. במדידה אחרת, על הטוקנייזר של Mistral, יצא 5.81 טוקנים למילה בעברית, כמעט טוקן לכל אות. ובין השפות הקיצוניות בעולם, אותו טקסט בדיוק יכול לעלות עד פי 15 טוקנים, תלוי בשפה.
למה זה קורה? כי המודלים אומנו בעיקר על אנגלית, אז השפה האנגלית קיבלה את החתיכות הגדולות והיעילות, והעברית נשארה עם פירורים. זה אומר שאותה שאלה בדיוק, בעברית, עולה לנו פשוט יותר מאשר באנגלית — מס שקוף שאנחנו משלמים בלי לשים לב.
ופה שאלה שאני נשאל הרבה: אפשר להחליף את הטוקנייזר כדי לחסוך? התשובה הקצרה היא לא. הטוקנייזר תפור בתוך המודל, קבוע, ואי אפשר להחליף אותו — לא ב-Claude, לא ב-GPT ולא ב-Gemini. מה שכן, אנתרופיק נותנת נקודת שירות בשם count_tokens: אפשר לשלוח אליה טקסט לפני שמריצים, והיא תגיד כמה טוקנים זה יעלה — בחינם. שווה זהב כשרוצים לתקצב מראש.
(הערה קטנה למי שמכיר: אמבדינגים, אותם וקטורים שמשמשים לחיפוש חכם, הם עולם נפרד לגמרי עם תמחור משלו. אנתרופיק אפילו לא מייצרת אותם בעצמה ומפנה לספק בשם Voyage AI. הם לא משפיעים על מחיר הצ'אט, אז לא נתעכב עליהם היום.)
למה פלט עולה פי חמישה מקלט
עכשיו לחלק שהכי מבלבל אנשים בחשבון: למה טוקן שהמודל מוציא (output) עולה הרבה יותר מטוקן שאנחנו מכניסים (input)? אצל אנתרופיק, למשל, פלט עולה בדיוק פי חמישה מקלט. זה לא שרירותי — זו פיזיקה.
בואו נצלול רגע ל-FLOPs. FLOP הוא פעולת חישוב בודדת של המעבד, וכל טוקן דורש בערך פעמיים מספר הפרמטרים של המודל בפעולות כאלה. מודל עם מאה מיליארד פרמטרים ישרוף כ-200 מיליארד פעולות על כל טוקן בודד. זה המחיר האמיתי, בחומרה, של "לחשוב" על טוקן אחד.
אבל הנה ההבדל המכריע, וזה הלב של העניין. כשאנחנו שולחים פרומפט, כל טוקני הקלט נכנסים למודל במקביל, במכה אחת — כמו לצלם דף שלם בבת אחת. זה שלב שנקרא prefill, והוא יעיל מאוד כי הכרטיס הגרפי עובד במלוא הקצב. לעומת זאת, בשלב יצירת הפלט, שנקרא decode, המודל מייצר טוקן אחד בכל פעם, ובשביל כל טוקן חדש הוא חייב לקרוא מחדש את כל המשקלים שלו מהזיכרון — כמו סופר שכותב מילה, קם, רץ לספרייה, חוזר, וכותב את המילה הבאה.
התוצאה: יצירת הפלט תקועה על מהירות הזיכרון, לא על מהירות החישוב, וזה איטי ויקר בהרבה. לכן בכל התעשייה טוקן פלט מתומחר בערך פי שלושה עד חמישה מטוקן קלט. עכשיו כשאנחנו יודעים את זה, אנחנו כבר מבינים חצי מהחשבון.
ורק שיהיה גודל בעיניים: הכרטיסים שמריצים את הדברים האלה, כמו NVIDIA H100, עולים כ-4 דולר לשעה להשכרה בענן, וכרטיס B200 חדש כ-7 דולר לשעה. כל שנייה של המכונה הזו עולה כסף, וזה בדיוק מה שאנחנו משלמים עליו כשאנחנו קונים טוקנים. אנחנו לא קונים "טקסט" — אנחנו קונים זמן חישוב על חומרה יקרה, נמדד בטוקנים. זו הסיבה הכי בסיסית שבכלל משלמים לפי טוקנים: זו יחידת העבודה של המכונה, בדיוק כמו קוט"ש בחשמל.
המטמון: ההנחה הכי גדולה שרובנו מפספסים
עכשיו נכיר את הכלי שהכי חוסך כסף ושהכי מעט אנשים מבינים: המטמון, באנגלית cache.
בואו נבין את הבעיה שהוא פותר. נניח שאנחנו בונים סוכן AI ששולח בכל פעם את אותן הוראות ארוכות בהתחלה — אותו "system prompt" בן אלפי טוקנים. בלי מטמון, המודל מעבד את ההוראות האלה מאפס בכל בקשה, ואנחנו משלמים עליהן שוב ושוב. מטמון הוא זיכרון קצר-טווח: המודל שומר את החלק הקבוע של הפרומפט, וכשהוא חוזר — קוראים אותו בהנחה ענקית במקום לשלם עליו מחדש.
וההנחה באמת ענקית. אצל אנתרופיק, קריאה מהמטמון עולה רק עשירית ממחיר קלט רגיל — הנחה של 90 אחוז. יש רק תפיסה אחת: הכתיבה הראשונה למטמון עולה קצת יותר מקלט רגיל (פי 1.25 לגרסה הקצרה, פי 2 לגרסה הארוכה). כלומר משלמים פרמיה קטנה פעם אחת, כדי לחסוך המון בכל הקריאות שאחרי.
ולמה יש הגבלת זמן על המטמון? כי הזיכרון של הכרטיס הגרפי יקר ומוגבל. אנתרופיק שומרת את המטמון חמש דקות כברירת מחדל, ובכל פעם שמשתמשים בו הטיימר מתאפס מחדש בחינם. מי שצריך, יכול לשלם על גרסה של שעה שלמה. תחשבו על זה כמו על ארונית בתחנה: היא בחינם יחסית לזמן קצר, אבל אם רוצים להשאיר בה דברים המון זמן — משלמים יותר, כי המקום שווה כסף.
ואיך המודל יודע מה לשמור ומה זה מטמון? זה החלק היפה: אנחנו מסמנים. שמים סימן קטן בקוד (נקרא cache_control) בסוף החלק הקבוע, והמערכת שומרת בדיוק עד שם. בבקשה הבאה, אם ההתחלה זהה ב-100 אחוז — יש "פגיעה במטמון" (cache hit) והנחה; אם שינינו ולו תו אחד בהתחלה — המטמון נפסל וצריך לכתוב מחדש. לכן הכלל הזהב: שמים את מה שקבוע (הוראות, מסמכי רקע) בהתחלה, ואת מה שמשתנה (השאלה של המשתמש) בסוף.
בואו נראה את זה על דוגמה אמיתית. נגיד שאנחנו מריצים בוט שירות עם ספר הוראות בן 8,000 טוקנים:
בלי מטמון: כל שיחה משלמת על 8,000 טוקני קלט מלאים, כל פעם מחדש.
עם מטמון: משלמים על 8,000 טוקנים פעם אחת (בתוספת פרמיה קטנה), ואז כל שיחה נוספת משלמת רק עשירית על אותם 8,000 — חיסכון של עד 90 אחוז על החלק הקבוע.
הנה מחשבון אמיתי. שחקו עם הסליידרים — כמה קלט, כמה פלט, כמה מגיע מהמטמון, כמה בקשות בחודש — ותראו בעצמכם איך המחיר זז, לכל מודל של אנתרופיק:
מנוע אמיתי · חשבו בעצמכם
מחשבון עלות: כמה באמת עולה הבקשה שלכם
קלט מהמטמון $0.00256 קלט מלא $0.00640 פלט $0.00500
לבקשה$0.014$0.037
לחודש$1.40$3.70
חיסכון מהמטמון62%
המחירים לכל מיליון טוקנים, בדולרים, מדף התמחור הרשמי של אנתרופיק. נכון ל־2 ביולי 2026. שימו לב: כתיבה ראשונה למטמון עולה מעט יותר מקלט רגיל (פרמיית כתיבה), והחיסכון מגיע מהקריאות שאחריה.
המחירון האמיתי של אנתרופיק, בלי הפתעות
עכשיו כשאנחנו מבינים את היחידות, בואו נשים את המחירון המלא על השולחן. כל המספרים הבאים הם לכל מיליון טוקנים, בדולרים, מדף התמחור הרשמי, נכון ל-2 ביולי 2026:
מודל
קלט
פלט
כתיבה למטמון (5 דק')
קריאה מהמטמון
Claude Haiku 4.5
1$
5$
1.25$
0.10$
Claude Sonnet 5 (מחיר השקה)
2$
10$
2.50$
0.20$
Claude Opus 4.8
5$
25$
6.25$
0.50$
Claude Fable 5
10$
50$
12.50$
1$
שלוש נקודות ששווה לשים לב אליהן. ראשית, Sonnet 5 במחיר השקה של 2 ו-10 דולר עד סוף אוגוסט 2026, ואז יעלה ל-3 ו-15 — מי שמתכנן פרויקט, כדאי לו לדעת. שנית, יש הנחת Batch של 50 אחוז אם לא צריך תשובה מיידית. שלישית, המטמון (העמודה הימנית) הוא באמת המקום שבו נחתך החשבון בגדול.
איזה מודל באמת משתלם: רבע הערך
מחיר לבד לא אומר כלום — השאלה היא כמה חוכמה אנחנו מקבלים לכל דולר. בשביל זה יש מדד עצמאי בשם Artificial Analysis Intelligence Index, שמדרג מודלים לפי ביצועים בתשע בחינות שונות. הצלבנו את הציון של כל מודל מול המחיר הממוצע שלו, וקיבלנו מפה שמראה מי משתלם ומי לא.
הגרף הבא הוא לב העניין. ככל שמודל גבוה יותר — הוא חכם יותר; ככל שהוא ימינה יותר — הוא זול יותר. הפינה הימנית-עליונה היא גן העדן: חכם וזול. שימו לב איפה יושב Opus 4.8 (בסגול) מול Fable 5:
גרף · נתונים מאומתים
רבע הערך: חוכמה מול מחיר
מחיר ממוצע ($/מיליון טוקנים) ◄ (זול מימין)ציון חוכמה ▲
פינה ימנית-עליונה = הכי משתלם (איכות גבוהה, מחיר נמוך)
ציון לפי Artificial Analysis Intelligence Index v4.1 (9 בחינות); מחיר משוקלל כפי שדווח באתר. הפינה הימנית-עליונה = הכי משתלם. נכון ל־יוני 2026.
מה שמרתק פה: Fable 5 הוא הכי חכם (60 נקודות), אבל גם היקר ביותר; Opus 4.8 מוותר על ארבע נקודות חוכמה ותמורתן חצי מהמחיר. ובקצה השני, מודלים כמו Gemini Flash ו-MiniMax נותנים חוכמה סבירה ממש בזול. אין פה "המודל הטוב ביותר" — יש רק המודל הנכון למשימה ולתקציב שלנו.
מנוי חודשי או API? השאלה ששווה כסף אמיתי
עכשיו לשאלה שכולם שואלים: לעבוד עם API לפי טוקנים, או לקנות מנוי חודשי? בואו נבין מה כל אחד באמת נותן.
ה-API הוא לפי שימוש: משלמים על כל טוקן, בלי הגבלה עליונה, מושלם לאפליקציות ולאוטומציות. המנוי החודשי הוא סכום קבוע לשימוש אישי דרך הצ'אט והכלים. והנה הפרט המטריד: אנתרופיק, כמו כולם, לא מפרסמת כמה טוקנים בדיוק מקבלים במנוי — רק "פי 5" או "פי 20" ביחס ל-Pro. יש מגבלת חלון של חמש שעות ושתי מגבלות שבועיות, אבל את המספר המדויק לא נותנים. זה בכוונה: ככה הם יכולים לשנות אותו בלי לשנות מחיר.
הנה מה שכן ידוע, וזו השוואה שווה על השולחן:
מנוי
מחיר לחודש
מה בגדול מקבלים
Claude Pro
20$
שימוש בינוני, כולל Claude Code
Claude Max 5x
100$
פי 5 שימוש מ-Pro
Claude Max 20x
200$
פי 20 שימוש מ-Pro
ChatGPT Plus / Pro
20$ / 200$
Plus רגיל, Pro כמעט בלי הגבלה
Google AI Pro / Ultra
19.99$ / 100–200$
Gemini Pro, שטח אחסון, הטבות
GitHub Copilot Pro
10$
השלמות קוד ללא הגבלה + 15$ קרדיט
GLM Coding (Z.ai)
18$ ומעלה
חלופה זולה לסוכני קוד
בעיניי, כלל האצבע פשוט: אם אנחנו משתמשים אישית דרך הצ'אט — מנוי כמעט תמיד זול יותר. אם אנחנו בונים מוצר ששולח בקשות אוטומטית — API הוא הדרך, כי מנוי לא מיועד לזה בכלל. ולגבי AWS Bedrock, למי ששאל: המחיר לטוקן שם זהה למחיר הישיר של אנתרופיק, אז ההבדל הוא בתשתית ובחשבונית, לא בעלות הטוקן.
וכמה עולה אינפוגרפיקה אחת? ננו-בננה מול GPT
הגענו לחלק שאני הכי אוהב, כי הוא מעשי. נניח שאנחנו רוצים לייצר תמונת אינפוגרפיקה אחת, באיכות גבוהה, בגודל 1024 על 1024. כמה זה עולה בכל כלי? הנה המספרים הרשמיים, בדולרים לתמונה:
גרף · נתונים מאומתים
כמה עולה אינפוגרפיקה אחת (1024×1024, איכות גבוהה)
ננו-בננה (Flash)$0.039
ננו-בננה Pro (Batch)$0.067
gpt-image-1.5$0.133
ננו-בננה Pro$0.134
gpt-image-2$0.211
מחיר ל-API לתמונה בודדת, מדפי התמחור הרשמיים. Claude לא מייצר תמונות ולכן אינו מופיע. נכון ל־2 ביולי 2026.
מעניין לראות שהדור הזול של ננו-בננה של גוגל מייצר תמונה בפחות מ-4 סנט, בעוד המודלים המובילים של גוגל ו-OpenAI יושבים סביב 13 עד 21 סנט לתמונה. והנה נקודה שחשוב להכיר: אנתרופיק בכלל לא מייצרת תמונות. Claude יודע לנתח תמונה שאנחנו מראים לו, אבל לא לצייר — לכן הוא לא מופיע בגרף הזה בכלל.
ואם כבר מדברים על לייצר תמונה — הנה פרומפט אמיתי, מוכן להעתקה, שמייצר אינפוגרפיקה נקייה ומקצועית עם מודל תמונה. שימו לב כמה הוא ספציפי, כי דיוק בפרומפט הוא ההבדל בין תמונה חובבנית לתמונה שנראית כמו שער של מגזין:
פרומפט מוכן: אינפוגרפיקה מקצועית עם מודל תמונה
Create a clean, modern infographic, 1024x1024, flat vector style.
Title at top: "How an LLM Token Is Priced".
Three labeled stages, left to right, connected by arrows:
1) INPUT tokens - icon of text entering, label "cheap, processed in parallel".
2) COMPUTE - icon of a GPU chip, label "~2 x params FLOPs per token".
3) OUTPUT tokens - icon of text leaving one-by-one, label "~5x pricier, generated sequentially".
Bottom band: a small bar chart comparing input vs output price.
Palette: deep magenta (#FF2EA0) and electric cyan (#16D6E8) on dark navy.
Rounded corners, soft shadows, generous white space, legible sans-serif text,
no gibberish text, high contrast, poster-quality. No watermark.
שורה תחתונה, ובעיניי
אז בואו נסכם לפי תבנית שאני אוהב. טוקן הוא יחידת העבודה של המודל — פיסת טקסט קטנה שעולה כסף כי היא צורכת זמן חישוב אמיתי על חומרה יקרה, עבור כל מי שמשתמש ב-AI. קלט זול, פלט יקר פי חמישה כי הוא איטי מטבעו, והמטמון הוא הכלי שחותך את החשבון ב-90 אחוז על מה שחוזר על עצמו.
בעיניי, הדבר הכי משחרר בכל הסיפור הזה הוא שברגע שמבינים את היחידות, מפסיקים להיות פראיירים. אנחנו יכולים לבחור מודל לפי רבע הערך ולא לפי הייפ, לתכנן פרומפטים שמנצלים מטמון, לכתוב באנגלית כשזה קריטי לעלות, ולבחור נכון בין מנוי ל-API. השקיפות הזו היא הכוח שלנו.
המגבלות שלי כאן, כי בלעדיהן זו פרסומת: המחירים משתנים כל הזמן — כל מה שכתבתי נכון ל-2 ביולי 2026, ותמיד כדאי לבדוק את דף התמחור הרשמי לפני החלטה. חלק מהמספרים על המנויים הם הערכות, כי החברות פשוט לא מפרסמות את הכל. וזו כמובן אינה המלצת השקעה או ייעוץ פיננסי — רק פירוק של איך הדברים עובדים.
ואם באמת השקיפות היא הכוח שלנו, הנה השאלה שאני משאיר אותנו איתה: עכשיו כשאנחנו יודעים בדיוק על מה אנחנו משלמים — מה הדבר הראשון שנשנה בדרך שבה אנחנו עובדים עם AI?