בואו נטוס גבוה. אתם משתמשים ב-ChatGPT, ב-Claude, ב-Gemini — מודלים ענקיים שרצים על שרתים של חברות ענק. בכל פעם שאתם שולחים הודעה, הטקסט שלכם עוזב את המחשב, נוסע לשרת מרוחק, מעובד שם, וחוזר. עכשיו תעצרו רגע ותשאלו: למה בעצם המודל צריך לרוץ שם? למה לא כאן, אצלי, על המחשב שמולי? התשובה היא — הוא יכול. וזה משנה הכל. במדריך הזה אני לוקח אתכם מאפס עד מודל AI שרץ אצלכם, מקומית, בלי אינטרנט.
הדרכות
להריץ מודל AI מקומי על המחשב שלכם: למה, מתי, ואיך מתחילים
מדריך פרקטי לבחירת מודל מקומי שמתאים לחומרה שלכם — בלי ענן, בלי תשלום לפי טוקן, ובלי שהמידע שלכם יוצא מהמחשב. כולל הכלל הפשוט שקובע איזה גודל מודל באמת תוכלו להריץ.

מה זה בכלל "מודל מקומי" — ולמה זה לא מובן מאליו
קודם נגדיר את המונח שעליו הכל בנוי. מודל שפה (LLM — Large Language Model, "מודל שפה גדול") הוא קובץ ענק של מספרים, שנקראים "משקלים" (weights), שמקודדים את כל מה שהמודל "למד". כשאתם מריצים אותו, התוכנה טוענת את הקובץ הזה לזיכרון ומבצעת עליו חישובים כדי לחזות את המילה הבאה. זהו. אין שום קסם — יש קובץ, ויש מנוע שמריץ אותו.
"מקומי" (local) פירושו פשוט: הקובץ הזה יושב על הדיסק שלכם, והחישוב קורה על המעבד או הכרטיס הגרפי שלכם, לא על שרת בענן. "ענן" (cloud) הוא בסך הכל המחשב של מישהו אחר, שאליו אתם מתחברים דרך האינטרנט. בענן, אתם שוכרים את המחשב של החברה הזו. מקומית — אתם הבעלים.
למה זה לא מובן מאליו שאפשר? כי המודלים הגדולים (כמו GPT-4) הם עצומים — מאות מיליארדי משקלים, שדורשים חוות שרתים שלמות. אבל בשנתיים האחרונות יצאו מודלים "פתוחים" (open-weight — כלומר קובץ המשקלים זמין להורדה חופשית) קטנים בהרבה — 3 עד 30 מיליארד פרמטרים — שמספיק טובים למשימות יומיומיות ושרצים על לפטופ רגיל. "פרמטר" זה בדיוק אותו "משקל" שהזכרתי לפני שורה — מספר אחד בתוך הקובץ הענק. ככל שיש יותר פרמטרים, המודל בדרך כלל חכם יותר, אבל גם כבד יותר וזולל יותר זיכרון. הסימון הנפוץ הוא B (מהמילה Billion, מיליארד): מודל "7B" פירושו 7 מיליארד פרמטרים.
למה בכלל לטרוח? שלוש סיבות אמיתיות
לפני שנתחיל להתקין, צריך את ה"למה". כי להתקין משהו רק כי אפשר זה בזבוז זמן.
סיבה 1 — פרטיות. כשאתם מדביקים חוזה, מסמך רפואי או קוד סודי ל-ChatGPT, הטקסט עוזב את המחשב שלכם ומגיע לשרת של חברה אחרת. מודל מקומי לא שולח שום דבר לשום מקום — אתם יכולים לנתק את האינטרנט והוא ימשיך לעבוד. אם אתם עובדים עם מידע רגיש, מקומי זה לא "נחמד שיש" אלא לפעמים הדבר היחיד שמותר לכם מבחינה רגולטורית.
סיבה 2 — עלות וחופש. שירות בענן גובה כסף לפי "אסימונים" (tokens). אסימון הוא היחידה שבה המודל מודד טקסט — חתיכה קטנה של מילה, בערך 4 תווים באנגלית. כל בקשה שאתם שולחים וכל תשובה שחוזרת נמדדות באסימונים, ואתם משלמים עליהם. אם אתם מריצים אלפי בקשות ביום (למשל לסכם מיילים אוטומטית), זה מצטבר. מקומית, אחרי שהורדתם את המודל — הריצות חינמיות. שילמתם פעם אחת בחשמל ובחומרה שכבר יש לכם, וזהו.
סיבה 3 — שליטה ולמידה. מקומית אתם רואים מה קורה מתחת למכסה המנוע: איזה מודל, איזו גרסה, אילו הגדרות. אתם יכולים להחליף מודלים ולהבין באמת איך הדבר עובד — במקום "קופסה שחורה" (מערכת שאתם רואים רק את הקלט והפלט שלה, בלי גישה לפנים) שמישהו אחר שולט בה.
מתי לא כדאי? אם אתם צריכים את המודל הכי חכם בעולם למשימה מורכבת אחת ביום — הענן עדיף, כי המודלים הגדולים שם פשוט חזקים יותר. מקומי מנצח בנפח, בפרטיות ובחזרתיות, לא בשיא היכולת הגולמית.
הצוואר הצר היחיד שחשוב להבין: זיכרון
לפני שתתקינו, חובה להבין דבר אחד טכני, כי הוא קובע אם זה בכלל יעבוד אצלכם. כדי שמודל ירוץ, כל קובץ המשקלים חייב להיכנס לזיכרון בבת אחת. אם הוא לא נכנס — זה פשוט לא ירוץ, או ירוץ בזחילה איטית.
איזה זיכרון? אם יש לכם כרטיס גרפי (GPU — Graphics Processing Unit, מעבד גרפי) — הזיכרון שלו, שנקרא VRAM (זיכרון הווידאו של הכרטיס). אם אין לכם GPU נפרד — זיכרון המחשב הרגיל, ה-RAM (זיכרון העבודה הזמני של המחשב). ה-GPU מהיר בהרבה למשימה הזו כי הוא בנוי לבצע המון חישובים קטנים במקביל בו-זמנית, וזה בדיוק מה שמודל צריך.
עכשיו הטריק שמאפשר את כל הסיפור: קוונטיזציה (quantization). קוונטיזציה היא דחיסה של המספרים במודל — במקום לשמור כל משקל ב-16 ביט (יחידת מידע למספר), שומרים אותו ב-4 ביט, וכך הקובץ מתכווץ כמעט פי ארבעה כמעט בלי לפגוע באיכות. "ביט" הוא יחידת המידע הקטנה ביותר; ככל שמקצים פחות ביטים למספר, הוא תופס פחות מקום אבל מאוחסן בדיוק נמוך יותר. המשל: זה כמו לשמור תמונה בפורמט JPEG (פורמט דחוס) במקום RAW (פורמט גולמי לא-דחוס). קצת איכות הולכת לאיבוד, אבל הקובץ קטן בהרבה והעין כמעט לא מבחינה. בזכות קוונטיזציה, מודל של 8 מיליארד פרמטרים — שב-16 ביט שוקל כ-16GB — מתכווץ לכ-5GB ונכנס בנוחות ללפטופ עם 16GB זיכרון. כשתראו שם של קובץ עם "Q4" — זו בדיוק הקוונטיזציה ל-4 ביט (Q מ-Quantization, ו-4 מספר הביטים).
כלל אצבע פשוט שתמיד עובד: קחו את מספר המיליארדים של הפרמטרים, וזה בערך כמות ה-GB שתצטרכו בקוונטיזציה של Q4. מודל 7B ≈ 5GB, מודל 14B ≈ 9GB. השאירו עוד 2-3GB פנויים למערכת ההפעלה (התוכנה שמנהלת את המחשב, כמו Windows או macOS), שגם היא צריכה זיכרון כדי לעבוד.
איך מתחילים — צעד אחר צעד, באמת
עכשיו לפרקטיקה. הכלי הכי ידידותי למתחילים נקרא Ollama — תוכנה חינמית וקוד-פתוח (כלומר הקוד שלה גלוי לכולם ואפשר להוריד אותה בלי תשלום) שמורידה, מנהלת ומריצה מודלים מקומיים בפקודה אחת. היא מסתירה את כל המורכבות של טעינת המשקלים והחישוב, ונותנת לכם ממשק פשוט.
אחרי שמתקינים את Ollama מהאתר הרשמי שלהם (ollama.com), פותחים "טרמינל" (חלון שאליו מקלידים פקודות טקסט במקום ללחוץ על כפתורים — ב-Mac הוא נקרא Terminal, ב-Windows הוא PowerShell) ומריצים שורה אחת:
ollama run llama3.2
מה קורה כאן מתחת למכסה? Ollama בודק אם הקובץ של המודל llama3.2 (מודל קטן ומהיר מבית Meta) כבר אצלכם. אם לא — הוא מוריד אותו (בערך 2GB). אחרי ההורדה, הוא טוען את המשקלים לזיכרון ופותח לכם שורת צ'אט. תכתבו שאלה — והתשובה נוצרת על המחשב שלכם, בלי אינטרנט. נתקתם את הראוטר? עדיין עובד. זו ההוכחה החיה שזה באמת מקומי.
רוצים מודל חזק יותר? ollama run qwen2.5:7b יוריד מודל של 7 מיליארד פרמטרים, מצוין לקוד ולעברית. רוצים לראות מה מותקן אצלכם? ollama list. רוצים למחוק מודל ולפנות מקום בדיסק? ollama rm llama3.2. הכל שקוף, הכל בשליטתכם.
ואם אתם מעדיפים ממשק גרפי עם חלון צ'אט יפה במקום טרמינל? יש את LM Studio — אפליקציה חינמית עם כפתורים, שמחפשת מודלים, מורידה אותם בלחיצה, ומראה לכם בדיוק כמה זיכרון כל מודל ידרוש לפני שתורידו. מושלם למי שנרתע משורת פקודה.
הנקודה החשובה: ברגע שמודל אחד רץ אצלכם, פתחתם דלת. אפשר לחבר אותו לכלי אוטומציה, לבנות עליו צ'אטבוט מקומי, לסכם מסמכים בלי לדאוג לפרטיות — והכל בחינם, אצלכם, בשליטה מלאה. בואו נטוס גבוה — תורידו מודל אחד עכשיו, ותרגישו את ההבדל.
אמ;לק
5 הדברים שצריך לדעת
במודל מקומי הטקסט לא עוזב את המחשב — קריטי למסמכים רגישים, קוד קנייני ומידע אישי.
אחרי הורדה חד-פעמית אתם לא משלמים על אף בקשה — בלי טוקנים, בלי מנוי חודשי, רק חשמל זניח.
כמות ה-RAM (במק) או ה-VRAM (ב-PC) מגדירה איזה גודל מודל תוכלו להריץ — והמודל חייב להיכנס לזיכרון עם מקום פנוי להקשר.
מודל 7B שרץ חלק עדיף על 32B שמקרטע — עלו בגודל רק כשהקטן עובד מהר.
כלי קוד פתוח חינמי שמתקין, מוריד ומריץ מודל בפקודה אחת, מנצל אוטומטית את ה-GPU במק — מתחילים תוך עשר דקות.
פניות תקשורת
לראיונות, שיתופי פעולה והרצאות — נשמח לדבר.



