איך מריצים מודל AI מקומית: Ollama, LM Studio ו-Unsloth
מדריך מעשי להרצת מודל AI על המחשב שלכם — בלי ענן, בלי תשלום פר-טוקן, בלי שהנתונים יוצאים החוצה. נפרק את ההבדל בין Ollama, LM Studio ו-Unsloth, ונתחיל בפועל.
מאת Yuval Avidaniקריאה בת 5 דק׳
הרגע שבו הבנתי שאני לא חייב את הענן
ישבתי מול המק שלי, בלי אינטרנט בכלל, וביקשתי ממודל AI שיכתוב לי קוד — והוא ענה. בלי חיבור לרשת, בלי לשלם על שום טוקן, בלי שאף שורה מהטקסט שלי תעזוב את המחשב הזה. מסתבר שהיום אפשר להריץ מודל שפה רציני בתוך מחשב ביתי, וזה הרבה יותר פשוט ממה שזה נשמע.
בעיניי זה אחד הדברים הכי משחררים שקרו לנו בשנים האחרונות. רוב האנשים מתרגלים ש-AI הוא משהו שקורה "אצל מישהו אחר" — אנחנו שולחים הודעה לשרת רחוק, הוא חושב, ומחזיר תשובה. אבל אנחנו לא חייבים לעבוד ככה. בכתבה הזו אני אפרק בדיוק איך מריצים מודל מקומית, מה ההבדל בין שלושת הכלים המרכזיים, ואיך מתחילים בפועל תוך כמה דקות.
למה בכלל להריץ מקומית
בואו נפרק את זה לארבע סיבות, כי כל אחת מהן לבדה כבר מצדיקה את הניסיון.
הראשונה היא פרטיות. כשאנחנו עובדים מול שירות בענן, כל מילה שאנחנו מקלידים נוסעת לשרת של חברה אחרת. כשהמודל רץ מקומית — הנתונים שלנו לא יוצאים מהמחשב, נקודה. בשבילי, כשאני עובד על משהו רגיש (קוד פנימי, טיוטות, מסמכים אישיים), זה ההבדל בין שקט נפשי לבין דאגה מתמדת.
השנייה היא עלות. שירותי הענן מתמחרים לפי טוקנים — והטוקן (token) הוא פיסת טקסט קטנה, בערך הברה או חלק ממילה, שהמודל סופר אחת-אחת. בכל פעם שאנחנו שולחים שאלה ומקבלים תשובה, סופרים לנו את החתיכות האלו ומחייבים. כשהמודל על המחשב שלנו — אין מונה. אנחנו יכולים להריץ אלף שאלות ביום ולא לשלם אגורה מעבר לחשמל.
השלישית היא אופליין. בלי אינטרנט, בטיסה, ברכבת, בכפר נידח — המודל עדיין עובד. הרביעית היא שליטה. אנחנו בוחרים בדיוק איזה מודל, איזו גרסה, ומתי לעדכן. אף אחד לא ישנה לנו את ההתנהגות מתחת לרגליים.
הבעיה הקטנה: הזיכרון של הכרטיס הגרפי
עכשיו לחלק הפחות סקסי. מודל שפה הוא בעצם ערימה עצומה של מספרים שנקראים "משקלים" (weights) — אלו הם הערכים שהמודל למד באימון, מעין הזיכרון המקובע שלו. הבעיה היא שיש המון כאלו, והם צריכים להיכנס לזיכרון מהיר כדי שהמודל ירוץ בקצב סביר.
הזיכרון הזה נקרא VRAM — וזה פשוט הזיכרון של הכרטיס הגרפי (ה-GPU). תחשבו עליו כמו על שולחן העבודה: ככל שהוא גדול יותר, כך אפשר לפרוש עליו מודל גדול יותר בלי שדברים ייפלו לרצפה. במק מסדרת M הזיכרון משותף בין המעבד לכרטיס הגרפי, אז המספר שמעניין אותנו הוא כמות ה-RAM הכוללת.
וכאן נכנס הטריק הכי חשוב בכל הסיפור: קוונטיזציה (quantization). זו טכניקה שדוחסת את המשקלים לפורמט קומפקטי יותר — למשל Q4 או Q8 — כדי שהמודל ייכנס לזיכרון צנוע. תחשבו על זה כמו לשמור תמונה ב-JPEG במקום בפורמט גולמי: היא קצת פחות חדה, אבל קטנה פי כמה ונפתחת בכל מקום. רמת Q4 קטנה ומהירה ומאבדת קורטוב איכות, ורמת Q8 גדולה יותר וקרובה יותר למקור. בעיניי, לרוב השימושים היומיומיים Q4 זה בדיוק נקודת האיזון.
המודלים האלו מגיעים בדרך כלל בפורמט קובץ אחד נפוץ שנקרא GGUF — זה פשוט הפורמט הסטנדרטי שבו אורזים מודל מקומי כך שכלי ההרצה ידעו לקרוא אותו. כשאתם רואים שם קובץ שנגמר ב-gguf, אתם יודעים שזה מודל מוכן להרצה על המחשב.
בדקו את עצמכם
מה עושה קוונטיזציה (quantization) למודל?
שלושת הכלים: אספרסו, מכונת קפה, ופולים טריים
יש שלושה כלים מרכזיים, וקל להתבלבל ביניהם כי כולם נוגעים ב-AI מקומי. אבל הם פותרים בעיות שונות לגמרי. בואו אתן לכם את האנלוגיה שעוזרת לי הכי הרבה: זה כמו עולם הקפה.
הכלי הראשון, Ollama, הוא קפסולת אספרסו — לחיצה אחת ויש קפה. זה כלי שורת-פקודה (CLI) ושרת שמריץ מודל בפקודה אחת בלבד. אני כותב ollama run llama3, והוא מוריד את המודל, טוען אותו, ופותח לי צ'אט. הגדרה רשמית: Ollama הוא כלי הרצה מקומי שמוריד, מנהל ומפעיל מודלי שפה בפקודה אחת עבור מי שרוצה את הדרך הקצרה ביותר מ"כלום" ל"מודל שעובד". הקטע המדליק הוא שהוא גם חושף API תואם-OpenAI — כלומר כל קוד שכבר כתבתם מול OpenAI יעבוד מולו כמעט בלי שינוי. בשבילי זה הופך אותו למנוע המושלם לאוטומציות.
הכלי השני, LM Studio, הוא מכונת הקפה הביתית עם הכפתורים — אפליקציית דסקטופ עם ממשק גרפי (GUI) מלא. מחפשים מודל ברשימה, לוחצים "הורד", ומתחילים לצ'וטט בחלון נוח. בלי טרמינל, בלי פקודות. זו הדרך הידידותית ביותר למי שלא אוהב מסך שחור עם טקסט. גם הוא יודע להרים שרת מקומי כשרוצים, אבל החוזק שלו הוא הניסוי הוויזואלי — להשוות מודלים, לשחק עם הגדרות, לראות הכל בעיניים.
הכלי השלישי, Unsloth, הוא משהו אחר לגמרי — זו לא מכונת קפה, זו היכולת לקלות את הפולים בעצמך. ספריית Unsloth נועדה לפיין-טיונינג (fine-tuning) — התאמה אישית של מודל קיים לנתונים שלנו, מהר וחסכוני בזיכרון. Unsloth לא מריץ מודלים לשימוש יומיומי — הוא מאמן אותם מחדש כדי שיתאימו בדיוק למשימה שלנו, עם פחות VRAM ובמהירות גבוהה יותר מהדרך הרגילה. אם Ollama ו-LM Studio הם "לשתות קפה", הרי ש-Unsloth הוא "ליצור את התערובת שלך".
השוואה
Ollama מול LM Studio מול Unsloth
אז מתי משתמשים במה
ההבחנה פשוטה ברגע שמבינים אותה. אם אתם רוצים מהירות ופשטות, או לחבר מודל לאוטומציה ולקוד — Ollama. אם אתם מתחילים, אוהבים ממשק גרפי, ורוצים להתנסות ולהשוות מודלים בנוחות — LM Studio. ואם אתם רוצים שמודל ידבר בדיוק בסגנון שלכם או יכיר תחום ספציפי לעומק — שם Unsloth נכנס לתמונה עם פיין-טיונינג.
חשוב לי להגיד את זה בהגינות: אלו לא מתחרים שאחד מהם "מנצח". אלו גישות שונות לבעיות שונות. אני אישית מריץ את שלושתם במחשב — Ollama לעבודה היומיומית ולסקריפטים, LM Studio כשאני רוצה לבחון מודל חדש בעיניים, ו-Unsloth כשאני מאמן משהו ייעודי. הם חיים יחד יפה.
מתחילים בפועל: חמש דקות עם Ollama
הדרך הכי מהירה לטעום את זה היא Ollama, אז בואו נעבור על זה צעד-צעד. אני ממליץ להתחיל עם מודל קטן יחסית (בגודל של כמה גיגה) כדי שייכנס בנוחות לזיכרון של מחשב ביתי ממוצע.
צעד אחר צעד
להתחיל עם Ollama בחמש דקות
1
מתקינים את Ollama
מורידים מהאתר הרשמי ומתקינים. במק זה גם זמין דרך Homebrew. ההתקנה מרימה גם שרת מקומי ברקע.
1 / 4
נקודה אחת מהשטח שלי: על המק מסדרת M שלי, מודל קטן בקוונטיזציה Q4 רץ חלק לגמרי ומשאיר לי מקום לעבוד. כלל האצבע שלי: אם המודל בערך בגודל של חצי מהזיכרון הפנוי שלכם או פחות — אתם בטוחים. אם תנסו מודל ענק על מחשב צנוע, או שזה יזחל, או שזה פשוט יסרב להיטען. תתחילו קטן, תרגישו את הקצב, ותעלו בהדרגה.
שורה תחתונה
בעיניי, הרגע שבו מריצים מודל ראשון מקומית הוא רגע של שינוי תפיסה. פתאום מבינים ש-AI הוא לא רק שירות שקונים — הוא גם כלי שאנחנו מחזיקים ביד, שמכבד את הפרטיות שלנו, ולא שולח לנו חשבון בסוף החודש.
אבל בואו נישאר כנים לגבי המגבלות: מודל שרץ במחשב ביתי לא ישתווה בכוח הגולמי שלו למודלי הענק שבענן. מודל מקומי קטן יודע פחות, טועה קצת יותר במשימות מורכבות, ולפעמים מרגיש "פחות חכם" מהשירותים הגדולים. וזה בסדר גמור — כי לרוב מה שאנחנו עושים ביום-יום, מודל מקומי טוב יותר ממספיק, והשליטה והפרטיות שווים את הפער. זו לא החלפה מלאה של הענן, זו תוספת חזקה לארגז הכלים.
אז הנה השאלה שאני משאיר אתכם איתה: אם הייתם יכולים להריץ AI שלם בלי שאף ביט יעזוב את המחשב שלכם — מה הדבר הראשון שהייתם שואלים אותו, שהיום אתם לא מעזים להקליד בענן?
אמ;לק
5 הדברים שצריך לדעת
פרטיות (הנתונים לא יוצאים מהמחשב), אפס עלות פר-טוקן, עבודה אופליין ושליטה מלאה על המודל והגרסה.
כלי שורת-פקודה שמריץ מודל בפקודה אחת וחושף API תואם-OpenAI — מושלם לאוטומציות ולקוד.
אפליקציית דסקטופ עם GUI: מחפשים מודל, מורידים, ומצ'וטטים בלי טרמינל. הכי ידידותי למתחילים.
ספרייה לפיין-טיונינג מהיר וחסכוני בזיכרון — להתאמה אישית של מודל, לא לשימוש יומיומי.
דחיסת המשקלים ל-Q4/Q8 מכניסה את המודל לזיכרון צנוע בתמורה לקורטוב איכות — בדיוק כמו JPEG.