המערכת של YUV.AI

מדריכים

מה זה "פרמטרים קפואים" במודלים, ולמה זה הסוד של המודלים הפתוחים

כל הזמן נתקלים ב"frozen parameters" במודלים פתוחים ולא מבינים מה זה? בואו נפרק מהיסוד: מה זה משקל, מה זה להקפיא אותו, ולמה שיטה שמאמנת רק חצי אחוז מהמודל (LoRA) הפכה את עולם ה-AI לנגיש לכולם.

אהבתם? שתפו
מה זה "פרמטרים קפואים" במודלים, ולמה זה הסוד של המודלים הפתוחים

אמ;לק

5 הדברים שצריך לדעת

משקל (weight) הוא מספר שהמודל למד; יש מיליארדים כאלה. אימון = כיוון הכפתורים האלה שוב ושוב עד שהתשובות נכונות.

פרמטר קפוא נשאר קבוע באימון (requires_grad=False). לפי PyTorch: פרמטרים שלא מחשבים גרדיאנט נקראים 'קפואים'. פשוט לא נוגעים בכפתור.

מקפיאים מודל ענק שכבר אומן, ומאמנים רק שכבה דקה בקצה (transfer learning) או מטריצות זעירות בצד (LoRA).

על מודל של מיליארד פרמטרים, LoRA מאמנת ~0.04% מהם. המאמר המקורי: פי 10,000 פחות פרמטרים ופי 3 פחות זיכרון GPU מול פיין-טיונינג מלא של GPT-3.

מאמנים חצי אחוז → פחות זיכרון וכוח → אפשר לאמן בבית. גם מונע 'שכחה' של הידע המקורי, ומאפשר להחליף תוספות LoRA על אותו בסיס קפוא.

"פרמטרים קפואים." אם התעסקתם פעם עם מודלים פתוחים או עם פיין-טיונינג, בטח נתקלתם במושג frozen parameters ולא הבנתם מה זה ולמה אכפת לנו. היום נפרק את זה מהיסוד, ותצאו עם אינטואיציה שתשרת אתכם בכל פעם שתראו את המילה הזאת.

בואו נתחיל מהלבנה הבסיסית ביותר, כי בלעדיה כל השאר לא יתחבר.

קודם כל, מה זה פרמטר

נתחיל מהבסיס. פרמטר (parameter), שנקרא גם משקל (weight), הוא מספר קטן שהמודל למד תוך כדי האימון, ויחד יש מיליארדים כאלה שמרכיבים את כל ה"ידע" שלו. כשמודל "לומד", מה שקורה בפועל הוא שהמספרים האלה מתעדכנים שוב ושוב עד שהם נותנים תשובות טובות.

תחשבו על זה כמו על מיליוני כפתורי ווליום זעירים. בהתחלה כולם במצב אקראי, ובמהלך האימון כל כפתור מסובב קצת, עד שהצליל שיוצא נכון. אימון של מודל הוא בסך הכל התהליך של כיוון הכפתורים האלה, אחד אחד, מיליארד פעמים.

אז מה זה "קפוא"

עכשיו אפשר להגדיר את המושג המרכזי. פרמטר קפוא הוא פרמטר שאנחנו מחליטים להשאיר בדיוק כמו שהוא, בלי לעדכן אותו באימון. בקוד זה נראה כמו שורה אחת: requires_grad = False, וזה מה שאומר למערכת "אל תיגע בכפתור הזה".

לפי התיעוד הרשמי של PyTorch, המסגרת הכי נפוצה לבניית מודלים, המונח מדויק: פרמטרים שלא מחשבים גרדיאנט נקראים בדרך כלל פרמטרים קפואים. גרדיאנט זה בעצם ההוראה "לאיזה כיוון לסובב את הכפתור כדי להשתפר". כשמקפיאים פרמטר, אנחנו פשוט מוותרים על ההוראה הזאת עבורו, והוא נשאר קבוע.

להקפיא פרמטרים: שורה אחת
import torch
from torchvision import models

model = models.resnet50(weights="IMAGENET1K_V2")

# 1) freeze the whole pretrained backbone
for param in model.parameters():
    param.requires_grad = False   # <- frozen: no gradient, never updated

# 2) replace the head — its new params train by default (requires_grad=True)
model.fc = torch.nn.Linear(model.fc.in_features, 2)

trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
total = sum(p.numel() for p in model.parameters())
print(f"training {trainable:,} of {total:,} params ({100*trainable/total:.2f}%)")

איפה אתם באמת פוגשים את זה

הנה שני המקומות שבהם המושג הזה קופץ, ולמה הוא כל כך שימושי.

הראשון נקרא transfer learning, למידה בהעברה. במקום לאמן מודל מאפס, לוקחים מודל ענק שכבר אומן, מקפיאים את כל הגוף שלו, ומאמנים רק שכבה אחת קטנה בקצה שמתאימה אותו למשימה שלנו. תחשבו על מומחה עולמי שכבר יודע הכל על תמונות; אנחנו לא מלמדים אותו מחדש לראות, רק מוסיפים לו קורס קצר על "איך להבדיל בין חתול לכלב". כל הידע הקיים נשאר קפוא, ורק החלק החדש לומד.

השני, וזה הכי רלוונטי למודלים פתוחים, נקרא LoRA. ב-LoRA מקפיאים את כל המודל המקורי, ומוסיפים בצד מטריצות קטנטנות חדשות שהן היחידות שלומדות. במקום לאמן מיליארדים של פרמטרים, מאמנים רק חלקיק זעיר מהם. וכאן מגיע מספר שמראה כמה זה דרמטי:

גרף · נתונים מאומתים

כמה מהמודל בכלל מתאמן, לפי שיטה

פיין-טיונינג מלא100%
גוף קפוא + ראש5%
LoRA0.5%

אחוז הפרמטרים שמתעדכנים באימון. LoRA מאמנת חלקיק זעיר; השאר קפוא. (frozen backbone+head הוא אמדן להמחשה; 0.77% נמדד עבור ראש-סיווג של 86M). נכון ל־מקורות רשמיים 2026.

תראו את הפער. לפי התיעוד הרשמי של Hugging Face, כשמפעילים LoRA על מודל בגודל מיליארד פרמטרים, מאמנים רק בערך 0.04 אחוז מהפרמטרים, פחות מחצי אחוז כמעט תמיד. המאמר המקורי של LoRA מ-2021 ניסח את זה עוד יותר חד: מול פיין-טיונינג מלא של GPT-3, השיטה חותכת את מספר הפרמטרים המתאמנים פי 10,000 ואת זיכרון ה-GPU פי 3.

למה בכלל להקפיא

עכשיו כשאנחנו מבינים מה זה, השאלה המתבקשת: למה לא פשוט לאמן הכל? שלוש סיבות מעשיות.

ראשית, חיסכון עצום במשאבים. אם מאמנים רק חצי אחוז מהמשקלים, צריך הרבה פחות זיכרון וכוח חישוב, וזה מה שמאפשר לאמן מודלים ענקיים על מחשב ביתי או על GPU בודד. זה בדיוק הקסם שמאחורי כל אותם "אימנתי מודל בבית" שאתם רואים.

שנית, מניעת שכחה. כשמאמנים מחדש את כל המודל על מעט דוגמאות, הוא עלול "לשכוח" את מה שכבר ידע. הקפאת הגוף שומרת על הידע המקורי שלם.

שלישית, מהירות ומודולריות. אפשר לשמור המון "תוספות LoRA" קטנות, אחת לכל משימה, ולהחליף ביניהן על אותו מודל בסיס קפוא, בלי לשכפל אותו כל פעם.

גרף · נתונים מאומתים

LoRA: אחוז הפרמטרים המתאמנים בפועל (HF PEFT)

Llama-3.2-1B0.04%
Qwen2.5-3B0.12%
mt0-large0.19%
ראש תמונה 86M0.77%

מדידות מהתיעוד הרשמי של Hugging Face PEFT. כמעט תמיד מתחת לאחוז אחד. נכון ל־docs HF 2026.

נקודה אחרונה שמבלבלת: קפוא באימון מול קפוא בהרצה

יש הבחנה חשובה שכדאי להחזיק. כל הפרמטרים של מודל הם ממילא "קפואים" בזמן שהוא עונה לנו, כי המודל לא לומד תוך כדי שיחה, הוא רק מפעיל את מה שכבר יש לו. ה"הקפאה" שדיברנו עליה היא בחירה שאנחנו עושים בזמן האימון, להשאיר חלק מהמשקלים בלי עדכון. אז כשאתם רואים "פרמטרים קפואים" בהקשר של מודל פתוח, כמעט תמיד מדובר בזה: מישהו לקח מודל בסיס, הקפיא אותו, ואימן מעליו רק שכבה דקה.

שורה תחתונה, ובעיניי

אז בואו נסכם לפי תבנית שאני אוהב. פרמטר קפוא הוא משקל שמשאירים קבוע באימון, עבור מי שרוצה להתאים מודל קיים בלי לאמן אותו מחדש מאפס. זה הבסיס של transfer learning ושל LoRA, וזה מה שהפך את עולם המודלים הפתוחים לנגיש לכולם.

בעיניי, זה אחד הרעיונות הכי יפים ב-AI המעשי: לא צריך להיות ענק כדי לעצב מודל ענק. מקפיאים את מה שכבר עובד, ומלמדים רק את מה שחסר. המגבלה, וזה הוגן לומר: אם המשימה שלנו רחוקה מאוד ממה שהמודל למד, לפעמים הקפאה מוגזמת תפגע באיכות, ואז כדאי "להפשיר" עוד שכבות. זה איזון, לא כלל ברזל.

אז השאלה שאני משאיר אותנו איתה: אם אפשר לעצב מודל שלם על ידי אימון של חצי אחוז ממנו, מה עוד אנחנו מתאמנים לבנות מאפס, כשכבר קיים בסיס מצוין להקפיא ולבנות מעליו?

מקורות ואימות

כל טענה עובדתית בכתבה נבדקה מול המקורות הבאים.

  1. Autograd & frozen parameters · PyTorch docsdocs.pytorch.org
  2. Transfer learning (freeze backbone, train head) · PyTorchdocs.pytorch.org
  3. PEFT / LoRA quicktour (trainable % ) · Hugging Facehuggingface.co
  4. LoRA: Low-Rank Adaptation (Hu et al. 2021)arxiv.org

אהבתם את הכתבה? ספרו לי

הקורס המוביל שלי

Practical AI with Claude

הקורס הכי מקיף בעברית לשליטה מלאה ב-Claude — מ-Claude Desktop לעבודה יומיומית, ועד בניית סוכנים ואוטומציות אמיתיות.

למידע והרשמה

פניות תקשורת

לראיונות, שיתופי פעולה והרצאות, נשמח לדבר.

info@yuv.ai
מה זה פרמטרים קפואים (Frozen Parameters)? מדריך מהיסוד — YUV.AI