בואו נטוס גבוה לרגע ונדבר על אחת התופעות המוזרות והמסוכנות ביותר בעבודה עם בינה מלאכותית. אתם שואלים את ChatGPT, Claude או כל מודל אחר שאלה פשוטה, ומקבלים תשובה מנוסחת בצורה מושלמת, בטוחה בעצמה, עם תאריכים, שמות ומספרים. הבעיה? חצי מזה מומצא. זה לא באג. זה לא תקלה זמנית. זו תכונה מובנית בדרך שבה מודלי שפה (Large Language Models, או בקיצור LLM — מודל ענק שאומן לחזות מילים) עובדים. בואו נבין למה זה קורה, כי ברגע שתבינו את המנגנון, תפסיקו להיות מופתעים ותתחילו לתפוס את ההמצאות לפני שהן מזיקות לכם.
הדרכות
הזיות ב-AI: למה המודל ממציא בביטחון ואיך לתפוס את זה
המודל לא משקר ולא טועה כמו בן אדם. הוא עושה משהו אחר לגמרי — וברגע שתבינו מה, תפסיקו ליפול בפח ותתחילו לעבוד נכון.

מה זו בכלל "הזיה"?
המונח באנגלית הוא hallucination (הזיה). הכוונה: המודל מייצר מידע שנשמע נכון, מנוסח בביטחון מלא, אבל פשוט אינו תואם את המציאות. הזיה היא לא שקר — שקר דורש כוונה לרמות, ולמודל אין כוונות בכלל. הזיה היא טעות שנולדת מהמנגנון עצמו. דוגמה קונקרטית: תבקשו מהמודל "תן לי שלושה מאמרים אקדמיים על השפעת קפאין על שינה, עם שמות מחברים ושנות פרסום". יש סיכוי טוב שתקבלו רשימה מסודרת, עם כותרות שנשמעות אמינות, שמות חוקרים, ושמות כתבי עת — שחלקם לא קיימים. הכותרות נכונות מבחינה סגנונית אבל המאמרים מעולם לא נכתבו.
למה המודל ממציא? האינטואיציה לפני הכל
הנה המשל שיסדר לכם הכל בראש. דמיינו אדם שקרא בחייו מיליארדי משפטים, אבל אף פעם לא זוכר משפט ספציפי — הוא זוכר רק דפוסים: אילו מילים נוטות לבוא אחרי אילו מילים. עכשיו אתם מבקשים ממנו להשלים את המשפט "בירת צרפת היא ___". הוא ראה את הצירוף הזה אינספור פעמים ויודע בוודאות: "פריז". מצוין.
אבל עכשיו אתם שואלים "מה שם בתו של הסופר X שכמעט אף אחד לא כתב עליו"? האדם הזה לא יודע. אבל הוא אומן כל חייו להמשיך משפטים בצורה שנשמעת טבעית, לא לעצור ולומר "אין לי מושג". אז הוא ייצר שם שנשמע סביר — "מארי" או "אנה" — כי זה מה ש"מתאים" לדפוס של שם בת של סופר. המודל לא מאחזר עובדות ממאגר; הוא מנחש את המילה הבאה הסבירה ביותר, מילה אחר מילה. זה הלב של העניין. כשהמידע קיים בשפע בנתוני האימון, הניחוש הסביר הוא העובדה הנכונה. כשהמידע נדיר או לא קיים, הניחוש הסביר הוא המצאה שנשמעת אמיתית.
עכשיו הפורמליזם הקצר. בכל צעד המודל לא בוחר מילה אחת ודאית, אלא מדרג את כל המילים האפשריות הבאות לפי כמה כל אחת סבירה כהמשך — דירוג כזה נקרא התפלגות הסתברויות, כלומר חלוקה של אחוזי הסבירות בין כל האפשרויות כך שסכומן 100 אחוז. מתוך הדירוג הזה המודל בוחר (בערך) את המילה הסבירה ביותר. אין בתהליך הזה שום שלב של "רגע, האם זה נכון?". אין בדיקת אמת מובנית. יש רק "מה נשמע הכי טבעי להמשך". זו הסיבה שהביטחון בניסוח גבוה גם כשהתוכן שגוי — הביטחון משקף "כמה הניסוח טבעי", לא "כמה התוכן אמיתי". שני דברים שונים לגמרי.
למה דווקא בביטחון? זה החלק המסוכן
הנה הדבר שמטעה את כולם. כשבן אדם לא בטוח, הוא מהסס: "אמ... אני חושב ש...". המודל לא עושה את זה כברירת מחדל, כי הוא אומן בעיקר על טקסטים כתובים היטב וסמכותיים — מאמרים, ספרים, אתרים. בנתוני האימון כמעט אין דוגמאות של "אני לא יודע, סליחה". אז המודל למד שתשובה טובה = תשובה החלטית. הביטחון של המודל הוא סגנון שנלמד, לא מדד לאמיתות. זה כמו סטודנט שלמד שתשובות בטוחות מקבלות ציון גבוה, אז הוא עונה על הכל בנימה החלטית — גם כשהוא מנחש.
איפה זה הכי מסוכן — וכמה דוגמאות אמיתיות
ההמצאות מתרכזות בכמה אזורים שכדאי לזכור בעל פה:
- מספרים ותאריכים: "החוק נכנס לתוקף ב-14 במרץ 2019" — בדקו תמיד. מספרים ספציפיים הם קרקע פורייה להמצאה.
- ציטוטים ומקורות: בקשת מקורות, קישורים או DOI (מזהה ייחודי של מאמר אקדמי) — המודל ימציא כתובות שנראות תקינות אך מובילות לדף שגיאה ריק. דף כזה נקרא בשפת הדפדפן "דף 404", כלומר הכתובת שביקשתם פשוט לא קיימת בשרת.
- קוד עם ספריות מומצאות: המודל יכתוב
import super_helperויקרא לפונקציהmagic_solve()שלא קיימת בשום חבילה — כי השם נשמע כמו משהו שאמור להתקיים. - תחומים נישתיים: ככל שהנושא רחוק יותר ממה שכתוב הרבה באינטרנט, כך עולה סיכון ההמצאה.
איך לתפוס את ההמצאה — כלים מעשיים עכשיו
עכשיו לחלק שתשתמשו בו כל יום. הנה אסטרטגיות קונקרטיות:
1. בקשו מקורות ניתנים לאימות, ואז אמתו אותם. אל תקבלו "מחקרים מראים". בקשו: "צרף קישור ישיר לכל טענה, ואם אין לך מקור ודאי — כתוב 'לא ודאי'". ואז פתחו את הקישורים בעצמכם. אם הקישור מת — זו המצאה.
2. תנו למודל "דלת מילוט". המשפט הקסום: "אם אינך יודע, אמור 'אינני יודע' — אל תנחש". זה עובד כי אתם נותנים למודל אישור מפורש לעשות מה שהוא אומן לא לעשות — להודות בבורות. עצם מתן הרשות לומר "לא יודע" מוריד דרמטית את שיעור ההמצאות.
3. בקשו שלב חשיבה לפני התשובה. "לפני שתענה, פרט את ההנחות והוודאות שלך". כשהמודל מאלץ את עצמו לנמק, חלק מההמצאות נופלות בדרך, כי הן לא עומדות בבדיקה לוגית שהמודל עצמו עורך.
4. הצליבו עם מקור חיצוני (RAG). RAG — ראשי תיבות של Retrieval-Augmented Generation, "יצירה מועשרת באחזור" — הכוונה: במקום לסמוך על זיכרון המודל, אתם מספקים לו את המסמך הרלוונטי בתוך השאלה ("על סמך הטקסט הבא בלבד, ענה..."). כך הוא עונה מתוך עובדות אמיתיות שאתם שמתם מולו, לא מתוך ניחוש. זו הדרך הכי חזקה לרסן הזיות בפרקטיקה.
5. בדקו פעמיים שאלות עם תשובה אחת נכונה. עובדה, מספר, שם — הצליבו תמיד עם גוגל או מקור רשמי. דעה או רעיון — פחות קריטי.
השורה התחתונה
הזיה היא לא תקלה שתיעלם בגרסה הבאה — היא נובעת ישירות מהדרך שבה המודל נבנה: מנבא מילים, לא מאחזר אמת. ברגע שאתם מפנימים את זה, אתם מפסיקים לשאול "למה המודל שיקר לי" ומתחילים לשאול "איפה אני צריך לאמת". תתייחסו למודל כמו לעוזר מבריק, מהיר ורהוט — שלפעמים בטוח בעצמו גם כשהוא טועה. סמכו עליו לניסוח, לרעיונות, לטיוטות. אמתו אותו בעובדות, מספרים ומקורות. ככה טסים גבוה בלי להתרסק.
אמ;לק
5 הדברים שצריך לדעת
מודל שפה מנבא את המילה הבאה הכי סבירה — הוא לא שולף עובדות ממאגר, ולכן ימציא המשך משכנע גם כשאין מאחוריו אמת.
ההזיה לבושה באותו ניסוח בטוח בדיוק כמו האמת; המודל לא מסמן 'כאן אני מנחש', ולכן קל ליפול בפח.
מספרים, תאריכים, ציטוטים, לינקים, פרטים על אנשים ואירועים טריים — שם שיעור ההמצאות הגבוה ביותר.
ככל שטעות עולה לכם ביוקר, העלו את רף הבדיקה: פתחו לינקים, הצליבו מול מקור חיצוני, הריצו בנוסח אחר.
תנו למודל דרור ברעיונות, ניסוח וקוד — ואמתו כל עובדה אטומית שאפשר לבדוק לפני שאתם נשענים עליה.
פניות תקשורת
לראיונות, שיתופי פעולה והרצאות — נשמח לדבר.



