הפיתוח המרתק של חוקרים מבן גוריון: האם צ'ט GPT יחליף את הרופא המומחה?

מאגר הנתונים שפותח באוניברסיטת בן-גוריון כולל אלפי מקרים רפואיים אמיתיים מהעולם – ומראה כי מודל כללי כמו GPT-4o מדויק יותר ממודלים רפואיים ייעודיים
שיתוף בווטסאפ שיתוף בפייסבוק שיתוף בטוויטר שיתוף באימייל הדפסת כתבה
הפיתוח המרתק של חוקרים מבן גוריון: האם צ'ט GPT יחליף את הרופא המומחה? ד''ר נדב רפפורט (צילום: דני מכליס / אוני' בן גוריון)

חוקרים מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב יצרו מאגר נתונים חסר תקדים של מקרים רפואיים מורכבים לטובת בדיקת ביצועי מודלי שפה גדולים. את המחקר הובילו הדוקטורנטים אוריאל פרץ ואופיר בן שוהם יחד עם ד"ר נדב רפופורט וד"ר ניר גרינברג, והוא הוצג לאחרונה בכנס הבינה המלאכותית היוקרתי AAAI שהתקיים בפילדלפיה.
המאגר, הנקרא CUPCase, מבוסס על 3,562 דיווחי מקרים רפואיים אמיתיים שפורסמו בעיתון המדעי BMC Journal of Medical Case Reports. על בסיסם יצרו החוקרים שאלות פתוחות ואמריקאיות שבחנו את יכולת האבחון של מודלים שונים – כלליים וקליניים.
הממצא המרכזי והמפתיע: מודל GPT-4o, שאינו מותאם לרפואה, הראה ביצועים עדיפים על פני מודלים קליניים כגון Meditron-70B ו־MedLM-Large, עם דיוק של 87.9% בשאלות אמריקאיות ו־76.4% בשאלות פתוחות. גם מודל Llama-3.1 הכללי בלט לטובה.
"הופתענו לראות שמודלים כלליים מציגים ביצועים טובים יותר מאלה שיועדו ספציפית לרפואה", ציין אופיר בן שוהם. “הצלחנו להראות שיש פוטנציאל ממשי לשימוש במודלי שפה גדולים ככלי עזר באבחון מקרים מורכבים.”
ד"ר נדב רפופורט הדגיש כי המאגר שנבנה “מרחיב את היכולת להעריך מודלים באופן פתוח וניתן לשחזור, עם פוטנציאל ממשי לשפר את תהליך קבלת ההחלטות הקליניות.”
לדברי החוקרים, מודלים אלה עשויים לקצר משמעותית את זמן האבחון עבור מקרים רפואיים מורכבים – מקרים שלעתים נמשכים שבועות ואף חודשים של בדיקות והתייעצויות, וגורמים לעיכובים בטיפול ומתח נפשי למטופלים.
מאגר CUPCase פתוח לשימוש הקהל הרחב, ניתן להרחבה באמצעות מקרים נוספים, ויכול לשמש פלטפורמה להערכת יכולות של מודלים עתידיים בתחום.