מחשב במקום רופא: איזו בינה מלאכותית מפענחת מידע רפואי בצורה הטובה ביותר?

שימוש בבינה מלאכותית בעולם הרפואה הולך וגובר, במיוחד במודלי שפה גדולים שמסייעים בניתוח מידע קליני מורכב. מחקר שנערך באוניברסיטת בן-גוריון בנגב, שפורסם בכתב העת *Computers In Biology and Medicine*, השווה בין ביצועי מודלי שפה כללים כמו ChatGPT-4 ומודלים ייעודיים שעברו אימון על מידע רפואי.
במסגרת המחקר פיתחו הדוקטורנט אופיר בן שוהם וד"ר נדב רפופורט שיטת הערכה ייעודית בשם MedConceptsQA, שכללה יותר מ-800,000 שאלות ותשובות רפואיות בשלוש רמות קושי. התוצאות הצביעו כי רוב המודלים, כולל אלו שאומנו במיוחד על נתונים רפואיים, הציגו ביצועים ברמה של ניחוש אקראי.
לעומת זאת, ChatGPT-4, שלא אומן ספציפית לצרכים רפואיים, הציג את הביצועים הטובים ביותר עם דיוק של כ-60% בממוצע. מודלים ייעודיים כמו Llama3-OpenBioLLM-70B הצליחו פחות, עם דיוק נמוך יותר בכ-9-11%.
למרות ביצועיו העדיפים של ChatGPT-4, הוא עדיין אינו מדויק מספיק עבור משימות רפואיות קריטיות כמו פענוח קודים רפואיים מורכבים, זיהוי הבדלים עדינים בין אבחנות או חיזוי מחלות. ממצאים אלו מדגישים את הצורך בפיתוח מודלים רפואיים ייעודיים משופרים המסוגלים להתמודד עם המורכבות של המידע הרפואי. "השיטה שפיתחנו יכולה לשמש להערכת כל מודל שפה גדול שיפותח בעתיד," הסביר הדוקטורנט בן שוהם. “מדובר במשאב רב ערך להערכת היכולות של מודלי AI בתחום הרפואה.” ד"ר רפופורט הדגיש את הצורך בזהירות בשימוש במודלים קיימים לצרכים רפואיים: "אנו מציגים אמת מידה להערכת איכות המידע הרפואי ומציפים את ההכרח בשימוש זהיר במידע כזה." הממצאים מהווים תמרור אזהרה לשימוש בבינה מלאכותית בתהליכי קבלת החלטות רפואיות קריטיות.