מהחזית למעבדה: סטודנטים מהנגב פיתחו מערכת לזיהוי טקסט בעברית בכתב יד

תוך כדי שירות מילואים של כ-200 ימים, בני זוג מה-SCE פיתחו מערכת OCR חדשנית בעברית - המיועדת לפענח מבחנים וטקסטים כתובים
שיתוף בווטסאפ שיתוף בפייסבוק שיתוף בטוויטר שיתוף באימייל הדפסת כתבה
מהחזית למעבדה: סטודנטים מהנגב פיתחו מערכת לזיהוי טקסט בעברית בכתב יד צילום: SCE / שימוש הוגן על פי סעיף 27 א'

תומר קקו וטל בן אהרון, זוג סטודנטים להנדסת תוכנה ב־SCE המכללה האקדמית להנדסה ע''ש סמי שמעון, לא נתנו לשירות מילואים אינטנסיבי לעצור אותם: במהלך השנה האחרונה, במקביל לשירות פעיל כלוחמים עם קרוב ל־200 ימי מילואים, הם הובילו פרויקט חדשני לפיתוח מערכת OCR לזיהוי טקסטים בעברית בכתב יד.
ההשראה לפרויקט נולדה משיחה עם מנחת הפרויקט, ד''ר נטליה וונטיק, אשר שיתפה בקושי לבדוק מבחנים הכתובים בכתב יד לא ברור. מתוך הצורך המעשי הזה, החליטו תומר וטל לפתח כלי שיפענח אוטומטית טקסטים כתובים, יחסוך זמן, יפחית טעויות וישפר את העבודה מול מסמכים בכתב יד.

''נאלצנו לרכז את רוב הפיתוח לחצי השנה הראשונה של השנה, לפני שיצאנו למילואים'', מספר תומר. ''לא הספקנו הכול כי היו דברים שנאלצנו לדחות לסוף. אנחנו משלבים בין המילואים ללימודים, משתדלים לעשות את הכי טוב שאנחנו יכולים''.
המערכת שפיתחו מבוססת על טכנולוגיות מתקדמות בתחום הבינה המלאכותית, וכוללת מספר שלבים: פיצול הטקסט לאותיות בודדות, זיהוי כל אות באמצעות מודל טרנספורמר, הרכבת האותיות למילים ולמשפטים, ולבסוף תיקון לפי הקשר לשוני – מה שמעניק רמת דיוק גבוהה גם בטקסטים בעייתיים או סרוקים באיכות נמוכה.
ד''ר וונטיק, שמלווה את הפרויקט, מדגישה: ''השפה העברית נחשבת לשפה דלת משאבים בתחום עיבוד שפה טבעית, ועד כה לא פותח כלי OCR שמסוגל להתמודד היטב עם טקסטים בעברית בכתב יד. דווקא בשל האתגר הזה, אני רואה חשיבות מיוחדת בפרויקט. הוא ממלא חלל ממשי בשדה המחקר והפיתוח, ועשוי לתרום תרומה של ממש לקהילה המקצועית והחינוכית''.