С фронта в лабораторию: студенты из Негева разработали систему распознавания рукописного иврита

Во время резервной службы продолжительностью почти 200 дней, пара студентов из колледжа инженерии имени Сами Шамуна (SCE) разработала инновационную систему OCR для распознавания рукописного текста на
Поделиться в WhatsApp Поделиться в Facebook Поделиться в Twitter Поделиться по email Печать статьи
 Студенты колледжа SCE Томер Како и Таль Бен-Аарон работают над системой OCR для распознавания рукописного иврита.

Томер Како и Таль Бен-Аарон, студенты факультета программной инженерии колледжа SCE, не позволили интенсивной резервной службе остановить их: в течение последнего года, совмещая активную службу в армии с учебой, они вели разработку инновационного проекта - систему OCR, способную распознавать рукописный иврит.

Идея проекта родилась из разговора с научной руководительницей проекта, доктором Наталией Вонтик, которая поделилась трудностями при проверке экзаменов, написанных неразборчивым почерком. Исходя из этой практической потребности, Томер и Таль решили создать инструмент, который автоматически расшифровывает рукописные тексты, экономит время, снижает количество ошибок и облегчает работу с такими документами.

«Мы были вынуждены сосредоточить большую часть разработки на первые полгода, до начала службы в резерве»,  рассказывает Томер. «Не всё успели, некоторые задачи отложили на конец. Мы совмещаем резерв и учёбу, стараемся делать всё возможное».

Разработанная система базируется на современных технологиях в области искусственного интеллекта и включает несколько этапов: разбиение текста на отдельные буквы, распознавание каждой буквы с помощью трансформерной модели, сборка букв в слова и предложения, а затем языковая коррекция - что обеспечивает высокую точность даже при работе с плохо читаемыми или низкокачественными сканами.

Доктор Вонтик, сопровождающая проект, подчёркивает: «Иврит считается малоресурсным языком в области обработки естественного языка, и до сих пор не было разработано эффективного OCR-инструмента, способного обрабатывать рукописный иврит. Именно из-за этого вызова я считаю проект особенно важным. Он заполняет реальную нишу в сфере научных исследований и может существенно повлиять на профессиональное и образовательное сообщество».