С фронта в лабораторию: студенты из Негева разработали систему распознавания рукописного иврита
Томер Како и Таль Бен-Аарон, студенты факультета программной инженерии колледжа SCE, не позволили интенсивной резервной службе остановить их: в течение последнего года, совмещая активную службу в армии с учебой, они вели разработку инновационного проекта - систему OCR, способную распознавать рукописный иврит.
Идея проекта родилась из разговора с научной руководительницей проекта, доктором Наталией Вонтик, которая поделилась трудностями при проверке экзаменов, написанных неразборчивым почерком. Исходя из этой практической потребности, Томер и Таль решили создать инструмент, который автоматически расшифровывает рукописные тексты, экономит время, снижает количество ошибок и облегчает работу с такими документами.
«Мы были вынуждены сосредоточить большую часть разработки на первые полгода, до начала службы в резерве», рассказывает Томер. «Не всё успели, некоторые задачи отложили на конец. Мы совмещаем резерв и учёбу, стараемся делать всё возможное».
Разработанная система базируется на современных технологиях в области искусственного интеллекта и включает несколько этапов: разбиение текста на отдельные буквы, распознавание каждой буквы с помощью трансформерной модели, сборка букв в слова и предложения, а затем языковая коррекция - что обеспечивает высокую точность даже при работе с плохо читаемыми или низкокачественными сканами.
Доктор Вонтик, сопровождающая проект, подчёркивает: «Иврит считается малоресурсным языком в области обработки естественного языка, и до сих пор не было разработано эффективного OCR-инструмента, способного обрабатывать рукописный иврит. Именно из-за этого вызова я считаю проект особенно важным. Он заполняет реальную нишу в сфере научных исследований и может существенно повлиять на профессиональное и образовательное сообщество».


























