Нейросеть для чтения рукописных текстов на русском языке

Продукт
Разработчики: ЛЭТИ СПбГЭТУ - Санкт-Петербургский государственный электротехнический университет, Сибирский Федеральный Университет ФГАОУ ВПО
Дата премьеры системы: июль 2022 г.
Отрасли: Информационные технологии

2022: Анонс нейросети, которая распознает рукописный текст на русском языке с 99-процентной точностью

В конце июля 2022 года стало известно о создании в России нейросети, которая распознает рукописный текст на русском языке. Это разработка специалистов Сибирского федерального университета (СФУ) и Санкт-Петербургского государственного электротехнического университета «ЛЭТИ».

Речь идет о так называемой свёрточной нейросети (CNN). Она способна читать рукопись на русском языке с точностью до 99%, утверждают разработчики. По их словам, алгоритм ориентируется независимо от почерка, защищён от утечки информации и не требует подключения к интернету.

Создана нейросеть, которая распознает рукописный текст на русском языке

Обучение нейросети проводилось с помощью предварительно обработанных данных хранилища CoMNIST — известной базы данных, содержащей образцы рукописного написания букв на латинице и кириллице. Первым делом учёные создали новый набор данных с помеченным изображением для 33 букв русского алфавита, затем разработали новую архитектуру CNN для обнаружения рукописных букв и сравнили её с уже существующими моделями. После этого выложили полное описание свёрточной нейросети и исходного кода, чтобы другие исследователи имели возможность воспроизводить эти данные. Для программирования был выбран язык Python и интерактивная среда разработки Jupyter.

По словам доцента кафедры систем искусственного интеллекта СФУ Анастасии Сафоновой, набор данных содержит 13 299 фотографий прописных, печатных и написанных курсивом букв. Приблизительно на 85% этих снимков нейронная сеть (CNN) училась распознавать буквы русского алфавита, а ещё на 15% шла проверка усвоенных «знаний». Всё обучение заняло 3 часа. Точность прогнозирования модели составила до 95,83%.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы 6.9 т

Разработчики нейросети загрузили проект на платформу GitHub, чтобы все желающим могли обучить модель на собственном наборе данных. [1]

Примечания