Альфа-Банк создал движок автораспознавания документов
Альфа-Банк внедрил сервис распознавания документов на основе решений с открытым исходным кодом, такие как TensorFlow, PyTorch, OpenCV и др.
Сервис разработан как аналог популярным платным решениям для распознавания данных из документов с использованием технологий компьютерного зрения и нейронных сетей. При этом он является полностью автономным и обеспечивает независимость от сторонних поставщиков, лицензионных ограничений и необходимости внешних доработок. Среднее время обработки одного документа составляет порядка 2 секунд, что в 10–15 раз быстрее решения, которое использовалось в банке прежде. Это особенно важно для клиентских сервисов, где критична скорость обслуживания.
Весь процесс распознавания документов был разделен на 6 различных функций, для реализации каждой из которых была разработана и обучена собственная нейросетевая модель. В результате, 6 нейросетей последовательно отрабатывают функции: детекции документа на изображении, коррекции геометрии и выравнивание, классификации и валидации документа, сегментации ключевых полей, распознавания текста (OCR), а также постобработки и нормализации извлеченных данных.
В основе OCR-модуля для распознавания текстов лежит современная архитектура Parseq, сочетающая трансформеры и перестановочное декодирование для точного восстановления символов. Она заимствует практики из генеративного моделирования, такие как трансформеры и языковые модели, но фокусируется на дискриминативной задаче — точном восстановлении текста даже при низком качестве изображения. Сервис предполагает высокую гибкость интеграции и может использоваться как самостоятельное решение, так и в составе существующих систем, дополняя их и улучшая общие показатели качества и производительности.
Для реализации остальных этапов также применяются различные типы нейросетей: от классических полносвязных и сверточных архитектур до современных трансформеров, что обеспечило гибкость и адаптивность системы.
Первая внедренная задача, реализованная в рамках сервиса — распознавание основного разворота паспорта гражданина РФ, но используемый подход к обучению моделей позволяет создать аналогичные решения для других типов документов. При этом микросервисная архитектура поддерживает горизонтальное масштабирование и готова к работе в кластере Kubernetes, что обеспечивает стабильность при пиковых нагрузках.
«Мы всегда стараемся применять решения, которые улучшают клиентский опыт, делают взаимодействие банка с клиентом быстрее, удобнее, эффективнее. И такие наши внутренние решения позволяют нам быть флагманами клиентоцентричности на рынке. Разработка, поддержка и развитие сервиса полностью происходит без привлечения сторонних подрядчиков. Это обеспечивает дополнительную гибкость, безопасность и быструю адаптацию под новые требования, а отсутствие лицензионных платежей позволяет масштабировать созданные решения без дополнительных затрат со стороны банка», — отметила главный операционный директор Альфа-Банка, Нино Кодуа.