Иван Казарин: «ИИ в РУСАЛе — это команда, процессы и инфраструктура»

Насколько унифицирована архитектура ИИ-решений в РУСАЛе? Или каждый проект — с нуля?

Иван Казарин: «ИИ в РУСАЛе — это команда, процессы и инфраструктура»
© It-world

Для эффективной разработки и применения продуктов на основе искусственного интеллекта требуются стандартизированные подходы и развитие лучших практик. В команде Департамента технологий искусственного интеллекта (ДТИИ РУСАЛ) мы активно применяем и развиваем такие подходы, в том числе для архитектуры решений.

Начнем с того, что мы используем понятие AI-ready для площадок в качестве показателя готовности к внедрению ИИ-продуктов, которое включает наличие необходимых условий для сбора данных, сетевых каналов и интеграционных модулей для передачи данных, а также серверных мощностей для инференса моделей.

Для передачи данных между промышленными площадками и корпоративным контуром мы используем КШД — корпоративную шину данных, что позволяет ускорить разработку и сократить затраты на внедрение.

Особо отмечу нашу собственную DSML-платформу на базе отечественного фреймворка SinaraML. Она позволяет управлять окружениями, версионировать пайплайны, данные и эксперименты дата-сайентистов.

Благодаря такому комплексному подходу мы стандартизируем инфраструктуру и среду для разработки моделей, унифицируем процессы разработки и административные регламенты в части создания и использования ИИ-продуктов.

Что лежит в основе системы мониторинга гранулометрического состава спека в цехе спекательного производства «РУСАЛ Краснотурьинск», которое получило специальный приз в номинации «Решение на основе ИИ для горного производства» на конкурсе проектов цифровизации горной отрасли «Горная индустрия 4.0» в 2025 году?

В основе решения — комплекс моделей компьютерного зрения, разработанных ДТИИ РУСАЛ. В их числе детекторы (фреймворк OpenMMLab на основе PyTorch, архитектура модели-детектора RTMDet), алгоритм по определению размера гранул — перевод пикселей в миллиметры, объединение гранул во фракции с определенными размерами по детектируемому слою.

Какие технологии внедряют российские заводы в 2025 году

Отмечу, что высокого результата удалось достичь благодаря совместной работе команды, состоящей из представителей производства, инженеров, разработчиков и дата-сайентистов. Особенно приятно было получить награду в 2025 году, когда РУСАЛу исполнилось 25 лет.

На какие метрики вы ориентируетесь при оценке качества моделей? Есть ли целевые значения, заданные с точки зрения производства?

Для оценки качества моделей в составе системы мониторинга гранулометрического состава спека мы используем ряд метрик. В частности, для задач обнаружения объектов применяются классические Precision и Recall, а также COCO AP и AR при различных порогах IoU, с анализом PR-кривых. Что касается проверки показателей устойчивости к реальным условиям эксплуатации на производстве, мы проводим тесты на устойчивость к Camera Tampering, включая сценарии с запыленностью, окклюзиями и затенением камеры.

Для производства значима оценка долей гранул по фракциям, ключевым показателем которой является средняя абсолютная ошибка (MAE). В ходе разработки моделей были заданы целевые значения MAE по диапазонам грансостава спека, не превышающие 10% от соответствующих истинных значений.

Где проходит граница принятия решения? Финальное слово остается за человеком?

Финальное действие остается за операторами. Цель нашего продукта — помочь операторам быстрее и точнее принять необходимые решения на основе данных. На основании полученных данных от системы, операторы контролируют гранулометрический состав спека, своевременно определяют отклонения от нормативных значений, оперативно реагируют на нарушения и вносят корректировки в режимы работы технологического оборудования.

Расскажите об эффекте от внедрения ИИ. Каких результатов удалось достичь благодаря внедрению системы?

Система позволяет решить полный спектр задач для мониторинга и контроля спека на конвейерной ленте: регулярный мониторинг и контроль гранулометрического состава спека в режиме онлайн, детектирование отклонений с оперативным оповещением оператора, сбор статистики по грансоставу и формирование отчета в режиме онлайн для каждой смены, визуализация с графиками фракционного состава спека, а также регулярный мониторинг подачи сырья на конвейере.

Возможности решения обеспечивают ожидаемый экономический эффект для версии в эксплуатации около 40 млн рублей в год, а также масштабирование на другие производственные площадки РУСАЛа уже в этом году.

Насколько модели адаптируются к особенностям разных площадок? Приходится ли переобучать их под каждую? Бывает ли, что модели, успешно работающие на одном заводе, дают сбои при переносе на другой?

При масштабировании мы используем разработанные модели, но для обеспечения требуемого качества функционирования моделей на разных площадках необходимо учитывать условия и особенности конкретного производственного объекта.

Мы начинаем работу над каждым продуктом с организации обследования площадки, тестируем в реальных условиях нескольких вариантов оборудования и его расположения, освещения и других условий для сбора данных. С использованием собранных данных мы проводим PoC для определения наиболее подходящего варианта. На основании выбранного варианта мы обеспечиваем разработку индивидуально адаптированной под площадку архитектуры физической инфраструктуры. Такой подход позволяет подготовить модели к условиям каждой площадки и добиться оптимальных результатов.

Какие инструменты составляют вашу MLOps-среду?

Наша DSML-платформа, о которой я упоминал, включает вычислительное облако с кластером из 40 GPU NVIDIA A100 и облако хранения — объектное хранилище объемом около 0,5 Пбайт, размещенное в инфраструктуре on-premise.

ИИ в промышленности: «зеленый свет» и «простои» на перекрестках

Платформа реализована на базе Cloud Native-технологий, что обеспечивает ее масштабируемость, устойчивость к сбоям и удобство в управлении и развертывании компонентов. Разработку и развитие DSML-платформы РУСАЛа осуществляет команда PlatformOps-инженеров нашего департамента.

Используется ли машинное зрение для соблюдения техники безопасности — например, контроль наличия СИЗ или перемещения персонала?

Да, мы используем CV-модели, в том числе для повышения безопасности на производстве. В частности, для контроля наличия и перемещения транспортных средств в зонах присутствия персонала, а также для отслеживания использования СИЗ в зонах, где этого требуют условия технологического процесса.

Автоматизированный визуальный контроль позволяет оперативно выявлять потенциально опасные ситуации и снижает человеческий фактор в критически важных зонах, что особенно важно в условиях промышленного производства. Помимо снижения рисков для сотрудников, такие меры повышают общую культуру безопасности на предприятиях и способствуют снижению затрат, благодаря предотвращению инцидентов и простоев.

Как вы размечаете данные для моделей CV?

Для того чтобы обеспечить разметку данных для CV-моделей, мы привлекаем экспертов предприятий и внешних подрядчиков.

Остановлюсь подробнее на организации работы с подрядчиками. Для сотрудничества мы отобрали несколько профильных команд, которые имеют опыт работы с данными промышленных предприятий. Оказание услуг ведется по стандартизированному процессу, основанному на лучших отраслевых практиках и включающему установленный SLA. Для каждого запроса дата-сайентисты нашей команды составляют формализованное, но при этом не перегруженное ТЗ на разметку, что позволяет учесть все необходимые требования к результатам работы. Благодаря такому подходу мы получаем разметку данных, включая классификацию изображений, сегментацию объектов и валидацию разметки, по оптимальным условиям и в установленный срок.

В части организации разработки ИИ-продуктов используете ли вы организованный подход?

Наш департамент является центром компетенций РУСАЛа в сфере Data Science, и организация процессов разработки ИИ-продуктов становится для нас одной из ключевых задач.

Современная разработка основана на Agile-практиках, при этом менеджмент промышленных компаний традиционно использует проектный подход, опирающийся на практики PMBoK. Для эффективного управления процессами разработки, внедрения и эксплуатации цифровых продуктов с ИИ в промышленной компании нам необходимо органично сочетать эти управленческие практики.

Российские ИТ решения для промышленности: путь открыт

Для этого мы используем и развиваем методику, которая называется AI Track. Разработка ИИ-продуктов организована в формате проектов и предусматривает участие определенных ролей участников команды проекта, установленных в соответствии с RACI-матрицей. AI Track определяет для каждого проекта стадии, от идеи до поддержки зрелого продукта, а также определенные этапы работ. Каждой стадии соответствуют специфичные артефакты, для подготовки которых назначены ответственные роли участников проектной команды. Этапы работ реализуются в рамках одной или нескольких стадий, причем выполняются не всегда строго последовательно и имеют пересечения, связанные со спецификой и сложностью продукта — это позволяет сохранить гибкость в управлении проектом без «провалов» в хаос.

Такой подход позволяет разработчикам оставаться в формате Agile и применять в работе практики LeanDS, не конфликтуя и органично увязывая процессы разработки с практиками менеджмента, принятыми в компании.

Поделитесь секретом, как вам удается обеспечить такую зрелую организацию работы по ключевым направлениям, связанным с применением и развитием технологий искусственного интеллекта?

Прежде всего это командная работа. Каждый сотрудник РУСАЛа, связанный с разработкой и эксплуатацией ИИ-продуктов, вносит в нее вклад. Также отмечу, что в ДТИИ РУСАЛ организовано направление Data Science Operations для управления бизнес-процессами, техническими решениями и сервисами, связанными с командой и продуктами Data Science.

Наши продукты приносят компании эффект, а значит, нужно создать оптимальные условия как для разработки и эксплуатации этих продуктов, так и для сотрудников, которые это обеспечивают.