Росстат готовит переход на новый порядок расчета потребительской инфляции, который объединит большие данные от контрольно-кассовой техники (ККТ) и технологии искусственного интеллекта, пишет РБК. Об этом говорится в презентации замруководителя Росстата по цифровой трансформации Григория Остапенко. В Росстате отметили, что предварительные оценки индекса потребительских цен (ИПЦ), рассчитанного с помощью ККТ, планируется получить уже в 2021 году.
Сейчас более 1 тыс. сотрудников Росстата в регионах вручную собирают данные о ценах для расчета инфляции. При новом методе количество ценовых котировок увеличится до нескольких миллионов, следует из презентации. С помощью веб-скрейпинга (технологии извлечения онлайн-данных) Росстат начнет агрегировать данные ККТ о стоимости товаров в кассовых товарных чеках. Также сейчас фискальные данные от ФНС поступают в Росстат в обезличенном виде, поэтому понадобится внесение изменений в ст. 102 Налогового кодекса («Налоговая тайна»), чтобы налоговики могли передавать первичные данные трансакций.
В Росстате подчеркнули, что «использование новых методов и инструментов сбора данных не влияет на методологию оценки индекса потребительских цен». Ведомство ставит цель довести долю товаров, цены на которые определяются через данные ККТ, до 90% при расчете инфляции. На финансирование проекта понадобится дополнительно 100 млн рублей.
Для машинной обработки кассовых данных будет применяться технология нейронных сетей. Система должна, в частности, уметь искать товары по лексическим вариантам наименований и группировать нужные позиции в увязке со справочником товаров и услуг Росстата, следует из презентации. Массивы ценовых данных, сгруппированных по параметрам «регион», «городской округ», «товарная группа», «наименование товара», «стоимость» и т. д., Росстат планирует размещать в открытом доступе. За счет предоставления общедоступных данных по ценам на потребительские товары на еженедельной основе стоимость «добычи» ценовых данных для бизнеса снизится, уверяет Росстат. Также будут сформированы актуальные региональные потребительские корзины, которые позволят лучше понимать структуру потребления в том или ином регионе.
По словам экспертов, нейросети обрабатывают данные с ККТ и классифицируют товары в чеках по категориям, после чего данные об объемах продаж и ценах товаров могут использоваться для расчета индекса потребительских цен. Сотрудники называют каждый раз товар по-разному, допускают ошибки, сокращают длинные названия. Справиться с таким массивом данных может только нейросеть, и точность ее классификации товаров и услуг выше 95%, отметили эксперты. Также проблемой для Росстата будет в том, как распознать тот или иной товар или услугу в чеках. Единого регламента того, как товар должен быть указан в чеке, не существует. Власти могут попытаться договориться с крупными торговыми сетями о стандартизации названий основных товаров или присвоить им цифровые коды, предположили эксперты.