Без cookies никак!
Они помогают улучшить сервис для вас. Продолжая использо­вать сайт, вы даете свое согласие на работу с этими файлами. Политика обработки персональных данных
Блог

Как навести порядок в онлайн-каталоге и перестать терять деньги

3 марта 2026
9 мин. 15
image
image
image
Виктор Чернышев заместитель руководителя отдела развития бизнеса
image
Елена Андреева редактор-копирайтер
Как навести порядок в онлайн-каталоге и перестать терять деньги
Когда в каталоге 500 позиций, им можно управлять в Excel. Когда 5 000 — хватает CMS (системы управления контентом) с дисциплинированным контент-менеджером. Но если товаров больше 50 000, поддерживать в нём порядок сложно даже с хорошей CMS. Неизбежно возникают проблемы: дублирование позиций, разный формат наименований и атрибутов, карточки с неполными данными. Это приводит к сложности поиска и аналитики по ассортименту, что напрямую бьёт по выручке. В этой статье расскажем, как возникают проблемы с карточками, почему «грязный» каталог стоит бизнесу реальных денег и как внедрить решение по наведению порядка, используя новейшие технологии.

Хаос в каталоге — это не вопрос контента

Типичная картина: у интернет-магазина 70 000 единиц складского учёта от десятков поставщиков, при этом каждый присылает данные в своём формате. С каталогом параллельно работает несколько контент-менеджеров. Через несколько месяцев в каталоге, скорее всего, появятся типичные проблемы.

Дубли. Один товар заведён два раза или даже больше — с разными названиями, фото, иногда ценой. Покупатель не понимает, какую из позиций ему добавить в заказ.

Разнобой в наименованиях. «Samsung Galaxy S24 Ultra 256GB чёрный», «Galaxy S24Ultra 256 Гб Black», «Смартфон Samsung S24 Ultra (256)» — три карточки одного товара. Фильтры ломаются, пользователь снова в замешательстве.

Пустые и некорректные атрибуты. Вес указан где-то в граммах, где-то в килограммах, а где-то вовсе не указан. Фильтр по весу в результате выдаёт не все товары или сортирует их неправильно.

Сломанная структура категорий. Подкатегория «Ноутбуки» внутри «Бытовой химии» — реальный случай из практики. Сюда же можно отнести такие проблемы как пустые категории, дубли разделов, «зависшие» товары вне дерева.

По отдельности каждая проблема кажется мелкой. Вместе они формируют системную деградацию, которая бьёт по конверсии, SEO и операционке. Покупатель не находит нужный товар либо путается в похожих карточках и уходит. Маркетолог не может построить корректную аналитику и принимает решения на основе неверных данных. Разработчик не может внедрить автоматизацию, потому что часть товаров «выпадает».

Что же делать? Нанимать армию контент-менеджеров и перебирать каталог вручную? К счастью, сейчас есть программные решения для наведения порядка в каталогах, и одно из новейших — сервис на основе нейросети, точнее, большой языковой модели.

Что за решение и как оно работает

Речь не о замене CMS, PIM или ERP. Всё остаётся на месте. Решение — дополнительный сервис, который встаёт поверх существующей инфраструктуры и берёт на себя контроль качества каталожных данных. Внутри сервиса используется несколько разных технологий для анализа карточек и выявления проблем, и одна из них — LLM (large language model, в переводе «боьшая языковая модель»), такая как ChatGPT, Claude, ГигаЧат или их аналоги.

Сервис подключается по API к вашей системе, будь то PIM, ERP, CMS или админка маркетплейса, и регулярно забирает данные карточек: названия, бренды, категории, характеристики, артикулы, штрихкоды, цены, ссылки на фото. Цель — собрать максимум «сигналов», по которым можно оценить качество и идентичность каждой позиции.

Дальше данные проходят предобработку: нормализация регистра, очистка от мусорных символов, приведение единиц измерения к единому стандарту, сопоставление брендов со справочником («Hewlett Packard» → «HP»). Из текстовых полей извлекаются ключевые параметры: модель, артикул, ёмкость, размер. На основе этого строится «канонический шаблон» карточки, который используется для дальнейшего анализа.

После нормализации включается интеллектуальный слой. Если мы ищем дубли в каталоге из десятков или сотен тысяч позиций, мы не сможем сравнить каждую карточку с каждой: для этого не хватит никаких вычислительных мощностей. Поэтому сначала работает быстрый фильтр: совпадение штрихкода, артикула, похожие названия внутри одного бренда. Это сужает пространство до десятков вероятных пар на карточку. Затем подключается «умное сравнение» — эмбеддинги для скоринга близости и LLM для разбора неоднозначных случаев, где описания «человеческие», характеристики заполнены частично или перемешаны языки.
Почему именно LLM?
Роль языковой модели — «понять смысл» двух карточек и решить, это один и тот же объект или нет, даже если они написаны по-разному. LLM нужна там, где обычные алгоритмы сравнивают символы, а нужно сравнивать значение. Она умеет понимать сокращения, распознавать транслитерацию и учитывать синонимы, а также выстраивать цепочку рассуждения. Так нейросеть оценивает, относятся ли тексты к одному и тому же предмету и насколько критичны различия. И в итоге может сделать вывод, это другая модель или тот же товар.
По итогу каждая пара получает вердикт: точный дубль, вероятный дубль, не дубль, нужно уточнение. Очевидные случаи обрабатываются автоматически, спорные — уходят в очередь модерации с интерфейсом, где оператор видит две карточки рядом, подсветку различий и объяснение логики решения.

Решение адресовано всем, кто отвечает за каталог как за бизнес-актив. Если вы директор по маркетингу, начальник коммерческой службы или директор по развитию, и вы тратите человеко-часы на ручную чистку данных, борьбу с дублями и разбор жалоб от маркетинга на то, что «фильтры опять не работают», это ваш инструмент.

Ключевые возможности

Поиск и устранение дублей

Дубль — это две и более карточки для одного и того же товара. Для их выявления используется метод «нечёткого сопоставления»: вариации написания, перестановки слов, совпадение артикулов и штрихкодов. На выходе получается список потенциальных дублей с объяснением, по каким признакам система их нашла, и рекомендацией: объединить, оставить или отправить на ручную проверку.
Нечёткое сопоставление — метод сравнения данных, при котором совпадение считается найденным даже тогда, когда значения не полностью одинаковые, но достаточно похожи. Это способ понять, что две записи означают одно и то же, даже если они написаны с ошибками, сокращениями или в разном формате.
Даже если в каталоге из 70 000 позиций всего 1% дублей, это 700 карточек, которые искажают поиск и аналитику. Помимо путаницы для покупателя, дубли размывают отзывы, рейтинги и историю продаж между несколькими карточками.

Результат: чистка дублей — одна из самых быстрых точек роста конверсии.

Нормализация наименований

На этом этапе мы приводим все названия товаров к единому формату: сначала бренд, потом модель, затем параметры и цвет. Используем одинаковые и понятные сокращения., очищаем текст в карточке от «мусора» — лишних пробелов, спецсимволов, рекламных приписок вроде «ХИТ!!!». Правила настраиваются индивидуально под каждый бизнес, ведь логика для fashion-ритейлера и для электроники будет заметно отличаться.

Результат: поиск по сайту работает корректно, фасетная навигация даёт точные результаты, SEO-страницы генерируются без ошибок.

Выравнивание и обогащение атрибутов

Здесь мы приводим единицы измерения к общему стандарту, проверяем обязательные характеристики, выявляем аномалии (ноутбук весом 0,5 грамма — скорее всего, ошибка). Отдельная функция — контроль полноты карточки: какой процент обязательных атрибутов заполнен. Этап «Выравнивание и обогащение атрибутов» особенно важен при массовой загрузке данных, заполненных поставщиком: карточки проходят валидацию до попадания на сайт, и контент-менеджер получает очередь конкретных задач на доработку. Это позволяет быстро внести изменения и отправить на сайт правильные карточки, даже если поставщик допустил много неточностей.

Контроль структуры категорий

На этом этапе мы выполняем поиск товаров, «зависших» вне категорий; дублирующихся разделов с разным написанием (или с близкими по значению названиями). Также отыскиваем нарушения вложенности и пустые категории.

В результате всех этапов получаем единый, согласованный справочник и правильную категоризацию всех товаров.

Бизнес-эффект языком цифр

Этот раздел написан для разговора с топ-менеджерами и владельцами бизнеса. «Навести порядок» звучит как задача контент-менеджера. «Увеличить конверсию на 15−25%» — как стратегическая инициатива, которую можно обсудить с руководителями высшего звена. Вот какой бизнес-эффект принесёт внедрение ИИ-решения по наведению порядка в каталоге.

Рост конверсии. Фильтры работают, карточки заполнены, дублей нет, а значит, покупатель находит товар быстрее и не испытывает растерянности и замешательства. Диапазон улучшений — 2−10% в зависимости от исходного состояния данных. Для каталога с оборотом в сотни миллионов рублей даже нижняя граница этого диапазона — серьёзная цифра.

Рост SEO-трафика. Когда атрибуты заполнены корректно, каждая комбинация «бренд + характеристика» становится посадочной для поисковиков. Нормализация нередко приводит к кратному росту проиндексированных страниц. Страницы, которые раньше просто не существовали из-за «грязных» данных, начинают генерироваться автоматически и привлекать низкочастотный трафик.

Снижение операционных затрат. Ручная чистка десятков тысяч складских наименований товара — это полный день работы для 2−3 специалистов по контенту. И вовсе не разовая задача: каталог «загрязняется» постоянно, с каждой крупной поставкой. Автоматизация рутинных проверок освобождает команду для тех задач, которые действительно требуют включенности и экспертизы. Например, создания продающих описаний, подбора фото, аналитики и стратегического планирования.

Ускорение вывода новых единиц товара. Валидация до публикации: меньше возвратов карточек на доработку, быстрее обновляется ассортимент на сайте. А значит, вы начнёте продавать новый товар быстрее, чем конкуренты.

Сценарий внедрения

Исходная ситуация. Клиент — онлайн-ритейлер, у которого в каталоге порядка 70 000 единиц товара от 10−15 поставщиков. Каталог хранится в PIM (программа для управления информацией о товарах), данные подгружаются из 1С. У каталога уже есть типичные проблемы: около 5% неполных карточек, 1−2% дублей, несколько сотен аномалий в категориях. Разбиваем внедрение на 3 этапа, которые займут от 4 до 6 недель (в зависимости от темпа работы контент-команды).

Этап 1. Аудит. Подключаем ИИ-решение для наведения порядка в каталогах через API и проводим полный анализ карточек товаров. Получаем детальный отчёт: дубли, пробелы в атрибутах, проблемные категории. Срок выполнения — от нескольких дней до двух недель.

Этап 2. Настройка правил. Настраиваем шаблоны нормализации для каждой товарной группы, обязательные атрибуты по категориям, пороги для дублей, логику валидации. Всё согласуется с топ-менеджментом и экспертами на стороне бизнеса.

Этап 3. Обработка. Часть исправлений происходит автоматически (нормализация, единицы измерения). Часть карточек встаёт в очередь на модерацию. Контент-команда работает с очередью, а не ищет проблемы вслепую: это помогает лучше распределять нагрузку внутри команды, видеть прогресс и прогнозировать срок завершения работ.

Результат через 2−3 месяца: заполненность карточек — 90%+, дубли сведены к минимуму, скорость обработки новых товаров выросла в 1,5−2 раза. Контент-команда занимается контентом, а не бесконечной ручной чисткой. Маркетинг получает корректные данные для аналитики и рекламных кампаний.

Когда чистка каталога нужна как можно быстрее

Если вы узнали вашу компанию хотя бы в одном пункте, ваш каталог явно нуждается в оптимизации. Вопрос лишь в том, какие инструменты для этого выбрать: ручную чистку или установку специального решения.
02
Объединение поставщиков или слияние каталогов (причиной могут быть сделки по слиянию или поглощению интернет-магазинов, маркетплейсов и сервисов; подключение дропшиппинг-партнёров; интеграция с дистрибьюторами). Каждый источник приносит данные в своём формате и со своим пониманием заполненной карточки, и уже спустя несколько недель в каталоге вырастет число проблемных карточек.
03
Вы запланировали миграцию на новую CMS или PIM. Это идеальный момент, чтобы не перенести старые проблемы в новую систему. Аудит и нормализация перед миграцией окупаются сразу.
Быстрый рост ассортимента. Процессы, работавшие в маленьком масштабе, ломаются при кратном увеличении числа товаров. То, что контент-менеджер делал вручную для 5 000 позиций, с 50 000 позиций превращается в бесконечный бэклог.
01
Выход компании на маркетплейсы. У каждой площадки свои требования к карточкам, и если внутренний каталог «грязный», подготовка фидов превращается в кропотливый ручной труд.
04
Масштабирование на новые регионы. Мультиязычность, разные единицы измерения, локальные стандарты наименований усложняют и без того непростую задачу.

Почему это задача разработки

ИИ-решение по наведению порядка в каталогах, которое мы предлагаем — это кастомная разработка, которая создаётся разработчиками Uplab с учётом особенностей конкретного бизнеса.

У каждой компании своя инфраструктура: 1С + Bitrix, SAP + кастомный фронт, PIM + headless CMS. Сервис контроля качества должен интегрироваться со всем стеком — это архитектурная задача, а не настройка плагина.

Каталожные данные часто содержат коммерчески чувствительную информацию. Поэтому нужен on-premise (разворачивание на серверах клиента) или частный облачный контур для их контроля.

Логика правил в описаниях товаров и организации каталога уникальна для каждого бизнеса и требует понимания как предметной области, так и архитектуры данных. Правила нормализации для сети стройматериалов и для fashion-ритейлера — два совершенно разных мира. Их нужно проектировать совместно с бизнесом, тестировать на реальных данных и итеративно дорабатывать.

Мы в Uplab проектируем и внедряем такие сервисы, чтобы они стали частью цифровой архитектуры компании. В разработку входит этап discovery, интеграция с ERP / 1С / PIM / CMS, проектирование правил совместно с бизнесом, развёртывание в нужном контуре безопасности, поддержка и развитие после запуска. Мы создаём процесс, который работает постоянно и масштабируется вместе с бизнесом.

Саммари

1. При росте ассортимента до десятков тысяч товаров каталог неизбежно «загрязняется»: появляются дубли, разнобой в названиях, неполные и некорректные атрибуты, ошибки в структуре категорий. Это напрямую снижает конверсию, искажает аналитику и бьёт по SEO.

2. Хаос возникает из-за человеческого фактора, умноженного на масштаб. Также причинами могут быть разные форматы данных от поставщиков, параллельная работа нескольких команд контента и отсутствие единого стандарта.

3. Ручная чистка каталога — это медленно и дорого. Эффективное решение — сервис контроля качества данных с применением LLM (искусственного интеллекта), который подключается к PIM, ERP, CMS или маркетплейсу по API и анализирует карточки поверх существующей инфраструктуры.

4. Сервис использует предобработку и нормализацию данных (единый формат названий, брендов, единиц измерения), а также интеллектуальный слой с эмбеддингами и LLM для поиска дублей и смыслового сопоставления карточек.

5. Ключевые функции решения: поиск и устранение дублей, нормализация наименований, выравнивание и обогащение атрибутов, контроль полноты карточек и корректности структуры категорий.

6. Бизнес-эффекты: рост конверсии за счёт корректных фильтров и отсутствия дублей, увеличение SEO-трафика благодаря чистым атрибутам, снижение операционных затрат и ускорение вывода новых товаров на сайт.

7. Внедрение сервиса для наведения порядка в каталогах — задача для опытного разработчика: требуется кастомная архитектура, интеграция с текущим стеком, учёт требований безопасности и особенностей каждого бизнеса.

Uplab предлагает услуги для бизнеса по внедрению ИИ-сервисов. Если вас заинтересовало решение, напишите нам через форму «Обсудить проект».

Расскажите
о вашем проекте