Речь не о замене CMS, PIM или ERP. Всё остаётся на месте. Решение — дополнительный сервис, который встаёт поверх существующей инфраструктуры и берёт на себя контроль качества каталожных данных. Внутри сервиса используется несколько разных технологий для анализа карточек и выявления проблем, и одна из них — LLM (large language model, в переводе «боьшая языковая модель»), такая как ChatGPT, Claude, ГигаЧат или их аналоги.
Сервис подключается по API к вашей системе, будь то PIM, ERP, CMS или админка маркетплейса, и регулярно забирает данные карточек: названия, бренды, категории, характеристики, артикулы, штрихкоды, цены, ссылки на фото. Цель — собрать максимум «сигналов», по которым можно оценить качество и идентичность каждой позиции.
Дальше данные проходят предобработку: нормализация регистра, очистка от мусорных символов, приведение единиц измерения к единому стандарту, сопоставление брендов со справочником («Hewlett Packard» → «HP»). Из текстовых полей извлекаются ключевые параметры: модель, артикул, ёмкость, размер. На основе этого строится «канонический шаблон» карточки, который используется для дальнейшего анализа.
После нормализации включается интеллектуальный слой. Если мы ищем дубли в каталоге из десятков или сотен тысяч позиций, мы не сможем сравнить каждую карточку с каждой: для этого не хватит никаких вычислительных мощностей. Поэтому сначала работает быстрый фильтр: совпадение штрихкода, артикула, похожие названия внутри одного бренда. Это сужает пространство до десятков вероятных пар на карточку. Затем подключается «умное сравнение» — эмбеддинги для скоринга близости и LLM для разбора неоднозначных случаев, где описания «человеческие», характеристики заполнены частично или перемешаны языки.
Комментарии к статье
Комментарии: 0