T-ECD (T-Tech E-commerce Cross-Domain Dataset)

Продукт
Разработчики: Т-Технологии (ранее ТКС Холдинг)
Дата премьеры системы: 2025/09/26
Отрасли: Интернет-сервисы,  Торговля
Технологии: Big Data

Основные статьи: Большие данные (Big Data)

2025: Публикация датасета T-ECD в открытом доступе

Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ T-ECD (T-Tech E-commerce Cross-Domain Dataset) - один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли. T-ECD собран на основе анонимизированных действий 44 миллионов уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы Т-Банка, 30 миллионов товаров и более 135 миллиардов взаимодействий, сообщили представители «Т-Технологий» 26 сентября 2025 года.

T-ECD

По информации компании, датасет содержит информацию по 44 миллионам уникальных пользователей, 30 миллионам товаров и более 135 миллиардам взаимодействий. Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.

Отличительные возможности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонимизированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров, история активаций и использования специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.    Данные собраны с глубиной  от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.Роман Морозов, Capital Group: Благодаря 1IDM мы точно знаем, кто имеет доступ к каждой корпоративной системе 6.3 т

Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем – от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые "impressions"). При этом для бизнеса важнее знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник –  поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.

T-ECD решает одну из главных проблем сообщества – большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.

С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять различные алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным, и повышает доверие к результатам экспериментов.

«
Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Датасет T-ECD может стать одним из бенчмарков и принести ценность ML-сообществу для оптимизации качества персонализации и клиентского опыта реальных пользователей.
рассказала Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке
»

Датасet T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (625)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  Департамент информационных технологий Москвы (ДИТ) (2)
  Сбер Бизнес Софт (2)
  Marketing Logic (Маркетинг Лоджик) (2)
  Другие (62)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Наносемантика (Nanosemantics Lab) (2)
  Сбербанк (2)
  Синимекс (Cinimex) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Цифровые технологии и платформы (ЦТиП) (3)
  Ростелеком (3)
  Цифра (2)
  Другие (93)

  Институт искусственного интеллекта (ИИИ) МФТИ (1)
  Лаборатория измерительных систем (1)
  НКЦ ОТИС Лаборатория исследований и разработок (IPChain Lab) (1)
  ОБИТ (1)
  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Другие (15)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (326, 172)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  Цифра (1, 2)
  Prime Finance (Прайм Финанс) (1, 2)
  Другие (18, 20)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  Retail Rocket (Ритейл Рокет) (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  Luxms (1, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Цифра (1, 2)
  Другие (11, 12)

  CleverDATA (Клевер Дата) (1, 1)
  Триафлай (1, 1)
  НКЦ ОТИС Лаборатория исследований и разработок (IPChain Lab) (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 14
  ZIIoT Платформа для работы с промышленными данными - 12
  Luxms BI - 11
  Другие 165

  Visary BI Платформа бизнес-аналитики - 4
  Росатом Цифровое теплоснабжение - 2
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Prime Finance: ФинОфис - 2
  Другие 19

  Visary BI Платформа бизнес-аналитики - 5
  Arenadata Catalog - 3
  Luxms BI - 3
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Arenadata Catalog - 2
  Data Ocean Nova Платформа данных - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 11

  CleverData CDP - 1
  Триафлай BI-платформа - 1
  IPChain Lab: SonicScout Pro - 1
  Другие 0