Ученые представили новый метод для работы с несбалансированными данными

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.
Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.
Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.
Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях, когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).
Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.
Андрей Савченко
«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.
Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.
Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.
Вам также может быть интересно:
Ученые НИУ ВШЭ научились сжимать большие языковые модели без потерь в качестве
Исследователи из Института искусственного интеллекта и цифровых наук (Институт ИИиЦН) ФКН НИУ ВШЭ разработали новый метод сжатия больших языковых моделей, таких как GPT и LLaMA, который позволяет уменьшить их объем на 25–36% без дополнительного обучения и значительной потери в точности. Это первый подход, который использует математические преобразования — вращения весов модели, — чтобы сделать модели более удобными для сжатия с помощью структурированных матриц. Результаты исследования опубликованы в ACL Findings 2025. Код метода доступен на GitHub.
В Вышке продолжается набор на программу «ИИ-лидеры: бизнес-лаборатория для руководителей»
26 февраля на факультете компьютерных наук стартует 6-месячное очное обучение. О программе рассказывает ее автор и руководитель Евгений Соколов, научный руководитель Центра непрерывного образования ФКН.
Ученые ВШЭ разработали DeepGQ — Google Maps для G-квадруплексов
Исследователи из Центра искусственного интеллекта ФКН НИУ ВШЭ разработали ИИ-модель, которая открывает новые возможности для диагностики и лечения тяжелых заболеваний, включая рак мозга и нейродегенеративные нарушения. Ученые применили искусственный интеллект для изучения G-квадруплексов — структур, которые оказывают значительное влияние на работу наших клеток и развитие различных органов и тканей. Статья с результатами исследования опубликована в журнале Scientific Reports.
ИИ в науке: страхи и чаяния российских ученых
Искусственный интеллект стал привычным инструментом в ряде стран, однако в российской науке его внедрение пока остается фрагментарным. К такому выводу пришли авторы первого в стране комплексного исследования использования технологий ИИ в научной деятельности. Они провели интервью с ведущими российскими учеными и расспросили их о сферах применения, возможностях и барьерах технологии.
«Выигрывают те, кто умеет быстро адаптироваться и внедрять инновации»
НИУ ВШЭ запускает образовательную программу «ИИ-лидеры: бизнес-лаборатория для руководителей». Обучение рассчитано на 6 месяцев в очном формате, что позволяет глубоко погрузиться в материал и обменяться опытом с коллегами. Программа стартует в феврале 2026 года.
ВШЭ ищет новые идеи для ИИ-агентов: стартовал конкурс инициатив
Высшая школа экономики приглашает исследователей и преподавателей представить концепции новых цифровых продуктов на базе искусственного интеллекта. Лучшие проекты получат экспертную и технологическую поддержку. Заявки принимаются до 19 декабря.
Экономисты ВШЭ выяснили, что ИИ слишком хорошо думает о людях
Ученые из НИУ ВШЭ выяснили, что современные ИИ-модели, включая ChatGPT и Claude, в играх на стратегическое мышление вроде «конкурса красоты» Кейнса переоценивают уровень рациональности своих оппонентов, будь то студенты-первокурсники или опытные ученые. Модели стараются предсказать поведение людей, но в итоге играют «слишком умно» и проигрывают, потому что приписывают людям больше логики, чем те демонстрируют на деле. Исследование опубликовано в Journal of Economic Behavior & Organization.
Вышка Онлайн представила документальный фильм о влиянии ИИ на нашу жизнь
27 ноября на всех онлайн-площадках Вышки Онлайн состоялась премьера документального фильма «После промпта» от онлайн-кампуса НИУ ВШЭ. Его авторы исследуют, как искусственный интеллект меняет работу, карьерные траектории и профессиональное развитие специалистов. Это первый видеопроект, полностью реализованный командой онлайн-кампуса НИУ ВШЭ совместно с приглашенным режиссером Ольгой Науменко.
Технологический прорыв: исследования Института ИИ и цифровых наук отмечены на AI Journey 2025
Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭ в рамках Международной конференции AI Journey 2025 представили передовые ИИ-исследования с высоким уровнем научной новизны и практической применимости. Научное решение заведующего Научно-учебной лабораторией матричных и тензорных методов в машинном обучении Максима Рахубы получило премию «Лидеры ИИ — 2025». Заведующий Центром глубинного обучения и байесовских методов Айбек Аланов — среди финалистов премии.
«ИИ позволяет людям без опыта разработки прототипировать решения, упрощающие их деятельность»
28 октября завершилось обучение в рамках третьего потока программы «Искусственный интеллект в социальной сфере». Слушатели представили и защитили свои проекты. В рамках освоенного курса преподаватели помогли им найти перспективные области применения ИИ для эффективной работы в социальной сфере и обучили практическому применению инструментов ИИ.


