• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

Международная исследовательская сеть лабораторий по социальному предпринимательству расширилась до семи стран

В рамках Международной партнерской недели НИУ ВШЭ в Санкт‑Петербурге участники консорциума по социальному предпринимательству подписали расширенный манифест о сотрудничестве в сфере устойчивого развития, подвели итоги первого года работы и приняли в свои ряды кампус Лимы Университета Пиуры (Перу).

Образовательный марафон для учителей: как ФКН ВШЭ выстраивает диалог с педагогами

В рамках фестиваля «Дни компьютерных наук» ФКН НИУ ВШЭ на базе учебного центра «Вороново» прошел первый Образовательный марафон для учителей информатики и математики. Всего в мероприятии приняли участие 76 педагогов, представлявших разные регионы России, а также участники из Витебска (Беларусь) и Вьентьяна (Лаос).

Точка входа в ИИ: на ЦИПР обсудили влияние технологий на будущее

Участники ЦИПР-2026 обсудили, как офисные приложения могут стать точкой массового доступа к ИИ и снизить барьеры использования. Эксперты сошлись во мнении, что будущее — за адаптивными моделями и экосистемным подходом к корпоративным данным. В экспертных дискуссиях приняли участие представители НИУ ВШЭ.

Творческая работа как лекарство от выгорания

Творческая и доброжелательная атмосфера, новые методы в Международной лаборатории (впоследствии центре) социокультурных исследований привлекают молодых исследователей. За годы работы в Вышке они становятся учеными и преподавателями, известными в России и за рубежом. О своем пути в центре и в Вышке, исследованиях и роли наставников в научных успехах рассказали главный научный сотрудник ЦСКИ Зарина Лепшокова и ведущий научный сотрудник Екатерина Бушина.

«Входить в сферу робототехники сейчас — значит расти вместе с направлением»

Беспилотный транспорт, роботы-курьеры и умные колонки стремительно становятся частью нашей жизни. В 2026 году факультет компьютерных наук НИУ ВШЭ открывает новый бакалавриат«Проектирование интеллектуальных робототехнических систем» (ПИРС). Здесь будут готовить специалистов на стыке ИТ, искусственного интеллекта и робототехники. О том, как устроена учеба и почему выпускников программы «точно возьмут в будущее», рассказывает академический руководитель ПИРС Вадим Моргачёв. 

Технодень МИЭМ на Покровке: совместно исследуем инженерный код Вышки

26 мая в центральном атриуме корпуса на Покровском бульваре, 11, пройдет традиционный масштабный фестиваль инженерных разработок проектных команд Московского института электроники и математики (МИЭМ) ВШЭ. В программе — презентации лучших студенческих технологических проектов, стенды дружественных компаний и совместных мастерских, лекторий с участием практикующих инженеров, круглый стол о развитии инженерного образования и представление магистерских программ МИЭМ.

НИУ ВШЭ представит цифровые проекты на ЦИПР-2026

В Нижнем Новгороде стартовала крупнейшая конференция по цифровой трансформации базовых секторов промышленности ЦИПР-2026. В ее работе участвуют премьер-министр Михаил Мишустин, члены правительства, губернаторы, главы компаний, ученые. НИУ ВШЭ в этом году стал официальным партнером конференции. Проректор Елена Одоевская и другие представители университета примут участие в экспертных сессиях, подпишут ряд соглашений, а на стенде ВШЭ будут презентованы цифровые разработки.

ФКН ВШЭ расширяет линейку образовательных программ по ИИ для руководителей

Центр непрерывного образования факультета компьютерных наук НИУ ВШЭ (ЦНО ФКН ВШЭ) развивает уникальную линейку образовательных продуктов для топ-менеджмента, где передовая компьютерная наука соединяется с реальными задачами бизнеса. Цель этого направления — помогать развивать бизнес в России через внедрение технологий искусственного интеллекта.

В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского

Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.

НИУ ВШЭ собирает экспертов из ведущих университетов мира в Санкт-Петербурге

С 18 по 22 мая Высшая школа экономики в Санкт-Петербурге станет центром глобального академического диалога. Международная партнерская неделя объединит более 100 делегатов из 47 университетов и 20 стран мира.