Проект «Текстометр»
Иностранные студенты с удовольствием читают современные тексты на русском языке. Исследования подтверждают, что тексты, интересные учащимся, повышают понимание и уровень мотивации учеников.
Подходящие по уровню учебные материалы способствуют развитию языковых навыков, тогда как слишком простые могут вызвать скуку, а чересчур сложные — снизить мотивацию. Поэтому правильный подбор аутентичных материалов с учетом уровня владения языком — очень важная, но трудо- затратная задача. Чтобы упростить ее решение, используются технологии автоматической обработки естественного языка.
Один из онлайн-сервисов для анализа текстов русского языка — проект «Тексто- метр», созданный в Институте Пушкина. Это автоматический инструмент, который позволяет оценить любой текст в соответствии с уровнями владения русским языком.
Машинное обучение — очень мощный инструмент, но он эффективен только при условии качественных входных обучающих данных. Поэтому особое внимание создатели сервиса уделяли сбору информации: проводили опросы студентов и преподавателей в реальных учебных аудиториях, какие именно характеристики текста делают его сложным. Студенты принимали участие в эксперименте, читали тексты, выделяли все непонятные слова и конструкции. В процессе проверки качества работы модели и ее настройки были применены методы анкетирования и тестирования.
Для создания математической модели определения сложности текста был собран корпус из 800 учебных текстов. В итоге создан интерфейс, позволяющий любому пользователю получить результаты анализа. В окно ввода можно вставить любой текст на русском языке до 10 000 слов и получить значение уровня сложности для введенного текста. Сложность определяется по стандартной общеевропейской шкале владения иностранным языком CEFR.
Помимо уровня сложности «Текстометр» предоставляет информацию, полезную при подготовке к занятию: списки ключевых слов и слов — наилучших кандидатов в словарик к данному тексту, статистику по покрытию текста лексическими минимумами, частотный словарь текста, прогноз времени, необходимого для разных видов чтения текста, а также грамматические темы, которые можно отработать на данном тексте.