Хабрахабр

[Перевод] EXAM — State-of-the-art метод классификации текста

text classification

Классификация текста — одна из наиболее распространенных задач в NLP и обучении с учителем, когда датасет содержит текстовые документы, а метки используются для тренировки текстового классификатора.
С точки зрения NLP, задача классификация текста решается путем обучения представления на уровне слов с использованием встраивания слов и последующего обучения представления на уровне текста, используемого в качестве функции для классификации.

Тип методов, основанных на кодировании, игнорирует мелкие детали и ключи для классификации (поскольку общее представление на уровне текста изучается путем сжатия представлений на уровне слов).

EXAM Text classification neural network
Методы для классификации текста с сопоставлением на уровне текста, основанные на кодировании

EXAM — новый метод классификации текста

Исследователи из Университета Шаньдун и Национального университета Сингапура предложили новую модель классификации текста, которая включает сигналы сопоставления на уровне слов в задачу классификации текста. В их методе используется механизм взаимодействия для введения в процесс классификации детальных подсказок на уровне слов.

Чтобы решить проблему включения более точных сигналов сопоставления на уровне слов, исследователи предложили явно вычислить оценки соответствия между словами и классами.

Каждая запись в этой матрице — оценка соответствия между словом и конкретным классом. Основная идея состоит в том, чтобы вычислить матрицу взаимодействия из представления на уровне слов, которая будет нести соответствующие ключи на уровне слов.

Предлагаемая структура для классификации текста, названная EXAM — EXplicit interAction Model (GitHub), содержит три основных компонента:

  • кодировщик на уровне слов,
  • слой взаимодействия и
  • слой агрегации.

Эта трехуровневая архитектура позволяет кодировать и классифицировать текст, используя как мелкие, так и обобщенные сигналы и подсказки. Вся архитектура приведена на изображении ниже.

EXAM
Архитектура EXAM

Авторы используют соверменный метод в качестве кодировщика на уровне слов, и в своей работе они подробно описывают два других компонента своей архитектуры: уровень взаимодействия и агрегации. В прошлом, кодировщики на уровне слов широко исследовались в сообществе NLP, появились очень мощные кодировщики.

Исследователи используют обучаемую матрицу представлений для кодирования каждого из классов, чтобы позже иметь возможность вычислять оценки взаимодействия между классами. Слой взаимодействия, основной вклад и новизна в предлагаемом методе основаны на хорошо известном механизме взаимодействия. Более сложные функции не рассматривались из-за увеличения сложности вычислений. Окончательные оценки проставляются с использованием точечного произведения в качестве функции взаимодействия между целевым словом и каждым классом.

exam text classification
Визуализация работы слоя

Они также упоминают, что здесь можно использовать более сложный уровень агрегации, включающий CNN или LSTM. Наконец, в качестве слоя агрегации они используют простой полносвязный двухслойный MLP. Кросс-энтропия используется как функция потерь для оптимизации. MLP используется для вычисления окончательных классификационных логитов с использованием матрицы взаимодействия и кодировок на уровне слов.

Оценки

Чтобы оценить предложенную фреймворк для классификации текста, исследователи провели обширные эксперименты как в мультиклассовых, так и в мультитеговых условиях. Они показывают, что их метод значительно превосходит современные соответствующие современные методы.

EXAM statistics NLP
Статистика используемых датасетов для оценки

Для оценки они устанавливают три различных базовых типа моделей:

  1. Модели, основанные на разработке признаков;
  2. Глубокие модели на основе символов;
  3. Глубокие модели на основе слов.

Авторы использовали общедоступные эталонные наборы данных (Zhang, Zhao и LeCun 2015) для оценки предложенного метода. Всего имеется шесть наборов классификационных текстовых данных, соответствующих задачам анализа настроений, классификации новостей, вопросов-ответов и извлечения онтологий соответственно. В статье они показывают, что EXAM достигает наилучшей производительности среди трех наборов данных: AG, Yah. А. и ДАД. Оценку и сравнение с другими методами можно увидеть в таблицах ниже.

Test Set Accuracy [%] on multi-class document classification tasks and comparison with other methods

Performance comparison between EXAM and baselines.

Выводы

Эта работа является важным вкладом в области обработки естественного языка (NLP). Это первая работа, которая вводит более точные подсказки соответствия на уровне слов в классификацию текста в модели глубоких нейронных сетей. Предложенная модель обеспечивает state-of-the-art показатели для нескольких наборов данных.

Перевод — Станислав Литвинов

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть