Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Скачать 0.71 Mb.

Название	Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница	6/12
Тип	Образовательная программа

filling-form.ru > Туризм > Образовательная программа

1 2 3 4 5 6 7 8 9 ... 12

Автоматическое выделение ключевых слов в документах

Существует немало методов автоматического извлечения ключевых слов как общего профиля, так и терминов, относящихся к определенной предметной области. Сравнение общих подходов можно найти в работе [Мирзагитова, 2014]. Вслед за большинством исследователей, под ключевыми словами мы будем понимать минимальный набор слов, наилучшим образом представляющий документ или коллекцию документов.

Спектр использования данной задачи в лингвистике чрезвычайно широк. Ключевые слова могут представлять документ для обеспечения быстрого поиска, для сортировки или группировки документов по смыслу или для установления тематической направленности. В узком смысле ключевые слова могут пониматься как термины, например, при автоматическом анализе научных работ. Подобным образом ключевые слова могут использоваться в новостных статьях для нахождения новостей близкой тематики.

Ввиду широкой трактовки самого понятия ключевых слов ему нельзя дать однозначного определения, которое не опиралось бы на интуитивное представление носителей языка. Это приводит к определённой проблеме при анализе качества методов. Как правило, про некоторые слова однозначно можно сказать, что они являются ключевыми, про другие – наоборот, что они однозначно ими не являются. Но существенная часть слов находится посередине и выбор их в качестве ключевых является в известном смысле субъективным и зависит от поставленной цели. В некотором случае, при работе над конкретной задачей исследователь может сузить границы неопределённости и подобрать удачный метод.

Понятие ключевого слова

Ещё в 40-е годы прошлого века были первые попытки описать ключевые слова с точки зрения психолингвистики [Соколов 1941]. В современной науке есть несколько вариантов трактовки этого понятия.

В статьях [Камшилова 2013] и [Сахарный 1988] ключевые слова рассматриваются как разновидность «текста-примитива». С этой точки зрения набор ключевых слов:

достаточны для восстановления исходного текста,
используют наименьший возможный набор слов.

Для таких списков основополагающими являются не формальные (грамматические), а функциональные признаки (восприятие человеком).

Другая точка зрения постулирует, что максимизацию тематической составляющей и минимизацию связности между элементами.

В статье [Виноградова, Иванов 2015] отражены следующие представления о ключевых словах:

совокупность ключевых слов должна представлять текст [Камшилова 2013];
слова и конструкции, отражающие содержание документа [Шереметьева 2015];
индексируемые слова, по которым может вестись поиск документа [Абрамов 2011];
важные термины в документе, которые могут дать высокоуровневое описание содержания документа для читателя [Гринева 2009];
неслучайно встречающиеся в документах слова и словосочетания, важные для рассматриваемой выборки (выдачи) в рамках общего массива документов [Большакова и др. 2011];
слова, наиболее важные для решения поставленных в инструкции задач [Большакова и др. 2011].

Первые подходы, основанные на частотности слов, были предложены еще в середине прошлого столетия [Luhn 1957], с тех пор появилось немало новых алгоритмов, которые можно разделить на три категории: статистические, лингвистические и гибридные. Общий принцип всех этих методов можно сформулировать так:

Предварительная обработка текста. Исключение элементов маркировки, приведение слова к словарной форме, удаление стоп-слов, не несущих смысловой нагрузки (предлоги, союзы, частицы, местоимения, междометия и т. д.).
Отбор кандидатов в ключевые слова.
Фильтрация кандидатов в ключевые слова (анализ значимых признаков для каждого кандидата).
Отбор ключевых слов из числа кандидатов.

Первый этап, как правило, не отличается для различных методов и имеет немало стандартных реализаций. Наиболее существенные различия возникают на третьем этапе.

Лингвистический подход

В прошлом столетии лингвистические методы были широко распространены [Солтон, 1979]. Как правило, они используют методы синтаксического и семантического анализа.

Это может быть описание правил построения текстов, разметка, словари терминов, антологии и прочее. Чаще всего такие методы недоступны для быстрой реализации, потому что требуют длительной подготовки и большого числа специалистов, ведь создание антологий – очень трудоёмкий процесс. Отдельные проблемы могут возникнуть из-за авторских прав при использовании готовых словарей. Как правило, лингвистические методы не универсальны и разрабатываются под конкретную задачу. Подобная технология использовалась при разработке автоматической информационной системы аудита нормативных документов [Баканова 2014].

Оригинальный способ обойти указанные проблемы был предложен в статье [Гринева 2009], в которой антология автоматически строится на основе корпуса статей Википедии. Тематический охват такой антологии был достаточно широк для охвата существенной части корпуса, при этом для работы системы не требовалось дополнительного обучения – термины выделяются на любом, сколь угодно маленьком корпусе, а внушительная система перекрёстных ссылок позволила достаточно неплохо оценить семантическую близость потенциальных ключевых слов.

В [Ефремова 2010] описывается способ извлечения с помощью лексико-синтаксических шаблонов, описывающих типичные терминологические конструкции. Такие системы особенно хорошо работают в текстах, имеющих жёсткую синтаксическую структуру, например, в научных статьях.

Статистические методы

Статистические методы обладают широким спектром применения и, как правило, гораздо проще и дешевле в реализации, чем методы чисто лингвистические. С другой стороны, отсутствие лингвистической обработки приводит к тому, что полученные результаты нередко плохо согласованны, содержат шум и требуют дальнейшей обработки для практического использования.

Как правило, в статистических методах учитывается относительная частота встречаемости слов в документе. Слово, с одной стороны характерное для данной группы документов, с другой не характерное для всего корпуса, с большой вероятностью является тематическим. Традиционная статистика, оценивающая эту величину TF-IDF. TF (term frequency – частота слова) – отношение числа вхождения слова к общему количеству слов в документе:

Она характеризует, насколько данное слово является значимым для документа.

IDF (inverse document frequency – обратная частота документов) – инверсия частоты документов, содержащих данное слово:

Эта метрика уменьшает вес частотных слов языка, которые характерны для любых текстов коллекции.

Результирующая статистика является произведением TF и IDF, тем самым учитывает оба фактора [Маннинг 2011].

Сейчас появилось немало модификаций данного метода [Рубцова 2014].

В нашей работе составление тематического словаря производится оригинальным методом, который учитывает специфическую природу новостных документов.

Гибридные методы

Часто для выделения ключевых слов используют комбинированный подход, пытаясь свести тем самым недостатки отдельных методов к нулю. В сущности, гибридный метод бывает двух типов, условно говоря, стати-лингвический и лингво-статистический.

В первом случае в качестве постобработки ключевых слов используют статистическую информацию об их встречаемости в корпусе, например, для сокращения перечня ключевых слов или для сортировки списка. Во втором случае используется лингвистическая обработка – морфо-синтаксические шаблоны, приведение к нормальному виду и прочее. В строгом смысле гибридных методов, в которых на равных участвует оба подхода, почти нет. Это обусловлено тем, что серьёзный лингвистический аппарат, как правило, сопряжён с высокими затратами на его создание, при этом существенно эффективность может и не повыситься. Поэтому, как правило, используются стандартные парсеры на этапе пред- и постобработки текста. Примеры таких подходов – алгоритмы C-Value, KEA, RAKE и др.

Мы тоже будем использовать простейший морфоанализатор, находящийся в открытом доступе, для повышения эффективности алгоритма.

Известны и другие подходы к выделению ключевых слов, например, интересные идеи предлагаются в работе [Лукашевич 2011], в которой используется спектральный анализ и всё более популярное вейвлет-преобразование для представления текстов. Множество идей основано не только на статистических, но и на алгебраических и графовых представлениях, среди которых заметен алгоритм TextRank, ранжирующий слова методом, аналогичным ранжированию web-страниц – путем запуска случайного блуждания и пересчета весов.