Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В


Скачать 439.01 Kb.
НазваниеСоискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В
страница2/9
ТипВыпускная квалификационная работа
filling-form.ru > Туризм > Выпускная квалификационная работа
1   2   3   4   5   6   7   8   9

2. Основные методы извлечения ИС

2.1 Подходы к извлечению именованных сущностей


Именованные сущности — это объекты определенного типа, чаще всего составные, например, названия организаций, имена людей, даты, места, денежные единицы и.т.д. В зависимости от прикладных задач, может быть необходимо выделить в тексте, во-первых, имена собственные: имена лиц, топонимы, названия организаций, названия песен и исполнителей, названия товаров и брэндов; во-вторых, такие объекты как числа, даты, денежные единицы. Наибольшее распространение для широкого спектра задач получила выделение таких сущностей, как Персона (Per) – имена, фамилии, отчества людей; Локация (Loc) – топонимы; Организация (Org) – названия организаций, компаний, объединений; Разное (Misc) – в эту группу входят все прочие типы сущностей, если их более тщательное разделение не требуется для целей исследования.

Термин «именованная сущность» впервые был введен на шестой Конференции по Пониманию Сообщений (Message Understanding Conference, MUC-6) в 1996 году. MUC-6 и предшествующие ей Конференции по Пониманию Сообщений были посвящены задачам по извлечению информации: получение структурированной информации о компаниях и военных операциях из неструктурированных текстов, как, например, газетных статей и военных сводок.

При постановке задачи по извлечению информации было замечено, что необходимо различать такие информационные единицы, как персона, организация, локация и числовые выражения, включающие в себя время, даты, деньги и проценты. Идентификация в тексте данных сущностей была признана одной из важнейших подзадач извлечения информации и была названа извлечение именованных сущностей.Одной из первых работ в данной области принято считать статью Лизы Рау [Rau, 1991: 12]. Она предложила использовать эвристические подходы и набор правил для выделения названий компаний в тексте. В случае невозможности создания обучающей выборки, данный метод является единственным возможным для решения задачи извлечения именованных сущностей. С тех пор за 26 лет исследований было предложено огромное количество решений и стратегий по извлечению имен. Задача была представлена не секциях различных конференций: Message Understanding Conference (MUC), Conference on Natural Language Learning (CoNLL), International Conference on Language Resources and Evaluation2 (LERC).

Большая обзорная работа была проделана Дэвидом Надю и Сатоши Секином [Nadeau, Sekine, 2006: 8]. Авторы подробно рассмотрели методы, используемые в области выделения и классификации сущностей с 1991 по 2006 года. В данной же работе мы ограничимся основными моментами, необходимыми для общего понимания подходов к решению задачи, и постараемся дополнить упомянутый обзор.

В работе [Brykina al., 2013: 5] рассматривается словарный подход для разрешения омонимии в задаче извлечения именованных сущностей. Разработанная система получает на вход список сущностей, интересных пользователю. При помощи существующих онтологий, в которых в структурированном виде отражена информация об объектах и их отношениях, из текстов извлекаются заданные сущности. Задачей системы является извлечение всевозможных верных синонимов интересующих пользователя объектов. Как следствие, в работе рассматриваются различные случаи омонимии внутри типов именованных сущностей (Персон, Локаций и Организаций). Настраиваемый список позволяет пользователю регулировать предметную область извлекаемых сущностей под свои информационные запросы. Результатом работы системы является высокая оценка точности извлечения именованных сущностей.

Целью работы [Popov et al., 2004: 10] является адаптация для русского языка многоязыкового проекта MUSE [Maynard et al., 2003: 7], основанного на извлечении англоязычных именованных сущностей. Проект создан на основе правил с использованием справочников сущностей: крупнейшие компании, субъекты федерации, главные лица государства, известные персоны, распространенные имена мужчин и женщин, фамилии, названия месяцев.

В то время как первые исследования главным образом были основаны на созданных вручную правилах, последние работы используют методы машинного обучения с учителем. Они создают автоматически регулируемые системы, основанные на алгоритмах разметки данных, которые получают из обучающей коллекции документов.

Например, работа [Нехай, 2012: 3] использует метод опорных векторов в применении буквенных n-грамм и других статистик уровня символов и слов для задачи извлечения имён собственных.

В работе [Глазова, 2010: 2] для решения задачи извлечения имён собственных из текстов на английском языке используется метод максимальной энтропии, для которого характеристические функции представлены перечислением специальных предшествующих слов (mr., chairman и другие), наличием после словосочетания-кандидата глагола, частотой встречаемости слова в документах, присутствием аббревиатур и прочее.

В [Nigam et al., 1999: 9] для решения проблемы переобучения вводится использование априорного распределения модели (Гауссово распределение) для классификации текстов на естественном языке.

В работе [Антонова, Соловьев, 2013: 1] для анализа текстов на русском языке (задача распознавания именованных сущностей, определения частей речи и анализа отношения (положительного / отрицательного) к объекту) использован метод условных случайных полей. Как замечают авторы, данный метод позволяет решить проблему смещения метки (label bias problem), возникающую в методе максимальной энтропии.

Статья [Подобряев, 2013: 4] использует метод условных случайных полей для поиска упоминаний персон в новостных текстах. Помимо признаков уровня слова (прописные буквы и знаки препинания внутри слова-кандидата), используются также признаки контекста и онтологическая и фактографическая информации о слове-кандидате.

В работе [McCallum et al., 2003: 53] предложена новая категория систем для извлечения именованных сущностей, основанная на методе частичного обучения (semisupervised learning). Основной техникой данного метода является самообучение с использованием статистического бутстрэпа (bootstrapping), который включает в себя небольшую долю обучения с учителем, например, набор начальных данных для старта процесса обучения. Рассмотрим пример работы системы, направленной на извлечение названий болезней. В первую очередь, она получает небольшой список примеров таких названий. Затем система ищет предложения, которые содержат данные примеры, и пытается выявить некоторые общие признаки для известных примеров. После этого система пытается отыскать другие названия болезней, появляющиеся в аналогичных контекстах. Процесс обучения повторяется вновь для извлеченных сущностей, чтобы отыскать новые признаки искомых. По завершению нескольких итераций представляется список болезней и большое количество их контекстов.

В 1999 году был полностью разобран корпус текстов, содержащий около 90 000 именованных сущностей, в поисках шаблонов для такой модели [Collins, Singer, 1999: 6]. Примером такого шаблона может являться имя собственное со следующей за ней именной группой (например, «Mr. Cooper, a vice president of …»). Шаблоны хранятся в паре «написание слова - контекст», где «написание» включает в себя именованную сущность, а «контекст» - именную группу в его контексте. Для кандидатов, удовлетворяющих правилу «написание», определяется их тип именованной сущности, и их «контексты» накапливаются в рамках каждого типа. Затем наиболее частые контексты превращаются в набор контекстных правил. После выполнения этих действий контекстные правила могут быть использованы для нахождения новых именных сущностей, не включенных в начальный список сущностей.

Работа демонстрирует, что при одновременном обучении нескольким типам именованных сущностей происходит выделение так называемого «негативного примера» - класса, выступающего в роли один против всех, который сокращает чрезмерную генерацию шаблонов. Хотя данный метод требует минимального набора обучающих данных, что, несомненно, является большим преимуществом, основным недостатком обучения с использованием метода частичного обучения является чрезмерная генерация шаблонов, которая для точных и полных результатов требует валидации экспертом.

Победители соревнования по NER CoNLL 2003 [Florian et al. 2003: 59], получившие 88.76% F1, представили систему использующую комбинацию различных алгоритмов машинного обучения. В качестве признаков был использован их собственный, вручную составленный газетир, POS-теги, CHUNK-теги, суффиксы, префиксы и выход других NER-классификаторов, тренированных на внешних данных.

Нейронные сети для выделения именованных сущностей.

Коллобер и соавторы [Collobert et al., 2011: 41] представили комбинацию сверточной нейронной сети с условными случайными полями, получившую 89.59% F1 на корпусе CoNLL 2003. Их нейросетевая архитектура не зависит от задачи и используется как для NER, так и для частеречной разметки (part-of-speech tagging), поиска синтаксически связанных групп соседних слов (chunking), установления семантических ролей (semantic role labelling). Для задачи NER они использовали три типа признаков - векторное представление слова, капитализацию и небольшой газетир, включенный в соревнование CoNLL 2003.

[Chiu, Nichols, 2015: 60] представили комбинацию сверточных сетей, рекуррентных сетей и условных случайных полей. Они использовали такие же признаки как и в [41], дополнительный, вручную сформированный газетир на основе DBpedia и обучались на train+dev1 выборке CoNLL 2003. У них получилось 91.62% F1. Кроме корпуса CoNLL 2003 они тестировали архитектуру на более крупном англоязычном корпусе OntoNotes 5.0. На нем они получили state-of-the-art результат 86.28%.

[Yang et al. 2016: 61] представили глубокую иерархическую рекуррентную нейросетевую архитектуру с условными случайными полями для разметки последовательностей. Они использовали такие же признаки как в работе [41]. Кроме англоязычного корпуса CoNLL 2003, где они получили state-of-the-art 90.94% F1 при обучении только на обучающей выборке (train set), они тестировали работу нейросети на CoNLL 2002 Dutch NER и CoNLL 2003 Spanish NER. На этих корпусах они улучшили предыдущий state-of-the-art результат: 82.82% до 85.19% на CoNLL 2002 Dutch NER и 85.75% до 85.77% на CoNLL 2003 Spanish NER.

Современные работы используют векторное представление слов и условные случайные поля в своих моделях. Из сторонних признаков применяют только газетиры. В работе [Xu et al. 2014: 62] описано применение дополнительных признаков для слов (морфологических, синтаксических, семантических) для создания более совершенных векторных представлений. Такие векторные представления помогают повысить оценку качества в прикладных задачах [62].

Что касается методов, применяемых для извлечения ИС из текстов микроблогов, Леон Держински в работе [Derczynski et al. 2014: 42] дает достаточно развернутый обзор современных систем и их результатов на корпусе из 4264 твитов объемом в 29089 токенов на английском языке, созданном в рамках конкурса Making Sense of Microposts 2013 Concept Extraction Challenge.

В таблице 1 представлены основные характеристики некоторых систем, проанализированных в исследовании Держински, в таблице 2 – продемонстрированные ими результаты.
Таблица 1. Основные характеристики систем, проанализированных в работе [42]

Характеристика

ANNIE

Stanford NER

Ritter et al.

Alchemy API

Lupedia

Методы

Газеттиры и конечные автоматы

CRF

CRF

Машинное обучение

Газеттиры и правила

Языки

EN, FR, DE, RU, CN, RO, HI

EN

EN

EN, FR, DE, IT, PT, RU, ES, SV

EN, FR, IT

Предметная область/жанр

новости

новости

Твиттер

Универсально

Универсально

Число типов ИС

7

4,3 или 7

3 или 10

324

319

Схема разметки

MUC

CoNLL, ACE

CoNLL, ACE

Alchemy

DBpedia

Тип системы

Java (модуль Gate)

Java

Python

Веб-сервис

Веб-сервис

Лицензия

GPLv3

GPLv2

GPLv3

Некоммерческая

Неизвестно

Возможность адаптации

Да

Да

Частично

Нет

Нет

 

Dbpedia Spotlight

TextRazor

Zemanta

YODIE

NERD-ML

Методы

Газеттиры и меры сходства

Машинное обучение

Машинное обучение

Меры сходства

Метод k ближайших соседей и Наивный Байес

Языки

EN

EN, NL, FR, DE, IT, PL, PT, RU, ES, SV

EN

EN

EN

Предметная область/жанр

Универсально

Универсально

Универсально

Твиттер

Твиттер

Число типов ИС

320

1779

81

1779

4

Схема разметки

Dbpedia, Freebase, Schema.org

Dbpedia, Freebase

Freebase

DBpedia

NERD

Тип системы

Веб-сервис

Веб-сервис

Веб-сервис

Java (модуль Gate)

Java, Python, Perl, bash

Лицензия

Apache Licence 2.0

Некоммерческая

Некоммерческая

 

GPLv3

Возможность адаптации

Да

Нет

Нет

Да

Частично


Таблица 2. Результаты сравниваемых систем

Другие авторы, не вошедшие в данный обзор, предлагают смешанный подход к решению задачи выделения именованных сущностей в микроблогах. В частности, Сяохуа Лиу с соавторами [Xiaohua et al. 2011: 29] предлагают гибридный подход, сочетающий метод k ближайших соседей (для предварительной разметки) с моделью условных случайных полей. Такая комбинация методов в сочетании с использованием списков-газеттиров позволяет авторам получить F-меру 80,2% на англоязычных тестах.

1   2   3   4   5   6   7   8   9

Похожие:

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:...
Образовательная программа«Русский язык и русская культура в аспекте русского языка как иностранного»

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:...
Охватывают также целые классы слов, единых по своей категориальной сущности (выражающие, например, значение предметности, признака,...

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Андрющенко Е. В. Рецензент:...
Синонимический ряд прилагательных, обозначающих маленький размер, в текстах газетно-публицистического стиля

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный д ф. н., проф. Любимова Н. А. Рецензент:...
Вариативность интонационного оформления эмоции удивление в речи носителей современного русского языка

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconБ. В. Меняев Калмыцкий научный центр ран, младший научный сотрудник...
Калмыцкий научный центр ран, младший научный сотрудник отдела монгольской филологии (358000, г. Элиста, ул им И. К. Илишкина, д....

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра филологии Научный к ф. н., доцент И. Э. Васильева Рецензент:...
Охватывает промежуток времени в четыре дня (14-17 августа), вторая часть — два неполных дня (18 августа и часть 19 августа), события...

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПо направлению 41. 03. 05 «Международные отношения» Научный руководитель...
Совершенствование системы взаимодействия россии и германии по вопросам терроризма

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПо направлению 41. 03. 05 «Международные отношения» Научный руководитель...
Соотношение спортивной дипломатии с инструментами внешней политики государства 21

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПрограмма V региональной молодёжной конференции «Мой выбор наука!»
Бюро секции: Бородулина И. Д., к с. Х н., доц.; Шарлаева Е. А., к б н., доц.; Смирнов С. В., к б н., доц.; Балабова Д. В., асс

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconОтраслевой дорожный методический документ
Разработан обществом с ограниченной ответственностью «прессион групп менеджмент городское Пространство», специалистами докт техн...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск