Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В


Скачать 439.01 Kb.
НазваниеСоискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В
страница4/9
ТипВыпускная квалификационная работа
filling-form.ru > Туризм > Выпускная квалификационная работа
1   2   3   4   5   6   7   8   9

3. Материал исследования - корпусы текстов

3.1 Корпус текстов микроблогов


Корпус текстов социальной сети Твиттер собран с помощью API Twitter в формате .json. Корпус насчитывает 8 600 записей на русском языке за период с начала 2014 года по январь 2017 года объемом 136 070 словоупотреблений. Для отбора записей и отсеивания записей, не содержащих именованных сущностей, критерии поиска включали распространенные имена, фамилии известных людей, а также наименования организаций из перечня, сформированного на основе выборки из новостных текстов, проанализированной и размеченной вручную.

Для разметки границ именованных сущностей широко распространена схема IOB: метка B означает начало сущности; I – расположение внутри неё; меткой O отмечаются токены, не входящие в именованную сущность.



Рисунок 1. Схема аннотации IOB
Разметка корпуса проведена вручную автором и вторым аннотатором (взрослым носителем русского языка, имеющим филологическое образование).

Для оценки практических результатов работы из корпуса были удалены записи, при разметке которых наблюдались разногласия между аннотаторами (1141 запись из 8600).

Пример аннотации:

Газеты [Org B] "Вечерний [Org I] Минск" [Org I], "Минский [Org B] Курьер" [Org I] прислали [O] КП [O]. Предлагают [O] разместить [O] у [O] них [O] рекламу [O] инет-магазина [O] )) Думаю [O], конверсия [O] зашкалит[O]

3.2. Корпус новостных текстов



В качестве фонового корпуса был использован корпус новостных текстов, подготовленный проектом OpenCorpora к соревнованию FactRuEval в рамках конференции Диалог 2016.

Предложенный в рамках конференции «Диалог» корпус состоит из 122 новостных текстов. Каждому тексту соответствует 4 файла:

1. Файл с токенами – деление текста на токены и предложения. Каждая строка содержит идентификационный номер - id токена, позицию его начала, длину и текст.

2. Файл со спанами – первый уровень разметки. Кроме всего прочего включает в себя id спана и id входящих токенов.

3. Файл с объектами – упоминание объектов. Включает id объекта и id входящих в него спанов.

4. Файл кореференций и идентификаций - отношения между несколькими идентифицированными объектами.

Рассмотрим подробнее первые 3 из них, которые были использованы в работе. Примеры файлов приведены ниже. На рисунке 2 показан файл токенов, рисунок 3 иллюстрирует пример разметки файла со спанами, рисунок 4 представляет файл с объектами данной демонстрационной коллекции.


Рисунок 2. Фрагмент файла токенов.


Рисунок 3. Пример разметки файла со спанами


Рисунок 4. Фрагмент файла с объектами
Для составления выборки именованных сущностей совершается последовательный обход представленных файлов:

1) Из файла с токенами было получено разбиение текста на предложения (пустая строка в файле) и список всех токенов с их идентификационными номерами.

2) Из файла объектов извлекаются типы именованных сущностей и id входящих в их состав спанов.

3) В файле спанов находились спаны по идентификационным номерам, полученным на предыдущем шаге. Затем для каждой именованной сущности получался набор id токенов, входящих в её состав.

4) Происходит разметка полученного на первом шаге списка токенов, разбитого на предложения, по схеме IOB.

4. Практическое применение инструментов выделения именованных сущностей



Анализ методов, применяемых для выделения именованных сущностей показал, что с данной задачей хорошо справляются как методы, основанные на правилах и словарях, так и различные методы машинного обучения. В то же время было показано, что особенности предметной области затрудняют применение обеих групп методов и снижают результативность традиционных систем, настроенных на обработку научных и публицистических текстов.

Состояние разработанности проблемы, обилие готовых систем с открытым кодом, адаптированных для тех или иных типов текстов и сущностей заставило искать решение задачи среди существующих инструментов, любой из которых, несомненно, требовал доработки и адаптации с учетом конкретного материала.

Исходя из вышесказанного, для дальнейшей доработки и тестирования были выбраны 2 инструмента – Gate и Томита-парсер. Обе системы работают с правилами-грамматиками и словарями. Особенностью Gate, послужившей основой для её выбора является то, что эта система хорошо зарекомендовала себя при обработке текстов микроблогов на русском языке. Томита-парсер же был выбран в силу относительной простоты работы с ним и адаптированности для текстов на русском языке.

1   2   3   4   5   6   7   8   9

Похожие:

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:...
Образовательная программа«Русский язык и русская культура в аспекте русского языка как иностранного»

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:...
Охватывают также целые классы слов, единых по своей категориальной сущности (выражающие, например, значение предметности, признака,...

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный к ф. н., доц. Андрющенко Е. В. Рецензент:...
Синонимический ряд прилагательных, обозначающих маленький размер, в текстах газетно-публицистического стиля

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра лингвистики Научный д ф. н., проф. Любимова Н. А. Рецензент:...
Вариативность интонационного оформления эмоции удивление в речи носителей современного русского языка

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconБ. В. Меняев Калмыцкий научный центр ран, младший научный сотрудник...
Калмыцкий научный центр ран, младший научный сотрудник отдела монгольской филологии (358000, г. Элиста, ул им И. К. Илишкина, д....

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconМагистра филологии Научный к ф. н., доцент И. Э. Васильева Рецензент:...
Охватывает промежуток времени в четыре дня (14-17 августа), вторая часть — два неполных дня (18 августа и часть 19 августа), события...

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПо направлению 41. 03. 05 «Международные отношения» Научный руководитель...
Совершенствование системы взаимодействия россии и германии по вопросам терроризма

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПо направлению 41. 03. 05 «Международные отношения» Научный руководитель...
Соотношение спортивной дипломатии с инструментами внешней политики государства 21

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconПрограмма V региональной молодёжной конференции «Мой выбор наука!»
Бюро секции: Бородулина И. Д., к с. Х н., доц.; Шарлаева Е. А., к б н., доц.; Смирнов С. В., к б н., доц.; Балабова Д. В., асс

Соискателя на степень магистра филологии Крастынь Валерии Валерьевны Научный руководитель к ф. н., доц. Хохлова М. В iconОтраслевой дорожный методический документ
Разработан обществом с ограниченной ответственностью «прессион групп менеджмент городское Пространство», специалистами докт техн...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск