4.1. Система GATE GATE (General Architecture for Text Engineering) – модульная система обработки текста для извлечения информации, основанная на правилах, разработанная университетом Шеффилда.
Для проведения эксперимента была использована модифицированная и дополненная версия системы Gate, предложенная Калиной Бончевой и Леоном Держински в 2013 году – TwitIE [Bontcheva et al. 2013: 33].
На рисунке 5 представлена схема работы системы Gate с плагином Twitie.
Рисунок 5. Схема работы Twitie Этапы работы:
При работе с системой Gateкорпус текстов последовательно проходит несколько модулей.
1. Модуль определения языка работает на основе инструмента TextCat (версия, адаптированная для твиттера – [Carter et al., 2013: 63]), который в данный момент поддерживает 5 языков, в их числе нет русского. Для обеспечения работы данного модуля он был обучен на половине корпуса.
2. Токенизатор: вместо токенизатора по умолчанию (ANNIE English Tokenizer) использован GATE Unicode Tokeniser. При этом аббревиатуры и URL считаются одним токеном. Хештег и следующее за ним упоминание пользователя делятся на 2 токена. Сохраняется паттерн капитализации.
3. Газеттиры. Списки имен, названий стран, континентов, городов, организаций на русском языке были предоставлены плагином Russian plugin и дополнены вручную. Списки содержат все падежные формы каждого входящего в них слова. В списки имен помимо полных имен добавлены распространенные сокращенные варианты (например, Александр – Саня, Саша, Сашка, Шурик). Список названий организаций насчитывает 21040 элементов, список имен – 1566, список геолокаций (страны, города, континенты) – 2065 элементов. Помимо данных списков, составлены газеттиры слов-указателей на именованную сущность (формы обращения в людям, некоторые профессии и должности, организационно-правовые формы предприятий, и т.д.) В эти списки для Персон вошли 343 элементов, для Организаций - 47, для Локаций – 99.
Рисунок 6. Фрагмент газеттира мужских имен.
Рисунок 7. Фрагмент газеттира названий городов.
Рисунок 8. Фрагмент газеттира слов-указателей именованной сущности типа «ORG» (Организация)
4. Модуль выделения предложений (Sentence Splitter) системы Gate применяется без изменений.
5. Модуль нормализации включает спеллчекер на основе расстояния Левенштейна и словари замен на русском языке, составленные вручную (на основе анализа собранного корпуса), включающий нестандартные написания, характерные для соцсетей.
Подготовлены словари опечаток (587 замен), сокращений (158) и специфического сленга (198).
Примеры из словаря опечаток:
дигистировать
| дегустировать
| дегистировать
| дегустировать
| дигустировать
| дегустировать
| рождетство
| рождество
| рождетсво
| рождество
|
Примеры из словаря сленга:
-
пачиму
| почему
| патаму
| потому
| шта
| что
|
Примеры из словаря сокращений:
-
мб
| может быть
| хз
| хрен знает
| спб
| Санкт-Петербург
| смр
| Самара
| екб
| Екатеринбург
|
6. Вместо Stanford POS tagger подключен модуль частеречной разметки из Russian Plugin.
7. Модуль выделения именованных сущностей (Named Entity Recogniser) является встроенным модулем системы. На основании грамматик, описанны
|