Скачать 0.71 Mb.
|
Иракские ополченцы, сражающиеся против террористов "Исламского государства", предложили своим подписчикам в Instagram самим решить судьбу пойманного ими боевика при помощи онлайн-голосования."Юг Мосула. Вы можете проголосовать: убить его или отпустить. На голосование отводится один час. Мы сообщим о его судьбе через час", — написали авторы аккаунта @iraqiswat в Instagram, опубликовав фотографию пленного террориста.
После кластеризации документов, произведенной в предыдущем разделе, мы хотим извлечь слова, которые характерны для первого класса, и, в то же время, не характерны для второго. Согласно гипотезе, это и будут ключевые слова. В качестве входных данных используются файлы, полученные на предыдущем этапе. Метод выделения ключевых словЗдесь мы снова возвращаемся к модели таблицы сопряженности. Нам нужно оценить, в какой степени данное слово тяготеет к одному или другому документу. Обозначим: – частота встречаемости слова в первом документе; – частота встречаемости слова во втором документе; – общая частота остальных слов в первом документе; – общая частота остальных слов во втором документе; и воспользуемся одним из критериев корреляции в таблице сопряженности, которые мы описали выше. Сортируя слова, получим два списка ключевых слов, отвечающих каждой группе. Статистики корреляцииМы будем использовать следующие статистики:
Статистики, принимающие неограниченные значения нормируются стандартным преобразованием . Выходные данныеНа выходе строятся два файла, отвечающие каждому кластеру. В каждом файле ранжированный по данной метрике список ключевых слов. Через табуляцию для каждого слова выводится его частота в первом кластере, во втором кластере и значение метрики. Рисунок . Меню второго модуля программы. Опции позволяют регулировать длину списка. Результаты Быстрый критерий Z Одна из простейших метрик показала достаточно неплохие результаты. Она не очень чувствительна к общим словам (в топ-10 попало слово как), но в целом ранжирование можно назвать удовлетворительным. Таблица . Топ-10 ключевых слов для быстрого критерия Z
Коллигация Юла, взаимная информация, ассоциация Эти три метрики словам, встретившимся лишь в одном классе, дают максимальный вес, поэтому слово ячменный будет всегда выше слова Россия. Таблица . Топ-10 ключевых слов для неудачных критериев
G-критерий Вулфа Данный критерий показал наиболее хороший результат. G-критерий с одной стороны не очень чувствителен к частотным общим словам, с другой – к редким словам, встретившимся в одном классе текстов. На наш взгляд ранжирование в целом отвечает интуитивному представлению о ключевых словах. Таблица . Топ-10 ключевых слов для G-критерия Вулва
Точный критерий Фишера Точный критерий Фишера в данной задаче показывает вполне удовлетворительный результат, однако его ранжирование отличается от g-критерия. Он так же чувствителен к перекосам. Таблица . Топ-10 ключевых слов для точного критерия Фишера
Хи-квадрат Стандартный критерий Хи-квадрат показал результат, близкий к тривиальной метрике z. Таблица . Топ-10 ключевых слов для критерия хи-квадрат
При работе с большими корпусами имеет смысл хранить только верхушку корпуса. Наш модуль позволяет обрезать списки ключевых слов автоматически, исходя из распределения или задавая параметры вручную, построив гистограмму. Рисунок . Гистограмма распределения весов ключевых слов для критерия Вулва. Вверху несерьезные, внизу серьезные документы. Наиболее удачные слова имеют вес, больший 0.7. |
Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8 | Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)» | ||
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)» | Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45.... | ||
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе | Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная... | ||
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул... | Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная... | ||
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,... |
Поиск Главная страница   Заполнение бланков   Бланки   Договоры   Документы    |