Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»


НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница9/12
ТипОбразовательная программа
filling-form.ru > Туризм > Образовательная программа
1   ...   4   5   6   7   8   9   10   11   12

Иракские ополченцы, сражающиеся против террористов "Исламского государства", предложили своим подписчикам в Instagram самим решить судьбу пойманного ими боевика при помощи онлайн-голосования.

"Юг Мосула. Вы можете проголосовать: убить его или отпустить. На голосование отводится один час. Мы сообщим о его судьбе через час", — написали авторы аккаунта @iraqiswat в Instagram, опубликовав фотографию пленного террориста.

    1. Выделение ключевых слов


После кластеризации документов, произведенной в предыдущем разделе, мы хотим извлечь слова, которые характерны для первого класса, и, в то же время, не характерны для второго. Согласно гипотезе, это и будут ключевые слова. В качестве входных данных используются файлы, полученные на предыдущем этапе.

Метод выделения ключевых слов


Здесь мы снова возвращаемся к модели таблицы сопряженности. Нам нужно оценить, в какой степени данное слово тяготеет к одному или другому документу. Обозначим:

– частота встречаемости слова в первом документе;

– частота встречаемости слова во втором документе;

– общая частота остальных слов в первом документе;

– общая частота остальных слов во втором документе;

и воспользуемся одним из критериев корреляции в таблице сопряженности, которые мы описали выше.

Сортируя слова, получим два списка ключевых слов, отвечающих каждой группе.

Статистики корреляции


Мы будем использовать следующие статистики:

  • Быстрый критерий z;

  • Коллигация Юла

  • G-критерий Вулфа

  • Взаимная информация

  • Ассоциация

  • Точный критерий Фишера

  • Хи-квадрат

Статистики, принимающие неограниченные значения нормируются стандартным преобразованием .

Выходные данные


На выходе строятся два файла, отвечающие каждому кластеру. В каждом файле ранжированный по данной метрике список ключевых слов. Через табуляцию для каждого слова выводится его частота в первом кластере, во втором кластере и значение метрики.


Рисунок . Меню второго модуля программы. Опции позволяют регулировать длину списка.

Результаты


Быстрый критерий Z

Одна из простейших метрик показала достаточно неплохие результаты. Она не очень чувствительна к общим словам (в топ-10 попало слово как), но в целом ранжирование можно назвать удовлетворительным.

Таблица . Топ-10 ключевых слов для быстрого критерия Z

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.889

россия_NOUN

27

233

0.927

life_LATN

55

0

0.881

украина_NOUN

3

166

0.926

женщина_NOUN

72

7

0.879

президент_NOUN

1

124

0.916

фильм_NOUN

53

3

0.869

российский_ADJF

17

158

0.914

девушка_NOUN

53

7

0.855

сирия_NOUN

0

106

0.911

учёный_NOUN

45

5

0.849

сша_NOUN

15

132

0.906

ранее_ADVB

78

22

0.848

страна_NOUN

31

161

0.903

как_CONJ

241

133

0.848

крым_NOUN

2

86

0.899

ruposters_LATN

57

11

0.847

глава_NOUN

4

86

0.896

картина_NOUN

30

0

0.845

савченко_Surn

0

70

0.893

Коллигация Юла, взаимная информация, ассоциация

Эти три метрики словам, встретившимся лишь в одном классе, дают максимальный вес, поэтому слово ячменный будет всегда выше слова Россия.

Таблица . Топ-10 ключевых слов для неудачных критериев

Life words

L

N

Вес

News words

L

N

Вес

a_LATN

3

0

1.0

ячменный_ADJF

0

2

1.0

персональный_ADJF

2

0

1.0

вооружение_NOUN

0

10

1.0

петербургский_ADJF

2

0

1.0

катастрофа_NOUN

0

3

1.0

печень_NOUN

2

0

1.0

понижать_INFN

0

2

1.0

жаркое_NOUN

2

0

1.0

касьянов_Surn

0

3

1.0

жанр_NOUN

2

0

1.0

кастро_Surn

0

4

1.0

пик_NOUN

2

0

1.0

пономарев_Surn

0

10

1.0

пикантный_ADJF

3

0

1.0

понятный_ADJF

0

5

1.0

пиксель_NOUN

2

0

1.0

вооружённый_ADJF

0

15

1.0

пингвин_NOUN

5

0

1.0

пообещать_INFN

0

21

1.0

G-критерий Вулфа

Данный критерий показал наиболее хороший результат. G-критерий с одной стороны не очень чувствителен к частотным общим словам, с другой – к редким словам, встретившимся в одном классе текстов. На наш взгляд ранжирование в целом отвечает интуитивному представлению о ключевых словах.

Таблица . Топ-10 ключевых слов для G-критерия Вулва

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.988

украина_NOUN

3

166

0.995

life_LATN

55

0

0.986

россия_NOUN

27

233

0.994

женщина_NOUN

72

7

0.984

президент_NOUN

1

124

0.993

фильм_NOUN

53

3

0.982

сирия_NOUN

0

106

0.992

девушка_NOUN

53

7

0.976

российский_ADJF

17

158

0.992

учёный_NOUN

45

5

0.975

сша_NOUN

15

132

0.990

картина_NOUN

30

0

0.974

крым_NOUN

2

86

0.990

специалист_NOUN

33

2

0.973

страна_NOUN

31

161

0.989

ruposters_LATN

57

11

0.972

савченко_Surn

0

70

0.989

животный_ADJF

28

1

0.972

глава_NOUN

4

86

0.988

Точный критерий Фишера

Точный критерий Фишера в данной задаче показывает вполне удовлетворительный результат, однако его ранжирование отличается от g-критерия. Он так же чувствителен к перекосам.

Таблица . Топ-10 ключевых слов для точного критерия Фишера

Life words

L

N

Вес

News words

L

N

Вес

life_LATN

55

0

1.0

украинский_ADJF

1

72

1.0

мужчина_NOUN

73

3

1.0

крым_NOUN

2

86

1.0

женщина_NOUN

72

7

1.0

ес_NOUN

0

57

1.0

фильм_NOUN

53

3

0.999

президент_NOUN

1

124

1.0

девушка_NOUN

53

7

0.999

трамп_NOUN

1

65

1.0

картина_NOUN

30

0

0.999

военный_NOUN

4

77

1.0

учёный_NOUN

45

5

0.999

украина_NOUN

3

166

1.0

ruposters_LATN

57

11

0.999

сирия_NOUN

0

106

1.0

ранее_ADVB

78

22

0.999

страна_NOUN

31

161

1.0

как_CONJ

241

133

0.999

российский_ADJF

17

158

1.0

Хи-квадрат

Стандартный критерий Хи-квадрат показал результат, близкий к тривиальной метрике z.

Таблица . Топ-10 ключевых слов для критерия хи-квадрат

Life words

L

N

Вес

News words

L

N

Вес

мужчина_NOUN

73

3

0.984

россия_NOUN

27

233

0.993

life_LATN

55

0

0.981

украина_NOUN

3

166

0.993

женщина_NOUN

72

7

0.981

президент_NOUN

1

124

0.991

фильм_NOUN

53

3

0.977

российский_ADJF

17

158

0.991

девушка_NOUN

53

7

0.971

сирия_NOUN

0

106

0.990

как_CONJ

241

133

0.968

сша_NOUN

15

132

0.989

учёный_NOUN

45

5

0.968

страна_NOUN

31

161

0.988

ранее_ADVB

78

22

0.968

крым_NOUN

2

86

0.987

ruposters_LATN

57

11

0.967

глава_NOUN

4

86

0.986

картина_NOUN

30

0

0.965

савченко_Surn

0

70

0.985

При работе с большими корпусами имеет смысл хранить только верхушку корпуса. Наш модуль позволяет обрезать списки ключевых слов автоматически, исходя из распределения или задавая параметры вручную, построив гистограмму.

гист

Рисунок . Гистограмма распределения весов ключевых слов для критерия Вулва. Вверху несерьезные, внизу серьезные документы. Наиболее удачные слова имеют вес, больший 0.7.
1   ...   4   5   6   7   8   9   10   11   12

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconФедеральное государственное бюджетное образовательное учреждение
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«Национальный исследовательский Томский политехнический университет» Энергетический институт
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика"
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа (ооп) регламентирует цели, ожидаемые...
Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconК. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВысшего профессионального образования «национальный исследовательский...
Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа производственной практики для студентов, обучающихся...
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск