Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»


НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница5/12
ТипОбразовательная программа
filling-form.ru > Туризм > Образовательная программа
1   2   3   4   5   6   7   8   9   ...   12

Кластеризация в лингвистике


Электронные корпусы текстов позволили широко использовать методы кластеризации для решения самых разных лингвистических задач. Классический пример применения кластеризации – статья [Schütze, 1998], в которой комбинация аггломеративного и EM-алгоритма использовалась для снятия лексической неоднозначности. Основное положение подобных методов заключается в том, что схожесть контекста дает основание считать одинаковым значения обеих лексем. Подобные подходы использовались в работах [Lin, 1998, 2002] и по-прежнему актуальны [McCarthy и др., 2016]. Обзор работ по применению методов кластеризации в задачах снятия лексической неоднозначности можно найти в статье [Navigli, 2009].

Оригинальная идея была предложена в статье [Biemann, 2006]. В ней решалась задача частеречной разметки корпуса на основе контекста и был предложен оригинальный метод графовой кластеризации, оптимизированный для данной задачи.

Нашел свое применение кластерный анализ и в задаче построения тонального словаря [Четверкин, 2013] по корпусу текстов.

Как и в нашей работе, нередко методы кластеризации используются в задачах тематического моделирования [Basu, Murphy, 2013]. В частности, их используют для классификации научных текстов, насыщенных специальной терминологией [Savova и др., 2005].

Особую роль методы кластерного анализа играют в компьютерной текстологии. В рамках исследований по определению силы связей между списками рукописей на основе данных об узлах разночтений, проводимых А.А. Алексеевым, Е.Л. Алексеевой (Кузнецовой) и Д.М. Мироновой, используется вариант аггломеративного кластерного анализа, в процессе которого близкие тексты объединяются в стемму [Миронова 2016].

В завершении главы скажем, что широкое применение кластерного анализа в лингвистике привело к появлению специальных библиотек, адаптированных для работы с текстовыми документами, в частности, уже упомянутой библиотеки Scikit-learn для языка Python, с которой мы работали во время проведения экспериментов.
  1. Лингвистические основания автоматической кластеризации текстов по ключевым словам и конструкциям

    1. Лингвистика конструкций и оценка связей в конструкциях

Основные идеи лингвистики конструкций


Лингвистика конструкций – молодая отрасль науки, возникшая как альтернатива модульному, или атомарному подходу к явлениям языка и речи, опирающемуся на понятия основных единиц и отношений в рамках того или иного уровня языка. Ранее именно элементарные единицы и отношения привлекали внимание ученых, многим казалось, что именно в них кроются загадки естественного языка. Однако в языке и в текстах существуют конструкции – сложным образом организованные объекты, функционирующие как единое целое, возникающие в ходе взаимодействия и взаимопроникновения явлений морфологического, синтаксического, семантического и других уровней языка. В фокусе внимания лингвистики конструкций находятся воспроизводимые единицы текста, большие, чем слово: словосочетания разной степени устойчивости, фразеологизмы, идиомы, обороты, неоднословные целостности, явления «малого синтаксиса» и т.д. С одной стороны, этот класс явлений, наблюдаемых в корпусе, привлекает интерес компьютерных лингвистов, однако до сих пор представляет большую проблему в автоматической обработке корпусов текстов. Одна из причин заключается в том, что их природа и особенности функционирования не до конца изучены. Лингвистика конструкций предназначена как раз для того, чтобы отчасти восполнить возникший пробел.

Развитие лингвистики конструкций идет непростыми путями. Существует ряд отечественных и зарубежных теорий, среди которых обращают на себя внимание грамматика конструкций Ч. Филлмора [Fillmore 1988, Goldberg 1995, 2006, Tomasello 2003], теория лексических функций в рамках модели «Смысл <=> Текст» [Мельчук 1974/1999; ТКС 1984], конструктивный синтаксис Н.Ю.Шведовой [АК 1980], описание классов ядерных глагольных конструкций русского языка (моделей управления) и их трансформационных преобразований Ю.Д.Апресяна [Апресян 1967] и т.д. Есть немало последователей этого направления в современной российской лингвистике [Кузнецова 2007; Рахилина 2010; Овсянникова, Сай 2010; Оскольская, Овсянникова, Сай 2011].

Рассмотрим основополагающие идеи лингвистики конструкций, важные для решения наших исследовательских задач.

Признанным основоположником зарубежной школы исследователей конструкций является Ч. Филлмор, разработчик теории падежной грамматики [Филлмор 1981] и глава разработчиков первой в мире базы данных лексических конструкций FrameNet [Fillmore 1982]. В своих работах Ч. Филлмор и его коллеги опирались на очень общее определение конструкции: это языковое выражение, в котором наличествуют формальные или содержательные аспекты, которые невозможно вывести из значения или формы составных частей. Простейшим примером такой конструкции может служить выражение железная дорога, общее значение которой, подобно паззлу, хоть и состоит из отдельных частей, в сочетании воспринимается как неделимое. Лексические конструкции, согласно теории Филлмора, представляют собой единство формы и содержания. Форма конструкции фиксируется, во-первых, уже заданными элементами, а во-вторых, грамматическими, семантическими и пропозициональными ограничениями, которые естественным образом накладываются на переменные ячейки конструкции. Как правило, значение лексической конструкции не выводится из составляющих, хотя возможна, как более широкая, так и более узкая трактовка понятия: от свободных сочетаний лексических единиц до фразеологизированных структур.

Конструкциями по Ч. Филлмору могут являться языковые единицы любого уровня, если они обладают формой и содержанием: их элементами могут быть и морфемы, и слова, и целые предложения [Рахилина 2010]. В классической работе Ч. Филлмора и коллег [Fillmore et al. 1988] обсуждается многоуровневый анализ лексической конструкции let alone («не говоря уже о…») и продемонстрировано, как следует анализировать конструкции в качестве единицы грамматического описания на синтаксическом, семантическом и прагматическом уровне. С точки зрения синтаксиса в конструкции есть два обязательных компонента (A) let alone (B), требующие восполнения за счет обязательного третьего компонента (С), без которого конструкция не является законченной: например, I doubt (C) he made colonel (A) let alone general (B). На семантическом уровне данная лексическая конструкция может быть описана шкалой, или иерархией пропозиций (от более сильной (to make colonel) к более слабой (to make general). Прагматическая интерпретация конструкции связана с выразительностью отрицания, носителем которого является компонент (С).

Грамматика конструкций позволяет по-новому объяснить целый класс языковых выражений. Так, в своей пионерской работе [Goldberg, 1995] А.Голдберг предложила отказаться от традиционного взгляда на рамки глагольных валентностей: вместо того, чтобы приписывать именным группам, заполняющим позиции в рамке глагольных валентностей, статус глагольных актантов, исследовательница призывает их рассматривать наравне с самим глаголом как компоненты глагольных конструкций. Тем самым, в семантическом анализе глагольных контекстов появляется принципиально новое решение проблемы неоднозначности и разграничения глагольных значений. Например, следуя этой точке зрения, мы признаем, что в глагольных конструкциях бросать камни и бросаться камнями реализуются два разных значения, но они ассоциируются не с глаголом (что заставило бы нас в словаре представить два разных глагола с разными рамками валентностей), а с глагольной конструкцией (точнее, с двумя разными конструкциями для одного и того же глагола, отличающимися лишь оформлением актантов) [Рахилина 2010]. Не менее успешным оказывается данный подход при оценке степень приемлемости различных сочетаний слов в рамках конструкций. Всё это позволяет говорить о том, что лексические конструкции более гибки в описании нюансов языка, чем традиционная глаголоцентрическая модель. [Рахилина 2010].

Статистический анализ структурной организации конструкций


В русле лингвистики конструкций существует течение, появившееся как ответ на запросы специалистов, работающих с корпусами текстов. Речь идет о так называемом коллострукционном анализе, исследовательской процедуре, разработанной А.Стефановичем и Ст. Грисом [Stefanowitsch, Gries, 2003] в качестве алгоритмической надстройки к теории. Коллострукционный анализ — это многоступенчатая процедура статистического анализа структурной организации конструкций. Основными этапами коллострукционного анализа являются колексемный анализ, различительный колексемный анализ и ковариация колексем.

Колексемный анализ имеет целью количественно оценить степень тяготения лексемы к тому или иному слоту конструкции. Колексемный анализ позволяет оценить силу взаимодействия пары факторов в конструкции. В качестве факторов можно рассматривать, например, лексему и некий грамматический признак конструкции, а силу взаимодействия данных факторов оценить с помощью точного критерия Фишера. Например, таким образом можно определить тенденции в употреблении глагольных конструкций с формами прошедшего времени того или иного глагола: в случае с русским глаголом сказать можно вычислить общую частоту его встречаемости в корпусе, частоту употребления в форме прошедшего времени, а также частоту всех глагольных лексем в корпусе и частоту всех их форм прошедшего времени. Частота употребления глагола сказать в форме прошедшего времени оказывается выше, чем «среднестатистическая», что свидетельствует о тяготении данного глагола к конструкциям прошедшего времени (прежде всего, к конструкциям, вводящим прямую и косвенную речь) [Рахилина 2010].

Различительный колексемный анализ предназначен для того, чтобы сравнивать схожие конструкции и выяснять степень тяготения лексемы к той или иной конструкции из набора. В работе [Gries, Stefanowitch 2004] проводится сопоставительный анализ дитранзитивной конструкции и конструкции с to: (John sent Mary the book. John sent the book to Mary.). Семантический характер различий между двумя конструкциями подтверждается тем фактом, что они притягивают к себе разные наборы лексем. В рассматриваемом случае глагол give проявляет тенденцию к употреблению в дитранзитивной конструкции.

И наконец, ковариация колексем определяется для того, чтобы оценить, силу связи между лексемами – кандидатами на заполнение разных слотов одной и той же конструкции. А.Стефанович и Ст. Грис в качестве иллюстрации приводят анализ каузативной конструкции с into в английском языке [Stefanowitch, Gries 2005], где есть один фискированный компонент и два свободных: например, Newley had been tricked into revealing his hiding place. Оказывается, что семантика конструкции накладывает ограничения на комбинацию пар глаголов, которые могут заполнить слоты конструкции. В частности, в первом слоте конструкции могут быть глаголы со значением оказания давления или уловки. Во втором слоте следует ожидать глаголы, обозначающие неприятное или нежелательное действие.

Наблюдения, сделанные разработчиками коллострукционного анализа, дают нам основания полагать, что статистические критерии являются мощным средством исследования внутренней организации конструкций, а также предоставляют богатый материал для разработки методов автоматической обработки данных о конструкциях.

Коллострукционный анализ применим для оценки сочетаемости слов. Сгенерированный текст (например, при машинном переводе) может быть грамматически корректен, но лишен, при этом, всякого смысла. Встречаются фразы, причины семантической несогласованности которых далеко не очевидны, а подчас и необъяснимы. Трудно объяснить, к примеру, разницу в оттенках значений слов жаркий и горячий (см. [Апресян 2010: 510]). Хотя на первый взгляд, эти слова можно назвать синонимами, существительные, с которыми они сочетаются, у каждого свои. Возникает вопрос: почему горячая вода и горячий чайник сочетаются, тогда как горячая погода, горячее лето уже нет? Универсальный ответ для любого словосочетания найти невозможно.

Поскольку лексическая конструкция определяется как словосочетание, которое встречается в речи, естественно предположить, что, если некоторая фраза встретилась в достаточно большом корпусе, ее можно считать лексической конструкцией. Здесь, впрочем, возникают определенные проблемы. На практике далеко не каждая биграмма является лексической конструкцией — это может быть описка, нарочное искажение, неверно снятая омонимия, наконец, оба слова могут относиться к разным лексическим конструкциям. Поэтому важно определить именно степень сочетаемости слов. Ясно, что совместная частота встречаемости не вполне отражает то, насколько данные слова характерны друг для друга, ведь одно из них может быть частотным само по себе. Например, фраза хороший цвет имеет большую частоту, чем фраза пурпурный цвет, при этом сочетаемость последней должна быть выше.

А. Стефанович и С. Грис [Stefanowitsch, Gries 2003] рассмотрели в качестве степени сочетаемости вероятность того, что события «встретилось слово x» и «встретилось слово y» зависимы. Для этого строилась статистическая модель, называемая таблицей сопряженности, а зависимость признаков оценивалась точным критерием Фишера. При таком подходе наибольшее значение получали устойчивые лексические конструкции.

Однако, если словосочетание отсутствует в корпусе, это вовсе не значит, что оно не является лексической конструкцией. Каким бы большим ни был корпус, нельзя ожидать, что он вместит в себя все мыслимые коллокации. Так, например, слово краска может встречаться с набором слов красный, белый, зеленый, но не встречаться со словами бежевый или фиолетовый. Возникает задача — как извлечь информацию о сочетаемости слов, если они не встречались в корпусе. Данная задача получила свое разрешение в нашей статье [Букия и др., 2015].

Оценка взаимозаменяемости элементов конструкций


Для решения основных задач данного исследования мы разработали авторскую методику оценки взаимозаменяемости элементов конструкций, в которой развиваются идеи коллострукционного анализа А.Стефановича и Ст. Гриса [Bukia и др. 2015].

Итак, мы будем рассматривать текст как марковскую цепь нулевого порядка, считая, что каждое следующее слово зависит лишь от соседнего, а зависимостью от всего предшествующего текста мы пренебрегаем. Данное предположение можно обосновать тем, что корреляционная связь элементов внутри биграммной конструкции значительно сильнее, чем каждого элемента в отдельности со всем остальным текстом. Рассмотрим следующий пример:

Вдоль реки протянулась забытая всеми железная дорога.

Ясно, что конструкции забытая всеми и железная дорога воспринимаются как единое целое, их нельзя поэлементно разбить и заменить элементы синонимами, тогда как влияние остальных слов на эти конструкции значительно меньше, слово протянулась можно заменить на слово пролегла, слово реки можно заменить на Волхова и это едва ли заметно изменит значение каждой конструкции.

Таблица сопряжённости


Обозначим за событие «встретилось слово » и за – «встретилось слово ». Если вероятность события при условии события равна самой вероятности события , мы полагаем, что фраза не является конструкцией. Это значит, что слово не характерное или не специфическое для и связь между этими словами отсутствует.

Наоборот, если после слова вероятность встретить слово заметно повышается, то можно с уверенностью говорить, что между этими словами есть связь. Это означает, что события и коррелированы, а величина корреляции отражает степень связи.

Из корпуса мы можем извлечь следующие статистические данные:

  • Частота встречаемости первого слова ,

  • Частота встречаемости второго слова ,

  • Совместная частота встречаемости

  • Общее количество слов в корпусе .

Чтобы оценить корреляцию событий и , нужно представить данные в виде таблицы сопряжённости и воспользоваться одной из стандартных статистик. Обозначим, как это принято за и отрицания соответствующих событий. Тогда таблица сопряжённости выглядит следующем образом:




















Здесь:

– частота события ,

– частота события «встретилось слово , а слово не встретилось,

– частота события «встретилось слово , а слово не встретилось,

– частота события «не встретилось ни , ни ».

Тогда для оценки корреляции можно воспользоваться следующими критериями.

Оценка корреляции в таблицах сопряжённости


Мы оставим за скобками теоретическое описание данных критериев, сославшись лишь на монографию, посвященную статистическим критериям корреляции [Кендалл и др., 1973].

Коэффициент ассоциации. Статистика критерия:



Принимает значения от 0, если слова не связаны, до 1 в случае полной тождественности. Эта оценка слишком приближенная, зато легко поддается вычислению.

Коэффициент коллигации Юла. Статистика критерия:



Между и существует связь:

Коэффициент контингенции . Статистика критерия:



Значения статистики от 0, если слова не связаны, и возрастает при наличии связности. Применим при больших значениях параметров, что, в случае с частотами, бывает далеко не всегда, особенно в корпусах небольшого размера.

Точный критерий Фишера. Статистика критерия:



С достоверностью проверяемые события коррелируют, значит в качестве степени сочетаемости здесь нужно положить . Он работает лучше, чем , когда параметры таблицы сопряженности малы.

Быстрый критерий z. Статистика критерия:



Статистика критерия применима, если или , зато он не требует больших вычислительных мощностей.

-критерий Вулфа [Woolf, 1957]. Для четырехклеточных таблиц критерий Вулва наиболее теоретически обоснован.



Каждый критерий имеет свои внутренние особенности, поэтому окончательный выбор можно осуществить только при непосредственной проверке.
1   2   3   4   5   6   7   8   9   ...   12

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 8

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconФедеральное государственное бюджетное образовательное учреждение
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«Национальный исследовательский Томский политехнический университет» Энергетический институт
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика"
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа (ооп) регламентирует цели, ожидаемые...
Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconК. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВысшего профессионального образования «национальный исследовательский...
Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа производственной практики для студентов, обучающихся...
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск