Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Скачать 2.26 Mb.

Название	Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница	6/28
Тип	Образовательная программа

1 2 3 4 5 6 7 8 9 ... 28

1.7.Параллельные конкордансы

Задача иллюстраций словарных статей контекстами употребления заголовочных слов частично совпадает с задачей построения конкордансов, то есть поиска контекстов заданных слов или языковых явлений в корпусах текстов.

Системы, строящие параллельные конкордансы, как правило, находят параллельные предложения или даже целые абзацы, а не короткие примеры употребления. Самые простые системы осуществляют поиск только по одной части параллельного корпуса (только входному / выходному языку) и не ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].

Некоторые из систем отображают сведения о частоте данного слова и его переводов – например, в [Barlow 2004] описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения и их переводы в соответствии с частотой перевода запроса, а в [Bai и др. 2012] наиболее релевантные контексты находятся на основании статистики Дайса [Dice 1945].

Такие системы обычно предназначены для лексикографов и профессиональных переводчиков. Рассмотрим две системы с доступным веб-интерфейсом, которые осуществляют поиск по параллельным англо-китайским корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].

Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall (собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как описывается в [Bai и др. 2012], находит наиболее релевантные контексты с помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):

где

- частоты слова и переводного эквивалента соответственно, а

- частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.

Рисунок . Результаты поиска по запросу "porcelain" в системе DOMCAT.

Вторая система – TotalRecall – предоставляет две возможности – ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio, LLR). Применительно к связи между двумя явлениями (например, встречаемостью слова и его перевода) последняя мера вычисляется как [Dunning 1993].

где

– совместная частота слова и перевода, а

– частоты i и j соответственно.

Рисунок . Результаты поиска по запросу "porcelain" в системе TotalRecall.

Рисунок . Пример конкорданса системы Linguee.

Параллельный конкорданс в качестве дополнения к электронному словарю строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена как для изучающих язык, так и для профессионального перевода. Конкорданс для запроса на входном языке строится по большому корпусу текстов различных жанров; особое внимание уделяется технической и специальной (например, юридической и медицинской) литературе. Параллельные тексты собраны из интернета и не проверялись. Весь многоязычный корпус содержит, по описанию разработчиков, около 10 миллионов примеров, при этом в документации не уточняется, идёт речь о коротких словосочетаниях или о параллельных предложениях.

Следует отметить одну из особенностей системы – поиск может осуществляться не только по запросу из одного слова, но и по фразе. Поскольку корпус содержит информацию о пословном выравнивании, при отображении результатов поиска выделяется как текст запроса, так и его вероятный перевод в тексте на языке перевода, однако не всегда это соответствие корректно (см. Рисунок 7).

1 2 3 4 5 6 7 8 9 ... 28

Похожие:

	Образовательная программа: «Прикладная и экспериментальная лингвистика»... Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования		Федеральное государственное бюджетное образовательное учреждение Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»
	«Национальный исследовательский Томский политехнический университет» Энергетический институт Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»		Программа дисциплины «Академическое письмо (русский язык)» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....
	Основная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика" Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе		Основная образовательная программа (ооп) регламентирует цели, ожидаемые... Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...
	К. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...		Высшего профессионального образования «национальный исследовательский... Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...
	Рабочая программа производственной практики для студентов, обучающихся... П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...		Рабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:

Все бланки и формы на filling-form.ru