Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»


НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница6/28
ТипОбразовательная программа
1   2   3   4   5   6   7   8   9   ...   28

1.7.Параллельные конкордансы


Задача иллюстраций словарных статей контекстами употребления заголовочных слов частично совпадает с задачей построения конкордансов, то есть поиска контекстов заданных слов или языковых явлений в корпусах текстов.

Системы, строящие параллельные конкордансы, как правило, находят параллельные предложения или даже целые абзацы, а не короткие примеры употребления. Самые простые системы осуществляют поиск только по одной части параллельного корпуса (только входному / выходному языку) и не ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].

Некоторые из систем отображают сведения о частоте данного слова и его переводов – например, в [Barlow 2004] описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения и их переводы в соответствии с частотой перевода запроса, а в [Bai и др. 2012] наиболее релевантные контексты находятся на основании статистики Дайса [Dice 1945].

Такие системы обычно предназначены для лексикографов и профессиональных переводчиков. Рассмотрим две системы с доступным веб-интерфейсом, которые осуществляют поиск по параллельным англо-китайским корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].

Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall (собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как описывается в [Bai и др. 2012], находит наиболее релевантные контексты с помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):



где и - частоты слова и переводного эквивалента соответственно, а - частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.



Рисунок . Результаты поиска по запросу "porcelain" в системе DOMCAT.

Вторая система – TotalRecall – предоставляет две возможности – ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio, LLR). Применительно к связи между двумя явлениями (например, встречаемостью слова и его перевода) последняя мера вычисляется как [Dunning 1993].



где – совместная частота слова и перевода, а , – частоты i и j соответственно.



Рисунок . Результаты поиска по запросу "porcelain" в системе TotalRecall.



Рисунок . Пример конкорданса системы Linguee.

Параллельный конкорданс в качестве дополнения к электронному словарю строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена как для изучающих язык, так и для профессионального перевода. Конкорданс для запроса на входном языке строится по большому корпусу текстов различных жанров; особое внимание уделяется технической и специальной (например, юридической и медицинской) литературе. Параллельные тексты собраны из интернета и не проверялись. Весь многоязычный корпус содержит, по описанию разработчиков, около 10 миллионов примеров, при этом в документации не уточняется, идёт речь о коротких словосочетаниях или о параллельных предложениях.

Следует отметить одну из особенностей системы – поиск может осуществляться не только по запросу из одного слова, но и по фразе. Поскольку корпус содержит информацию о пословном выравнивании, при отображении результатов поиска выделяется как текст запроса, так и его вероятный перевод в тексте на языке перевода, однако не всегда это соответствие корректно (см. Рисунок 7).
1   2   3   4   5   6   7   8   9   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconФедеральное государственное бюджетное образовательное учреждение
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«Национальный исследовательский Томский политехнический университет» Энергетический институт
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика"
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа (ооп) регламентирует цели, ожидаемые...
Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconК. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВысшего профессионального образования «национальный исследовательский...
Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа производственной практики для студентов, обучающихся...
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск