Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Скачать 2.26 Mb.

Название	Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница	4/28
Тип	Образовательная программа

1 2 3 4 5 6 7 8 9 ... 28

1.5.Словари систем машинного перевода

Словарями систем машинного перевода (фразовыми таблицами, моделями перевода, phrase table) обычно называют автоматически составленные таблицы переводов последовательностей слов с весами, которые затем учитываются при машинном переводе текста. Переводы извлекаются из параллельного корпуса на основании выравнивания предложений. Для построения модели перевода были предложены алгоритмы, известные как модели IBM [Brown и др. 1993]. Они оценивают вероятности перевода с помощью EM-алгоритма, который позволяет итеративно оценить модель на неполных данных. Он состоит из двух шагов, которые обычно повторяются до сходимости:

E-шаг (expectation), на котором имеющаяся модель применяется к данным;
M-шаг (maximization), на котором из данных выводится новая модель (корректируется старая).

Итак, IBM model 1 действует следующим образом. Пусть есть корпус, состоящий из трёх параллельных фраз (см. Рисунок 3):

Рисунок . Пример параллельного корпуса для обучения модели IBM.

Изначально в корпусе нет информации о пословном выравнивании, веса задаются равномерно (0.25 для каждого перевода). Для оценки вероятности того или иного пословного выравнивания и используется ЕМ-алгоритм. На каждом М-шаге для каждого перевода (пары) суммируются все веса. На первом шаге сначала инициализируются вероятности всех возможных выравниваний, а затем по имеющимся данным для каждого слова в каждом входном предложении суммируются веса различных вариантов его выравнивания. Так, например, по первому предложению вероятность выравнивания

и вес

буду равны 0.5. Затем для каждого входного слова e (в данном случае на русском языке) и всех вариантов его перевода f (на английском) вычисляется итоговый вес

, равный отношению вероятности выравнивания к весу слова на языке перевода. На первом шаге

это значение 0.5.

Приведём псевдокод алгоритма оценки весов модели IBM-1 по [Koehn 2010]:

Вход: набор пар предложений

Выход: вероятность перевода

Задать

равномерно

Пока не сходится

// инициализация

для всех

для всех предложений

// вычислим нормализацию

для всех слов е в е

для всех слов

// суммируем

для всех слов

для всех слов f в f

// оценим вероятности

для всех слов

для всех слов

Следующие модели являются усовершенствованиями первой. Основные дополнения следующие:

IBM Model 2 определяет вероятность всего выравнивания;
IBM Model 3 добавляет так называемую fertility model – как много переводов возможно для каждого входного слова;
IBM Model 4 добавляет модель относительного выравнивания;
IBM Model 5 регулирует заполнение только свободных позиций при выравнивании.

Подробное сравнение моделей IBM можно найти в [Och, Ney 2003].

Эти модели могу применяться как на уровне пословного перевода (word-based translation), так и на уровне перевода фраз (phrase-based translation). С этим связано и основное отличие словарей систем машинного перевода от классических словарей – помимо слов и многословных выражений (обычно устойчивых) в них включаются словосочетания, а также последовательности слов (n-граммы), которые синтаксически не связаны между собой. Соответственно, в таких словарях отсутствует понятие нормальной формы: для каждой формы слова существуют свои варианты перевода.

За прошедшие 20 лет были предложены различные улучшения и новые способы подбора параметров для моделей IBM [Turkato 1998; Och, Ney 2000; Tsunakawa и др. 2008; Huck и др. 2011; Luo, Lepage 2015]. Кроме того, одним из актуальных направлений остаётся фильтрация машинных лексиконов, полученных путём автоматического выравнивания [Melamed 1996]. Улучшенные модели анализируются и сравниваются в [Huck и др. 2011].

Морфологическая и синтаксическая информация также может быть использована при построении моделей перевода, в частности, для фильтрации шумных переводов. Некоторые авторы предлагают извлечение переводных эквивалентов по структурам зависимостей [Yamamoto, Matsumoto 2000].

1 2 3 4 5 6 7 8 9 ... 28

Похожие:

	Образовательная программа: «Прикладная и экспериментальная лингвистика»... Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования		Федеральное государственное бюджетное образовательное учреждение Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»
	«Национальный исследовательский Томский политехнический университет» Энергетический институт Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»		Программа дисциплины «Академическое письмо (русский язык)» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....
	Основная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика" Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе		Основная образовательная программа (ооп) регламентирует цели, ожидаемые... Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...
	К. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...		Высшего профессионального образования «национальный исследовательский... Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...
	Рабочая программа производственной практики для студентов, обучающихся... П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...		Рабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:

Все бланки и формы на filling-form.ru