Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»


НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница14/28
ТипОбразовательная программа
1   ...   10   11   12   13   14   15   16   17   ...   28

4.4.Анализ ошибок в контекстах-кандидатах


Среди примеров с оценками 1 и 2 были выделены следующие группы ошибок (ключи выделены угловыми скобками, ошибки отмечены звёздочкой):

  1. Ошибки в форме примера

    1. Грамматически некорректные фразы

*
enamel → <составление> эмали


acrobatics → *<оценить> акробатика

    1. Незаконченные фразы

county → деревенский <исправительный>

    1. Фразы в несловарной форме

* tsunamis → *<породило> цунами

monstrously → *чудовищно <огромная>

header files → *заголовочных файлов

    1. Фразы, содержащие иностранные слова, транслитерацию

resiliency → *<улучшать> resiliency

unformatted → *unformatted <емкость>

* shvatyvanija → начало> схватывания

    1. Фразы, содержащие слово с опечаткой

caribbean → *караибское <содружество>

burgundy → *бардовая <подошва>

  1. Ошибки в значении

    1. Неинформативные фразы

*его <любовь> → *his

*очень <глупый> → *really

*nonpregnant → *небеременная <женщина>

    1. Фразы с несвязанными словами

*pickled → *маринованная <красота>

* neurotic → *<спасение> невротиков

*синхроничная <жизнь> → *synchronistic

    1. Труднопонятные фразы со специфическим значением

*sagittal → *сагиттальная <реконструкция>

*threshold
→ *пороговое <табло>


    1. Машинный / пословный перевод

* squirrels → <соевый> белок

* stitches → <символьные> строчки

*harvest → жмешь <контрол>

*Berners- → Бернерс-<ли>

hi → *привет <видеокамеры>

    1. Оскорбительные контексты для нейтральных слов

naked → голая <девушка>

militarists → <японские> милитаристы

Hitlerite → гитлеровская <Германия>

a Shaheed → <стать> шахидом

    1. Фразы, не являющиеся переводными эквивалентами

rolling → <спасение> утопающих

Первую группу ошибок можно объяснить двумя взаимосвязанными причинами. Во-первых, контексты извлекаются из интернет-корпуса, который содержит «некачественные» тексты, полученные в результате машинного перевода, случайно и намеренно искажённые тексты. С другой стороны, на извлекаемые контексты не накладывается никаких ограничений, кроме связности поддерева. Таким образом, учитывая возможные ошибки парсера, находятся грамматически некорректные фразы. С качеством корпуса связаны и некорректные переводы контекстов (ошибки в значении), и пословные переводы: soya squirrels, saving rolling.

При обучении ранжирующих классификаторов из обучающего набора удалялись примеры с оценкой 3, поскольку они не представляют качественного материала для обучения, а скорее зашумляют его.

4.5.Общий алгоритм ранжирования параллельных контекстов


Исходя из проведённого анализа ошибок, а также из изложенных выше принципов отбора иллюстраций и устойчивых сочетаний в словарях классического типа, мы предлагаем следующий алгоритм ранжирования переводных контекстов. Для каждого контекста вычисляются значения признаков, которые позволяют отделить релевантные фразы от некорректных (подробное описание этих признаков приведено ниже). В результате получаем матрицу размера , где N – количество переводных контекстов, а M – количество признаков. Эти данные подаются на вход ранжирующему классификатору, который приписывает каждому контексту некоторое значение (от 0 до 1 или от 1 до 5). Затем контексты ранжируются внутри группы, найденной для ключа (пары «английское слово – русский перевод»). В словаре для каждого ключа отображается только лучший пример из группы.
1   ...   10   11   12   13   14   15   16   17   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconФедеральное государственное бюджетное образовательное учреждение
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«Национальный исследовательский Томский политехнический университет» Энергетический институт
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика"
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа (ооп) регламентирует цели, ожидаемые...
Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconК. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВысшего профессионального образования «национальный исследовательский...
Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа производственной практики для студентов, обучающихся...
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск