4.4.Анализ ошибок в контекстах-кандидатах Среди примеров с оценками 1 и 2 были выделены следующие группы ошибок (ключи выделены угловыми скобками, ошибки отмечены звёздочкой):
Ошибки в форме примера
Грамматически некорректные фразы
* enamel → <составление> эмали
acrobatics → *<оценить> акробатика
Незаконченные фразы
county → деревенский <исправительный>
Фразы в несловарной форме
* tsunamis → *<породило> цунами
monstrously → *чудовищно <огромная>
header files → *заголовочных файлов
Фразы, содержащие иностранные слова, транслитерацию
resiliency → *<улучшать> resiliency
unformatted → *unformatted <емкость>
* shvatyvanija → начало> схватывания
Фразы, содержащие слово с опечаткой
caribbean → *караибское <содружество>
burgundy → *бардовая <подошва>
Ошибки в значении
Неинформативные фразы
*его <любовь> → *his
*очень <глупый> → *really
*nonpregnant → *небеременная <женщина>
Фразы с несвязанными словами
*pickled → *маринованная <красота>
* neurotic → *<спасение> невротиков
*синхроничная <жизнь> → *synchronistic
Труднопонятные фразы со специфическим значением
*sagittal → *сагиттальная <реконструкция>
*threshold → *пороговое <табло>
Машинный / пословный перевод
* squirrels → <соевый> белок
* stitches → <символьные> строчки
*harvest → жмешь <контрол>
*Berners- → Бернерс-<ли>
hi → *привет <видеокамеры>
Оскорбительные контексты для нейтральных слов
naked → голая <девушка>
militarists → <японские> милитаристы
Hitlerite → гитлеровская <Германия>
a Shaheed → <стать> шахидом
Фразы, не являющиеся переводными эквивалентами
rolling → <спасение> утопающих
Первую группу ошибок можно объяснить двумя взаимосвязанными причинами. Во-первых, контексты извлекаются из интернет-корпуса, который содержит «некачественные» тексты, полученные в результате машинного перевода, случайно и намеренно искажённые тексты. С другой стороны, на извлекаемые контексты не накладывается никаких ограничений, кроме связности поддерева. Таким образом, учитывая возможные ошибки парсера, находятся грамматически некорректные фразы. С качеством корпуса связаны и некорректные переводы контекстов (ошибки в значении), и пословные переводы: soya squirrels, saving rolling.
При обучении ранжирующих классификаторов из обучающего набора удалялись примеры с оценкой 3, поскольку они не представляют качественного материала для обучения, а скорее зашумляют его.
4.5.Общий алгоритм ранжирования параллельных контекстов Исходя из проведённого анализа ошибок, а также из изложенных выше принципов отбора иллюстраций и устойчивых сочетаний в словарях классического типа, мы предлагаем следующий алгоритм ранжирования переводных контекстов. Для каждого контекста вычисляются значения признаков, которые позволяют отделить релевантные фразы от некорректных (подробное описание этих признаков приведено ниже). В результате получаем матрицу размера , где N – количество переводных контекстов, а M – количество признаков. Эти данные подаются на вход ранжирующему классификатору, который приписывает каждому контексту некоторое значение (от 0 до 1 или от 1 до 5). Затем контексты ранжируются внутри группы, найденной для ключа (пары «английское слово – русский перевод»). В словаре для каждого ключа отображается только лучший пример из группы.
|