1)Компьютерная двуязычная лексикография 1.1.Основные задачи и направления работы в компьютерной лексикографии Сфера компьютерной лексикографии довольно широка и включает в себя разнообразные методы составления различного рода словарей с использованием компьютерных технологий. Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных [Баранов 2001].
Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей.
Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.
Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова начинаются работы по созданию Машинного фонда русского языка1, одной из целей которого было развитие компьютерной лексикографии. Предполагалось решение следующих задач:
Оборудование рабочих мест Института русского языка РАН компьютерами и объединение их в сеть;
Сбор материала для теоретического и прикладного исследования русского языка и его преобразование в машинных формат; разработка средств хранения этого материала;
Создание программных средств, для проведения теоретических и прикладных работ по исследованиям в области русского языка;
Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке).
В дальнейшем были разработаны концепции компьютерного представления различных лингвистических данных, в том числе автоматические словари (Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С.И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1–3)), система построения конкордансов и обеспечения лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по созданию Машинного фонда русского языка была описана концепция компьютерного описания словосочетаний различной степени устойчивости [Борисова 1990].
Наши наблюдения, сделанные в ходе знакомства с направлениями работ в компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация словарных проектов связана не столько с преобразованием существующих словарей в цифровой формат, а с созданием лексикографических комплексов, имеющих прямой выход к различным блокам лингвистического процессора, отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса, за автоматическое выделение устойчивых словосочетаний и ряд других задач.
1.2.Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии Прежде чем перейти к направлениям компьютерной двуязычной лексикографии, следует ввести группу понятий, относящихся скорее к области корпусной лингвистики и машинного перевода, которые в дальнейшем будут использоваться при описании различных словарей.
Двуязычный словарь предполагает описание лексики двух языков: входного языка – языка, с которого производится перевод, и выходного – языка перевода. Слово-заголовок статьи по отношению к статье обычно называют заголовочным. Если в словаре приводятся словосочетания, то в них выделяется опорное слово – слово, под которым это словосочетание приводится в словаре.
Переводным эквивалентом называют перевод, приписываемый лексеме входного языка, или пару «слово входного языка + слово выходного языка», которые являются переводами друг друга.
Для машинного создания словарей или в качестве вспомогательного материала используются параллельные и сопоставимые корпусы текстов. Параллельный корпус – многоязычный корпус, который состоит из текстов на одном языке и их переводов на другой (другие) язык (языки). Сопоставимый (comparable) корпус – набор текстов одной и той же тематической области, на двух или нескольких языках. Для удобства как машинного, так и ручного использования параллельных корпусов производится выравнивание – установление соответствия фрагментов исходного текста (слов, предложений) фрагментам перевода, выполняемое вручную или автоматически.
Лексикографы и лингвисты часто используют специальные инструменты для работы с корпусами – корпус-менеджеры. Для исследования удобен режим построения конкорданса – автоматическое извлечение набора контекстов для заданного явления (слово / словосочетание / грамматическая форма и др.).
|