Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Скачать 2.26 Mb.

Название	Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница	2/28
Тип	Образовательная программа

1 2 3 4 5 6 7 8 9 ... 28

1)Компьютерная двуязычная лексикография

1.1.Основные задачи и направления работы в компьютерной лексикографии

Сфера компьютерной лексикографии довольно широка и включает в себя разнообразные методы составления различного рода словарей с использованием компьютерных технологий. Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных [Баранов 2001].

Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей.

Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.

Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова начинаются работы по созданию Машинного фонда русского языка¹, одной из целей которого было развитие компьютерной лексикографии. Предполагалось решение следующих задач:

Оборудование рабочих мест Института русского языка РАН компьютерами и объединение их в сеть;
Сбор материала для теоретического и прикладного исследования русского языка и его преобразование в машинных формат; разработка средств хранения этого материала;
Создание программных средств, для проведения теоретических и прикладных работ по исследованиям в области русского языка;
Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке).

В дальнейшем были разработаны концепции компьютерного представления различных лингвистических данных, в том числе автоматические словари (Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С.И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1–3)), система построения конкордансов и обеспечения лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по созданию Машинного фонда русского языка была описана концепция компьютерного описания словосочетаний различной степени устойчивости [Борисова 1990].

Наши наблюдения, сделанные в ходе знакомства с направлениями работ в компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация словарных проектов связана не столько с преобразованием существующих словарей в цифровой формат, а с созданием лексикографических комплексов, имеющих прямой выход к различным блокам лингвистического процессора, отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса, за автоматическое выделение устойчивых словосочетаний и ряд других задач.

1.2.Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

Прежде чем перейти к направлениям компьютерной двуязычной лексикографии, следует ввести группу понятий, относящихся скорее к области корпусной лингвистики и машинного перевода, которые в дальнейшем будут использоваться при описании различных словарей.

Двуязычный словарь предполагает описание лексики двух языков: входного языка – языка, с которого производится перевод, и выходного – языка перевода. Слово-заголовок статьи по отношению к статье обычно называют заголовочным. Если в словаре приводятся словосочетания, то в них выделяется опорное слово – слово, под которым это словосочетание приводится в словаре.

Переводным эквивалентом называют перевод, приписываемый лексеме входного языка, или пару «слово входного языка + слово выходного языка», которые являются переводами друг друга.

Для машинного создания словарей или в качестве вспомогательного материала используются параллельные и сопоставимые корпусы текстов. Параллельный корпус – многоязычный корпус, который состоит из текстов на одном языке и их переводов на другой (другие) язык (языки). Сопоставимый (comparable) корпус – набор текстов одной и той же тематической области, на двух или нескольких языках. Для удобства как машинного, так и ручного использования параллельных корпусов производится выравнивание – установление соответствия фрагментов исходного текста (слов, предложений) фрагментам перевода, выполняемое вручную или автоматически.

Лексикографы и лингвисты часто используют специальные инструменты для работы с корпусами – корпус-менеджеры. Для исследования удобен режим построения конкорданса – автоматическое извлечение набора контекстов для заданного явления (слово / словосочетание / грамматическая форма и др.).

1 2 3 4 5 6 7 8 9 ... 28

Похожие:

	Образовательная программа: «Прикладная и экспериментальная лингвистика»... Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования		Федеральное государственное бюджетное образовательное учреждение Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»
	«Национальный исследовательский Томский политехнический университет» Энергетический институт Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»		Программа дисциплины «Академическое письмо (русский язык)» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....
	Основная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика" Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе		Основная образовательная программа (ооп) регламентирует цели, ожидаемые... Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...
	К. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...		Высшего профессионального образования «национальный исследовательский... Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...
	Рабочая программа производственной практики для студентов, обучающихся... П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...		Рабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:

Все бланки и формы на filling-form.ru