Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»


НазваниеОбразовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
страница3/28
ТипОбразовательная программа
1   2   3   4   5   6   7   8   9   ...   28

1.3.Компьютерная двуязычная лексикография


В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:

  • создание традиционных двуязычных словарей с помощью компьютерных технологий,

  • разработка алгоритмов составления переводных эквивалентов для систем машинного перевода,

  • автоматическое составление словарей, надстройки к параллельным и сопоставимым корпусам, параллельные конкордансы.

Рассмотрим каждое направление подробнее.

1.4.Электронные двуязычные словари


Технология создания двуязычных компьютерных словарей наследует основные идеи работы над одноязычными лексикографическими ресурсами, поэтому начнём анализ существующих проектов с одноязычных компьютерных словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано именно с электронными версиями словарей. Так, Websters Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно развит, поэтому электронные словари создавались на основе оцифрованных бумажных препринтов.

В 70-е годы компьютерные технологии развивались по большей части в направлении автоматизации подготовки к изданию бумажных словарей. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) – специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году (LK-3000, Craig M100), а технология оставалась популярной до первого десятилетия 21 века. Основными функциями карманных словарей был перевод заданного слова и озвучивание его произношения. Более продвинутые модели использовали распознавание речи и позволяли осуществлять поиск путём голосового ввода.

В 80-е годы, благодаря росту популярности и сокращению стоимости электронных носителей, появляются первые словари на дисках. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992). Словари на электронных носителях улучшались с развитием технологий гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным изданиям. Кроме того, их пользователи могли задействовать такие функции, как озвучивание произношения, просмотр истории поиска, использование словаря непосредственно при чтении текста и т.п.

Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в сети можно было найти около четырёхсот словарей английского языка, однако большинство были копиями, не защищёнными в соответствии с нормами авторского права. В 1999 году издательство Oxford University Press выложило в интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними многие другие издатели начали публиковать в интернете сокращённые версии словарей, предлагая купить подписку на расширенные версии. Затем стало понятно, что онлайн-словари могут приносить доход наряду с бумажными, поэтому сейчас многие популярные словари доступны без ограничений.

Создатели электронных словарей привлекают пользователей к дополнению и исправлению он-лайн версий или созданию новых словарных статей. Самый крупный полностью коллаборативный проект – это Викисловарь, который объединяет различные возможности лексикографического описания, в том числе, функционируя как многоязычный словарь. Описание слова включает фонетическую, этимологическую, синтаксическую, семантическую, сочетаемостную информацию о слове. В [Крижановский 2009] описывается разработка машиночитаемого словаря на основе данных русского Викисловаря. Русский Викисловарь является крупнейшим среди существующих викисловарей, его характерной особенностью является чёткая структура словарной статьи [Крижановский 2011].

Что касается англо-русских словарей, необходимо прежде всего упомянуть электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных статей.

С 2008 года под названием ABBYY Lingvo выпускаются версии x3, x5, x6, содержащие одно- и двуязычные словари, общее количество статей достигает 1,5 миллионов. Некоторые из них составлены лексикографами компании ABBYY, другие представляют собой электронные версии бумажных словарей (Большой толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo включают:

  • поиск слова по заголовкам словарных статей, поиск по неначальной форме слова, поиск по всем доступным языкам;

  • полнотекстовый поиск, в том числе, по примерам употребления;

  • озвучивание транскрипции;

  • перевод по наведению курсора в браузере, текстовых документах;

  • сохранение и просмотр избранных словарных статей.

На данный момент доступен также онлайн-сервис LingvoLive (https://lingvolive.ru), где пользователи могут не только осуществлять поиск по словарям, но и комментировать словарные статьи, добавлять свои примеры употребления и сохранять историю поиска.

Хранение информации электронном словаре осуществляется в базах данных или в специально разработанных для этой цели форматах представления, основанных на XML. Например, рекомендации Text Encoding Initiative (TEI) содержат отдельную главу, посвященную хранению лексикографических данных (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html). Элемент entry позволяет хранить разнообразную информацию, содержащуюся в словарной статье, причём возможно сохранение словарной статьи в различных видах:

  1. типографическое представление – позволяет восстановить статью в том виде, в котором она должна быть напечатана;

  2. «редакторское» (editorial) представление – хранит текст без специфической мета-информации;

  3. лексическое представление – содержит структурированную информацию из словарной статьи безотносительно особенностей типографии, однако сохраняет лингвистические категории (поле грамматических помет, особенностей употребления и т.п.)

Статья entry может содержать отдельные разделы для омографов (hom), внутри каждого из которых возможны описания форм слова (form), грамматических помет (gramGrp), толкования (def), примеры употребления с отсылкой к источнику (cit), информацию об особенностях употребления (usage), перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию (etym). Возможности хранения лексикографической информации в формате TEI рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова и др. 2016].

Другой вариант представления – Lexical markup formal (LMF) – использует только последний тип (лексическое представление), поскольку он предназначен в первую очередь для хранения всевозможных словарей систем обработки текстов. Этот детально разработанный формат используется в сложных системах хранения лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/).

Вторая, не менее важная составляющая электронного словаря – программа, отвечающая за отображение словарных статей, поиск, редактирование. Как уже было сказано, многие электронные словари предоставляют веб-интерфейс, в котором взаимодействие между пользователем и словарём осуществляется обычно с помощью запросов к базе данных. Программы, устанавливаемые на компьютер или портативное устройство, часто имеют возможность подключения дополнительных словарей и расширений. Среди программ, содержащих англо-русские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и другие.

Обычно главными элементами интерфейса являются окно поиска и окно отображения словарной статьи (см. Рис. 1):



Рисунок . Окно поиска ABBYY Lingvo x5.

Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы – 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже).



Рисунок . Пример статьи из электронного словаря системы Linguee.
1   2   3   4   5   6   7   8   9   ...   28

Похожие:

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОбразовательная программа: «Прикладная и экспериментальная лингвистика»...
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconФедеральное государственное бюджетное образовательное учреждение
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» icon«Национальный исследовательский Томский политехнический университет» Энергетический институт
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)»

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45....

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа бакалавриата по направлению подготовки 035700 "Лингвистика"
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconОсновная образовательная программа (ооп) регламентирует цели, ожидаемые...
Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconК. И. Бринев Теоретическая лингвистика и судебная лингвистическая экспертиза
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconВысшего профессионального образования «национальный исследовательский...
Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа производственной практики для студентов, обучающихся...
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,...

Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» iconРабочая программа дисциплины б в. 4 Практикум по культуре речевого...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск