Скачать 2.26 Mb.
|
1.3.Компьютерная двуязычная лексикографияВ области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:
Рассмотрим каждое направление подробнее. 1.4.Электронные двуязычные словариТехнология создания двуязычных компьютерных словарей наследует основные идеи работы над одноязычными лексикографическими ресурсами, поэтому начнём анализ существующих проектов с одноязычных компьютерных словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано именно с электронными версиями словарей. Так, Webster’s Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно развит, поэтому электронные словари создавались на основе оцифрованных бумажных препринтов. В 70-е годы компьютерные технологии развивались по большей части в направлении автоматизации подготовки к изданию бумажных словарей. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) – специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году (LK-3000, Craig M100), а технология оставалась популярной до первого десятилетия 21 века. Основными функциями карманных словарей был перевод заданного слова и озвучивание его произношения. Более продвинутые модели использовали распознавание речи и позволяли осуществлять поиск путём голосового ввода. В 80-е годы, благодаря росту популярности и сокращению стоимости электронных носителей, появляются первые словари на дисках. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992). Словари на электронных носителях улучшались с развитием технологий гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным изданиям. Кроме того, их пользователи могли задействовать такие функции, как озвучивание произношения, просмотр истории поиска, использование словаря непосредственно при чтении текста и т.п. Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в сети можно было найти около четырёхсот словарей английского языка, однако большинство были копиями, не защищёнными в соответствии с нормами авторского права. В 1999 году издательство Oxford University Press выложило в интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними многие другие издатели начали публиковать в интернете сокращённые версии словарей, предлагая купить подписку на расширенные версии. Затем стало понятно, что онлайн-словари могут приносить доход наряду с бумажными, поэтому сейчас многие популярные словари доступны без ограничений. Создатели электронных словарей привлекают пользователей к дополнению и исправлению он-лайн версий или созданию новых словарных статей. Самый крупный полностью коллаборативный проект – это Викисловарь, который объединяет различные возможности лексикографического описания, в том числе, функционируя как многоязычный словарь. Описание слова включает фонетическую, этимологическую, синтаксическую, семантическую, сочетаемостную информацию о слове. В [Крижановский 2009] описывается разработка машиночитаемого словаря на основе данных русского Викисловаря. Русский Викисловарь является крупнейшим среди существующих викисловарей, его характерной особенностью является чёткая структура словарной статьи [Крижановский 2011]. Что касается англо-русских словарей, необходимо прежде всего упомянуть электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных статей. С 2008 года под названием ABBYY Lingvo выпускаются версии x3, x5, x6, содержащие одно- и двуязычные словари, общее количество статей достигает 1,5 миллионов. Некоторые из них составлены лексикографами компании ABBYY, другие представляют собой электронные версии бумажных словарей (Большой толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo включают:
На данный момент доступен также онлайн-сервис LingvoLive (https://lingvolive.ru), где пользователи могут не только осуществлять поиск по словарям, но и комментировать словарные статьи, добавлять свои примеры употребления и сохранять историю поиска. Хранение информации электронном словаре осуществляется в базах данных или в специально разработанных для этой цели форматах представления, основанных на XML. Например, рекомендации Text Encoding Initiative (TEI) содержат отдельную главу, посвященную хранению лексикографических данных (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html). Элемент entry позволяет хранить разнообразную информацию, содержащуюся в словарной статье, причём возможно сохранение словарной статьи в различных видах:
Статья entry может содержать отдельные разделы для омографов (hom), внутри каждого из которых возможны описания форм слова (form), грамматических помет (gramGrp), толкования (def), примеры употребления с отсылкой к источнику (cit), информацию об особенностях употребления (usage), перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию (etym). Возможности хранения лексикографической информации в формате TEI рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова и др. 2016]. Другой вариант представления – Lexical markup formal (LMF) – использует только последний тип (лексическое представление), поскольку он предназначен в первую очередь для хранения всевозможных словарей систем обработки текстов. Этот детально разработанный формат используется в сложных системах хранения лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/). Вторая, не менее важная составляющая электронного словаря – программа, отвечающая за отображение словарных статей, поиск, редактирование. Как уже было сказано, многие электронные словари предоставляют веб-интерфейс, в котором взаимодействие между пользователем и словарём осуществляется обычно с помощью запросов к базе данных. Программы, устанавливаемые на компьютер или портативное устройство, часто имеют возможность подключения дополнительных словарей и расширений. Среди программ, содержащих англо-русские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и другие. Обычно главными элементами интерфейса являются окно поиска и окно отображения словарной статьи (см. Рис. 1): Рисунок . Окно поиска ABBYY Lingvo x5. Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы – 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже). Рисунок . Пример статьи из электронного словаря системы Linguee. |
Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования | Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)» | ||
Прикладная лингвистика: разработка концепции научно-образовательного комплекса «Интеллектуальные энергосистемы (Smart Grid)» | Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 45.... | ||
Прагма-коммуникативный анализ языковой репрезентации улыбки в современной художественной англоязычной литературе | Нормативные документы для разработки ооп впо по направлению подготовки 035700. 68 Лингвистика и профилю подготовки Межкультурная... | ||
Теоретическая лингвистика и судебная лингвистическая экспертиза : монография / К. И. Бринев; под редакцией Н. Д. Голева. – Барнаул... | Правила подготовки и защиты курсовой работы и выпускной квалификационной работы по образовательной программе «Фундаментальная и прикладная... | ||
П. П. Рабочая программа производственной практики для студентов, обучающихся по направлению подготовки 230700. 62 «Прикладная информатика»,... |
Поиск Главная страница   Заполнение бланков   Бланки   Договоры   Документы    |