Кафедра информатики и медиатехнологий

Скачать 1.1 Mb.

Название	Кафедра информатики и медиатехнологий
страница	5/8
Тип	Учебно-методическое пособие

filling-form.ru > Туризм > Учебно-методическое пособие

1 2 3 4 5 6 7 8

1.4Семантические технологии Web

К семантическим технологиям Web относятся следующие^⁴:

XML;
глобальная схема идентификации (URI);
стандартный синтаксис описания данных (RDF);
стандартные способы описания свойств данных (схема RDF, RDFS);
стандартные способы описания связей между объектами данных (онтология, определяемая с помощью онтологического языка Web (Web Ontology Language)).

1.4.1XML

В начале февраля 1998 года международная организация World Wide Web Консорциум – W3C – рекомендовала спецификацию Extensible Markup Language 1.0, за которой закреплена аббревиатура XML. Эта спецификация является основой для построения грамматики языков разметки, и лишь условно сам XML можно назвать языком разметки. По своему замыслу технология XML должна обеспечить отделение информации от разметки, что позволяет производить обработку, поиск и представление информации на более высоком технологическом уровне.

Спецификация XML используется как средство для построения грамматики других языков. В настоящее время создан ряд языков разметки, являющихся подмножествами XML, и, в частности, язык MathML.

1.4.2Глобальная схема идентификации – URI^⁵

URI (Uniform Resource Identifier) – унифицированный (единообразный) идентификатор ресурса –предоставляет простой и расширяемый способ идентификации ресурсов. Расширяемость URI означает, что уже существуют несколько схем идентификации внутри URI, и ещё больше будет создано в будущем. Самые известные примеры URI – это URL и URN. URL – это URI, который помимо идентификации ресурса предоставляет ещё и информацию о местонахождении этого ресурса. А URN – это URI, который идентифицирует ресурс в определённом пространстве имён (и, соответственно, в определённом контексте). Например, urn:ISBN 0 395 36341 1 – это URI, который указывает на ресурс (книгу) 0 395 36341 1 в пространстве имён ISBN, но, в отличие от URL, URN не указывает на местонахождение этого ресурса.

Структура URI:

<схема>:<идентификатор-в-зависимости-от-схемы>;

<схема> – схема обращения к ресурсу, например, http, mailto, urn, tel;

<идентификатор-в-зависимости-от-схемы> – непосредственный идентификатор ресурса, вид которого зависит от выбранной схемы обращения к ресурсу.

Универсальный указатель ресурсов (Uniform Resource Locator, URL) стал фундаментальным нововведением в интернете, поэтому принципы URI документально закреплялись так, чтобы обеспечить полную совместимость с URL. Отсюда появился и большой недостаток URI, пришедший как наследство от URL. В URI, как и в URL, можно использовать только ограниченный набор латинских символов и знаков препинания.

1.4.3Стандартный синтаксис описания данных – RDF

RDF – это спецификация, которая определяет модель представления мира и синтаксис для сериализации и обмена в рамках этой модели. RDF обеспечивает стандартный способ описания и работы практически с любыми web-ресурсами: от текстовых страниц и графиков до аудио-файлов и видео-клипов. Он предлагает синтаксические возможности для взаимодействия и формирует базовый слой для создания Semantic Web.

Базовый строительный блок модели данных – утверждение, представляющее собой тройку: ресурс, именованное свойство и его значение. В терминологии RDF эти три части утверждения называются соответственно: субъект, предикат и объект (7).

Ресурсом называют все, что описывается средствами RDF. Это может быть обыкновенная Web-страница или какая-то ее часть, например, отдельный элемент HTML или XML разметки, являющийся частью описываемого документа. Также ресурсом может быть целая коллекция страниц, такая как отдельно взятый web-сайт. И, наконец, в качестве ресурса может выступать нечто, не являющееся доступным непосредственно через Интернет, например, произвольный предмет из мира вещей. Одним словом, все, чему можно приписать некоторый URI может стать ресурсом и быть описано при помощи RDF. Консорциум W3C разработал XML-представление для RDF.

1.4.4Стандартные способы описания свойств данных – схема RDF

Схема RDF – это семантическое расширение RDF. Она обеспечивает механизмы описания связанных ресурсов, а также собственно этих связей.

Система классов и свойств схемы RDF похожа на систему классов языков объектно-ориентированного программирования, таких, например, как Java, но отличается от многих других систем. Так, описательный язык словаря RDF определяет свойства в терминах того класса ресурсов, к которому эти свойства относятся. Другие системы же описывают класс в терминах свойств его элементов.

RDF и схема RDF основаны на XML и схеме XML. Существование стандартов для описания данных (RDF) и их атрибутов (схема RDF) позволяет создавать пакеты легко доступных инструментов для чтения и использования данных из многочисленных источников. То, насколько глубоко различные приложения могут обмениваться данными и использовать их, называется синтаксическим взаимодействием (syntactic interoperability). Чем более стандартизированными и распространенными являются эти инструменты работы с данными, тем выше степень синтаксического взаимодействия и тем легче и привлекательнее становится использование подхода на основе Semantic Web по сравнению с точечными интеграционными решениями.

1.4.5Онтология

Стандартные способы описания связей между объектами данных: онтология, определяемая с помощью онтологического языка Web.

Синтаксическое взаимодействие – необходимое условие для того, чтобы множественные приложения могли по-настоящему «понимать» данные и работать с ними как с информацией. Это также необходимое условие для корректной проверки данных. Синтаксическое взаимодействие требует преобразования («мэппирования») между терминами, для чего, в свою очередь, необходим контент-анализ.

Контент-анализ требует формальных и подробных спецификаций моделей доменов, которые определяют используемые термины и их связи. Подобные формальные модели доменов называются онтологиями. Они определяют модели данных в терминах классов, подклассов и свойств.

Онтология является искусственно созданным объектом и состоит:

из конкретного словаря, используемого для описания определенной предметной области;
множества явных допущений, относящихся к подразумеваемому значению словаря.

Онтология описывает формальную спецификацию определенной предметной области:

общее понимание рассматриваемой предметной области;
формальная, допускающая машинную обработку модель рассматриваемой предметной области.

Опять возвращаясь к примеру с запросом о погоде – если представить, что информация на метеосайте структурирована в соответствии с принципами RDF, то и запрос можно формулировать формализовано – <южный берег Крыма><температура воздуха><значение температуры?>. Но объект <южный берег Крыма> может и не иметь атрибут <температура воздуха>. Но необходимую информацию могут содержать два RDF-описания: <южный берег Крыма><прогноз погоды><описание погоды> и <описание погоды><температура воздуха><значение температуры>. Здесь возникает проблема – в запросе ничего не было сказано о погоде. Web-агент, обрабатывающий запрос, самостоятельно не сможет связать термины <температура воздуха> и <описание погоды>, для этого ему необходимо обратиться к онтологии, задачей которой и является описание терминов и, что очень важно в данном случае, связей между ними.

Онтологический язык Web (Web Ontology Language, сокр. OWL), рекомендуемый консорциумом W3C, помогает в выражении онтологий. Рабочий онтологический язык добавляет больше словарных возможностей для описания свойств и классов, чем RDF или схема RDF. В частности, он позволяет описывать связи между классами (например, неперекрываемость), мощность множества (например, «ровно один»), равенство, более богатую типологию свойств и их характеристики (например, симметрия).

1.4.6Преимущества Semantic Web для Интернета^⁶

Интернет – это крупнейший из когда-либо существовавших информационных репозиториев, причем его содержание все время растет и представлено на самых разнообразных языках и практически во всех областях знаний. Но, в конечном счете, становится все труднее находить смысл во всем этом содержимом. Поисковые системы способны находить информацию, содержащую определенные слова, но эта информация не всегда оказывается именно той, что требуется. Какой-то элемент всегда оказывается упущенным. Поиск основан на содержании страниц, но не на семантическом значении этого содержания или информации о странице.

Как только будет создан семантический Интернет, он даст возможность разметки всего содержания Интернета, описания каждого элемента информации и обеспечения семантического значения этих элементов. Таким образом, поисковые системы становятся более эффективными, чем сейчас, а пользователи могут находить именно ту информацию, которая им необходима. Организации, оказывающие различные услуги, способны индексировать их с особым значением. А пользователи будут в состоянии оперативно находить эти услуги, используя программные средства на основе Интернета, и использовать их для своей пользы или в сочетании с другими услугами.

Семантика – это будущее сервис-ориентированной интеграции. Семантические технологии обеспечивают существование определенного уровня абстракции над существующими IT-технологиями. Этот уровень позволяет осуществлять связь данных, содержания и процессов между различными видами бизнеса и изолированными IT-структурами. Наконец, с точки зрения взаимодействия людей, семантические технологии добавляют новый уровень семантических порталов, которые обеспечивают гораздо более аналитические, соответствующие теме и контексту взаимодействия, чем те, которые доступны с помощью традиционных точечных подходов к интеграции, использующихся в информационных порталах.