Рефератами и полными текстами


НазваниеРефератами и полными текстами
страница1/3
ТипРеферат
  1   2   3


СТАНДАРТ ST.35
РЕКОМЕНДУЕМЫЙ СТАНДАРТНЫЙ ФОРМАТ ДЛЯ ОБМЕНА ДАННЫМИ ОБ ИНФОРМАЦИИ ОПУБЛИКОВАННЫХ ПАТЕНТНЫХ ДОКУМЕНТОВ В СМЕШАННОЙ МОДЕ НА МАГНИТНЫХ ЛЕНТАХ В ВИДЕ КАТУШЕК ИЛИ КАРТРИДЖЕЙ ТИПА IBM 3480/90 (MMMT)
Редакция , принятая Постоянным Комитетом по информационным технологиям

на четвертой Пленарной сессии 10 декабря 1999 года

ВВЕДЕНИЕ
1. Настоящий стандарт определяет форматы, подлежащие использованию для обмена данными и

обработки информации об опубликованных патентных документах в смешанной моде ( mixed mode (MM) на

магнитной ленте в виде катушек шириной 1/2 дюйма и картриджей типа IBM 3480/90 (Mixed -Mode Magnetic Tape

- MMMT). Данный стандарт основан на международных стандартах и рекомендациях (ISO, WIPO, ITU-T

(CCITT)), в необходимых случаях на них делаются ссылки. Данный стандарт обеспечивает представление

патентных документов, независящее от используемых аппаратных и программных средств, с особой ссылкой на

обмен, осуществляемый на магнитной ленте.
2. Поэтому целью данного стандарта является обеспечение логически независимой структуры обработки

патентных документов и обмена всеми данными, относящимися к одному или более патентам, представляющим

собой текстовые данные и/или изображения. Это означает, что данный стандарт может использоваться вместо

следующих стандартов ВОИС: ST.30, . Рекомендация по стандартному формату магнитной ленты для

обмена в машиночитаемой форме библиографическими данными,, рефератами и полными текстами

патентных документов ., а также ST.33 .Рекомендуемый стандартный формат для обмена данными в виде

факсимильной информации патентных документов..
В целом обмениваемая информация может быть использована для создания и пополнения

библиографических баз данных о патентах, но может также использоваться для полнотекстовых и

факсимильных баз данных , содержащих патенты, на любых носителях: ленте, твердом диске , дисках CD-ROM

и так далее. В особенности данный стандарт позволяет производить обработку следующих данных:
(a) полные тексты или части патентных документов, включая библиографические данные, записанные

в символьно-кодированном виде. При этом настоятельно рекомендуется, чтобы соответствующие данные были бы размечены с помощью меток (tags) SGML в соответствии со стандартом ВОИС ST.32 (см. ниже).
(b) целые страницы документов, представленные как одно изображение независимо от их

содержания (библиографические данные, текст или факсимильные изображения).
(c) Данные в пределах полнотекстовых документах, которые не могут быть записаны как

символьнокодированные данные, такие как : чертежи, химические формулы, сложные таблицы и т.д. могут

обрабатываться в качестве так называемых встроенных изображений (embedded images -EMI.s) и определяются как кадры (фреймы).
Примечания:
(i) Информация в отношении текстовых данных и факсимильных (изобразительных) данных должна

представляться в соответствии с идентификацией и набором префиксов в Приложении 2;
(ii) Для факсимильных (изобразительных) данных (по пункту 2 b, c выше) рекомендуемым форматом

сжатия является ITU-T (CCITT) T.6: Группа 4 (обычно известная как .факсимильная группа 4.),

возможно использование также других факсимильных форматов;
(iii) Альтернативный способ хранения факсимильных данных приводится в .Приложении 4. : Формат

TIFF (Tagged Image File Format, то есть , формат для файлов с изображениями, имеющих метки).

Аналогично, рекомендуемым форматом сжатия в пределах записи в формате TIFF является

рекомендация Группы 4 ITU-T-(CCITT) T.6.
ССЫЛКИ
3. Следующие стандарты имеют принципиальное значение для данной рекомендации:
(a) Стандарт ВОИС ST.32 - Рекомендация для разметки патентных документов с использованием

SGML (Standard Generalized Markup Langauge , то есть Стандартный язык обобщенной разметки).
(b) Cтандарт ВОИС ST.33 - Рекомендуемый стандартный формат для обмена данными в виде

факсимильной информации о патентных документах.
(Примечание: информация относительно префиксов в Приложении 2 аналогична, но не идентична

информации в стандарте ST.33, которая была использована в качестве основы индексации в данном стандарте Ст.33).
(c) ISO 1001 Обработка информации - идентификация магнитной ленты с помощью меток и структура

файлов для обмена информацией.
(d) ISO 8879 -1986 Обработка информации - Текстовые и офисные системы - Стандартный язык

обобщенной разметки (SGML).
(e) ITU-T (CCITT), Blue Book, Том VII- Раздел VII.3 Периферийное оборудование и Протоколы записи

для телематических служб (дистанционная связь с компьютером) - Рекомендации Т.0-Т.63 -Рекомендация Т.6 -

Схемы кодирования факсимильных изображений и функции контроля за кодированием для факсимильных

аппаратов Группы 4 (1984, дополнено в 1988).
(f) Формат TIFF (Формат файлов с изображениями, имеющими метки) , поддерживаемый фирмой

Microsoft Corp. от имени Aldus ( Детальная информация о структуре формата Tiff может быть найдена в издании Microsoft Windows Software Development Kit, версия 2.0: . Расширения для Виндоуз. (Windows Extensions), главы с 1 по7., представленные с согласия фирмы Hewlett-Packard Company, отделение Greely Division).

ПРИЛОЖЕНИЯ
4. Приложения к данной Рекомендации содержат:

Приложение 1 Набор символов для кодирования меток и префиксов для записей (IBM EBCDIC)

Приложение 2 Определение элементов префиксов

Приложение 3 Соглашение о кодировании факсимильных изображений

Приложение 4 Формат TIFF (формат для файлов с изображениями , имеющих метки)

Приложение 5 Примеры кодирования патентных документов в формате смешанной моды

ОПРЕДЕЛЕНИЯ
5. Для целей данной рекомендации применяются следующие специальные определения:
(a) МЕТКА ЗАПИСИ: короткий файл на магнитной ленте, содержащий имя и характеристики всей

ленты. Метка ленты начинается с метки тома , а каждый файл данных на ленте имеет предшествующую метку заголовка и последующую метку- маркер конца В этом отношении данный стандарт следует положениям Стандарта ИСО 1001.
(b) ПАТЕНТНЫЙ ДОКУМЕНТ: выражение .патентный документ. включает патенты на изобретения,

патенты на растения, авторские свидетельства, патенты на образцы. свидетельства о полезности, полезные модели, дополнительные документы к ним и опубликованные заявки на выдачу этих документов. ( Патентный документ может содержать субдокументы, см. ниже).
(c) ЛОГИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных, относящихся к одному и тому же

патентному документу и рассматриваемому как одно целое. Логическая запись может содержать различные компоненты документа.
(d) КОМПОНЕНТ ДОКУМЕНТА: совокупность полей и данных в пределах логической записи

(патентного документа), которая может рассматриваться как одно целое, например: полный текст патентного документа, одно изображение.
(e) СУБДОКУМЕНТ ПАТЕНТА: в пределах варьируемой части текстового компонента патентный

документ может содержать такие субдокументы, как: библиографические данные, реферат, описание, формулу, чертежи, отчет о поиске.
(f) КОМПОНЕНТ С ИЗОБРАЖЕНИЕМ: компонент с изображением содержит одно изображение:

встроенное изображение, чертеж, полную страницу факсимильного изображения (которая может включать

несколько изображений).
(g) БЛОК: совокупность записей, которая может размещаться в 20 000 байтах.
(h) ФИЗИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных в пределах документного компонента,

которая может рассматриваться как одно целое. Если объем документного компонента превосходит объем

блока в 20 000 байтов, то данные должны быть записаны ( перенесены) в более, чем одну физическую запись.
(i) СПЭННИНГ (ПЕРЕНОС): техника записи, используемая для разбиения логической записи на

более чем одну физическую запись, поскольку размер логической записи может быть больше максимального размера физической записи.

ЧАСТЬ 1: СПЕЦИФИКАЦИИ ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ В СМЕШАННОЙ МОДЕ (ЛОГИЧЕСКАЯ ЗАПИСЬ

И СОСТАВЛЯЮЩИЕ ЭЛЕМЕНТЫ)
6. Эта часть стандарта описывает рекомендуемый общую логическую структуру расположения и

форматирование опубликованных патентных документов, включаемых в обмен на магнитной ленте в виде

катушечного носителя шириной 1/2 дюйма или картриджа типа IBM 3480/90, описанных в части 2.
7. Логическая запись не может содержать более одного патентного документа.
8. Набор данных (файл) с патентными документами в электронном виде может содержать

последовательность логических записей, организованных, например, в возрастающем порядке

идентификационных обозначений документов.
9. Каждая логическая запись в отношении определенного патентного документа может содержать

информацию как в символьнокодированной ( текстовой) форме, так и факсимильной, а также сочетания

символьнокодированной и факсимильной форм.
10. Следующий рисунок иллюстрирует общую структуру:


11. Префиксы могут содержать код страны, номер документа, его вид и т.д., а также любую другую общую

информацию, которая является полезной для обработки переменной части документа. (См. Приложение 2).
12. Переменная часть может содержать два основных компонента:
(a) в отношении символьнокодированной части соответствующий компонент может состоять из всех

текстовых данных, относящихся к данному документу, то есть, таких субдокументов, как: библиографические данные, реферат, описание, формула, чертежи, отчет о поиске и т.д. Настоятельно рекомендуется, чтобы эти данные кодировались в соответствии со стандартом ВОИС ST.32, который определяет метки SGML, позволяющие структурирование данных таким образом, которое облегчает дальнейшую обработку. В частности,

данные метки включают ссылки на факсимильные элементы внутри текста - так называемые встроенные

изображения-, кодируемые согласно меткам < EMI>. Это обеспечивает связь с самим факсимильным

изображением . (Рекомендуемые наборы символов, а также ссылки на единичные символы для этих данных также определены в ST.32 ВОИС).
[В отношении символьнокодированной части возможно также рассматривать одну страницу патентного

документа в качестве одного компонента, за которым следуют все относящиеся факсимильные элементы (если

они имеются). В данном случае определения отдельных префиксов, например, 18 (см . Приложение 2)

приобретают большую значимость.]
(b) В отношении изображений для каждого кодированного изображения ( полной страницы или

встроенного изображения) создается соответствующий компонент, кодированный с помощью EMI или RTI (см. ниже). Таким образом, каждое изображение( либо полная страница, либо встроенное изображение)

рассматривается в качестве компонента. Изображения записываются в последовательности их появления в логической записи документа, о чем делается отсылка в соответствующей позиции символьнокодированой части документа. Их соответствие должно быть точным.
13. Изображения могут храниться в переменной части записи различными способами:
(a) битовое (растровое) представление согласно рекомендации Группа 4;
(b) битовое (растровое) представление в формате TIFF согласно рекомендации группы 4.
Данный стандарт позволяет использовать дальнейшие расширения (CGM, JPEG и т.д.), при этом в

префиксе указывается, каким образом записано данное изображение.
Последовательность изображений может быть идентифицирована с помощью порядковых номеров из 8

байтов. Обычно он состоит из четырех знаков для номера страницы, за которыми следуют четыре знака для

указания номера кадра. Альтернативно, могут использоваться последовательные номера, начинающиеся с

единицы для каждого документа ( например, в случаях, когда используются электронные методы публикации

без отсылок к бумажным документам). Логическое представление и взаимосвязь указанных переменных

компонентов можно проиллюстрировать следующим образом:

Типовой патентный документ может быть структурирован следующим образом (разметка осуществляется

в соответствии со стандартом ST.32):




Таким образом, в выше приведенном примере мы имеем один патентный документ (логическая запись),

содержащий три документных компонента: текстовые данные и два изображения. Один компонент -текстовые

данные- содержит шесть субдокументов. Связь между документами обеспечивается с помощью меток в

рамках текстовой информации и с помощью префиксов в рамках факсимильной информации. Имя файла для

логической записи, совпадающее обычно с номером патентной заявки или номером публикации, может

связывать все компоненты в одно целое. Другие примеры можно найти в Приложении 5.
Следующий раздел стандарта иллюстрирует, как эти данные могут быть записаны на магнитную ленту

(катушечный носитель или картридж) для обмена информацией . Использование других носителей, отличных от

магнитной ленты, остается открытым для дальнейшего изучения.


ЧАСТЬ 2: ФИЗИЧЕСКИЕ ХАРАКТЕРИСТИКИ КОМПОНЕНТОВ ДЛЯ ЗАПИСИ НА МАГНИТНУЮ ЛЕНТУ
Стандартные характеристики магнитной ленты
14. Стандартные характеристики магнитной ленты должны быть следующими:

(a) магнитная лента на катушке шириной 1/2 дюйма, 9-ти дорожечная или 18/36 дорожечная лента в

картридже типа IBM 3480/90;

(b) плотность записи 6250 бит на дюйм для катушечных лент, 48 КВ/ дюйм для картриджей;

(c) стандартные метки для тома: заголовок 1 и заголовок 2 способом, как это предусмотрено в

стандарте ИСО 1001, который в отношении меток совместим с метками IBM, метки пользователя могут также добавляться;

(d) кодирование метки и префикса записи должно производиться с помощью букв латинского

алфавита и арабских цифр, полностью совместимо с кодированием в соответствии с EBCDIC IBM и

кодировочным набором символов, представленным в Приложении1 ;

(e) один файл может быть распространен на несколько ленточных томов согласно стандарту ИСО

1001.
Структура файла
15. Следует применять стандарт ИСО 1001, который определяет идентификацию магнитной ленты, формат

метки и ее использование.
16. Каждый набор данных (файл) может содержать совокупность логических записей, каждая из которых

представляет патентный документ.
17. Следующая фигура иллюстрирует общую структуру файла:

18. Максимальное число физических записей в пределах одной логической записи составляет

Поэтому теоретическая длина логической записи должна быть менее чем позиций

(максимальная длина блока 20 000 минус 4 байта для указателя длины блока).
19. Общая максимальная длина физической записи составляет 19 996 включая 4 байта для указателя длины

записи.
Физические характеристики записи
20. Физическая запись должна иметь следующие характеристики:
(a) способ записи с переменным блокированием, то есть блок может содержать разное число

физических записей;
(b) максимальная длина блока составляет 20 000, включая 4 байта для указателя длины блока;
(c) максимальная длина физической записи составляет 19996 , включая 4 байта для указателя длины

записи;
(d) структура физической записи может быть схематически представлена следующим образом:


21. Каждая физическая запись начинается с префикса из 256 байтов. Это включает дескриптор записи

(указатель длины бинарной записи из 4 байтов), однако в зависимости от системной среды данное поле не

может быть непосредственно доступным для некоторых прикладных программ, например, IBM OS/VS COBOL.

Префикс определяется в Приложении 2.
22. Для каждого компонента создается, по крайней мере, одна физическая запись. Когда длина компонента

превышает максимальную физическую длину, допустимую при использовании метода переноса (спэннинга),

описываемого ниже , обычно создаются несколько физических записей.
23. Физические записи создаются на магнитной ленте с использованием переменной структуры записи.
Метод переноса (спэннинга)
24. Метод переноса (спэннинга) записи необходим для компонентов вследствие невозможности

магнитоленточных устройств обрабатывать в обычных условиях физические записи, превосходящие 20000

символов. Префикс записи содержит два элемента , касающиеся метода переноса, а именно: элемент 9 и 19

(номер последовательности записи компонента и наибольший номер последовательности записи компонента

документа, оба занимающие 2-байтовые поля, см. Приложение 2, рекомендуемое для использования в

прикладных программах).
25. Для иллюстрации примера структуры расположения данных на ленте и связанные с этим префиксы могут

оказаться полезными следующие примеры:
(Примечание: Обычно первый компонент всегда содержит символьнокодированные данные, за которыми

может следовать n-е число факсимильных изображений.).


VOL = метка тома ленты

HDR = головная метка файла

EOF = хвостовая метка файла

TM = ленточный маркер

BDW = дескриптор блока в 4 байта:

Байты 1-2 содержат действительную длину блока в 16-ричной системе, например,

19774 записывается как х .4D3E..

Байты 3-4 содержат значение x .0000. в 16-ричной системе.

RDW = дескриптор записи в 4 байта:

Байты 1-2 содержат действительную длину записи в 16-ричной системе, например, 1526 записывается как х

.05F6..

Байты 3-4 содержат значение x .0000. в 16-ричной системе.

RL = длина записи в 5 байтов.

Максимальная длина записи составляет 19 992 байта ( исключая указатель длины записи (RDW) в 4

байта) с фиксированной частью в 252 байта. Начиная с позиции 253 запись содержит данные переменной

длины.

Примечания:

HDR = Головная метка файла

PX = Элементы префиксов (см. Таблицы ниже в Приложении 2).

Номера в скобках, например (7) означает элементы префикса, описанных в таблицах Приложения 2.
  1   2   3

Похожие:

Рефератами и полными текстами iconСпособы распознавания и противодействия
Кроме номера, у каждой схемы имеется год описания и номер в соответствующем ежегодном обзоре мошенничеств с недвижимостью, с полными...

Рефератами и полными текстами iconПрочитайте тексты и установите соответствие между заголовками 1-8...
Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую...

Рефератами и полными текстами iconПрочитайте тексты и установите соответствие между заголовками 1-8...
Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую...

Рефератами и полными текстами iconФирменный бланк с полными реквизитами
Прошу Вас определить возможность и предоставить технические условия для подключения объекта капитального строительства (гостиница),...

Рефератами и полными текстами iconСмысловое чтение как метапредметный результат образования
В федеральном государственном образовательном стандарте ведущая роль сегодня отводится умениям работы с текстами, которые являются...

Рефератами и полными текстами iconВзаимоотношения с друзьями и в школе
Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую...

Рефератами и полными текстами iconДосуг и увлечения молодежи
Прочитайте тексты и установите соответствие между заголовками 1 – 8 и текстами а – G. Запишите свои ответы в таблицу. Используйте...

Рефератами и полными текстами iconBad weather warnings Calculating weather Sports weather
Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую...

Рефератами и полными текстами iconПодготовка к егэ по обществознанию (элективный курс)
Егэ по обществознанию. Ученики смогут осмыслить стратегию собственных действий при операциях с понятиями, работе с диаграммами и...

Рефератами и полными текстами iconЭлективный курс 11 класс Пояснительная записка: программа элективного...
Егэ по обществознанию. Ученики смогут осмыслить стратегию собственных действий при операциях с понятиями, работе с диаграммами и...

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск