Скачать 0.65 Mb.
|
СТАНДАРТ ST.35 РЕКОМЕНДУЕМЫЙ СТАНДАРТНЫЙ ФОРМАТ ДЛЯ ОБМЕНА ДАННЫМИ ОБ ИНФОРМАЦИИ ОПУБЛИКОВАННЫХ ПАТЕНТНЫХ ДОКУМЕНТОВ В СМЕШАННОЙ МОДЕ НА МАГНИТНЫХ ЛЕНТАХ В ВИДЕ КАТУШЕК ИЛИ КАРТРИДЖЕЙ ТИПА IBM 3480/90 (MMMT) Редакция , принятая Постоянным Комитетом по информационным технологиям на четвертой Пленарной сессии 10 декабря 1999 года ВВЕДЕНИЕ 1. Настоящий стандарт определяет форматы, подлежащие использованию для обмена данными и обработки информации об опубликованных патентных документах в смешанной моде ( mixed mode (MM) на магнитной ленте в виде катушек шириной 1/2 дюйма и картриджей типа IBM 3480/90 (Mixed -Mode Magnetic Tape - MMMT). Данный стандарт основан на международных стандартах и рекомендациях (ISO, WIPO, ITU-T (CCITT)), в необходимых случаях на них делаются ссылки. Данный стандарт обеспечивает представление патентных документов, независящее от используемых аппаратных и программных средств, с особой ссылкой на обмен, осуществляемый на магнитной ленте. 2. Поэтому целью данного стандарта является обеспечение логически независимой структуры обработки патентных документов и обмена всеми данными, относящимися к одному или более патентам, представляющим собой текстовые данные и/или изображения. Это означает, что данный стандарт может использоваться вместо следующих стандартов ВОИС: ST.30, . Рекомендация по стандартному формату магнитной ленты для обмена в машиночитаемой форме библиографическими данными,, рефератами и полными текстами патентных документов ., а также ST.33 .Рекомендуемый стандартный формат для обмена данными в виде факсимильной информации патентных документов.. В целом обмениваемая информация может быть использована для создания и пополнения библиографических баз данных о патентах, но может также использоваться для полнотекстовых и факсимильных баз данных , содержащих патенты, на любых носителях: ленте, твердом диске , дисках CD-ROM и так далее. В особенности данный стандарт позволяет производить обработку следующих данных: (a) полные тексты или части патентных документов, включая библиографические данные, записанные в символьно-кодированном виде. При этом настоятельно рекомендуется, чтобы соответствующие данные были бы размечены с помощью меток (tags) SGML в соответствии со стандартом ВОИС ST.32 (см. ниже). (b) целые страницы документов, представленные как одно изображение независимо от их содержания (библиографические данные, текст или факсимильные изображения). (c) Данные в пределах полнотекстовых документах, которые не могут быть записаны как символьнокодированные данные, такие как : чертежи, химические формулы, сложные таблицы и т.д. могут обрабатываться в качестве так называемых встроенных изображений (embedded images -EMI.s) и определяются как кадры (фреймы). Примечания: (i) Информация в отношении текстовых данных и факсимильных (изобразительных) данных должна представляться в соответствии с идентификацией и набором префиксов в Приложении 2; (ii) Для факсимильных (изобразительных) данных (по пункту 2 b, c выше) рекомендуемым форматом сжатия является ITU-T (CCITT) T.6: Группа 4 (обычно известная как .факсимильная группа 4.), возможно использование также других факсимильных форматов; (iii) Альтернативный способ хранения факсимильных данных приводится в .Приложении 4. : Формат TIFF (Tagged Image File Format, то есть , формат для файлов с изображениями, имеющих метки). Аналогично, рекомендуемым форматом сжатия в пределах записи в формате TIFF является рекомендация Группы 4 ITU-T-(CCITT) T.6. ССЫЛКИ 3. Следующие стандарты имеют принципиальное значение для данной рекомендации: (a) Стандарт ВОИС ST.32 - Рекомендация для разметки патентных документов с использованием SGML (Standard Generalized Markup Langauge , то есть Стандартный язык обобщенной разметки). (b) Cтандарт ВОИС ST.33 - Рекомендуемый стандартный формат для обмена данными в виде факсимильной информации о патентных документах. (Примечание: информация относительно префиксов в Приложении 2 аналогична, но не идентична информации в стандарте ST.33, которая была использована в качестве основы индексации в данном стандарте Ст.33). (c) ISO 1001 Обработка информации - идентификация магнитной ленты с помощью меток и структура файлов для обмена информацией. (d) ISO 8879 -1986 Обработка информации - Текстовые и офисные системы - Стандартный язык обобщенной разметки (SGML). (e) ITU-T (CCITT), Blue Book, Том VII- Раздел VII.3 Периферийное оборудование и Протоколы записи для телематических служб (дистанционная связь с компьютером) - Рекомендации Т.0-Т.63 -Рекомендация Т.6 - Схемы кодирования факсимильных изображений и функции контроля за кодированием для факсимильных аппаратов Группы 4 (1984, дополнено в 1988). (f) Формат TIFF (Формат файлов с изображениями, имеющими метки) , поддерживаемый фирмой Microsoft Corp. от имени Aldus ( Детальная информация о структуре формата Tiff может быть найдена в издании Microsoft Windows Software Development Kit, версия 2.0: . Расширения для Виндоуз. (Windows Extensions), главы с 1 по7., представленные с согласия фирмы Hewlett-Packard Company, отделение Greely Division). ПРИЛОЖЕНИЯ 4. Приложения к данной Рекомендации содержат: Приложение 1 Набор символов для кодирования меток и префиксов для записей (IBM EBCDIC) Приложение 2 Определение элементов префиксов Приложение 3 Соглашение о кодировании факсимильных изображений Приложение 4 Формат TIFF (формат для файлов с изображениями , имеющих метки) Приложение 5 Примеры кодирования патентных документов в формате смешанной моды ОПРЕДЕЛЕНИЯ 5. Для целей данной рекомендации применяются следующие специальные определения: (a) МЕТКА ЗАПИСИ: короткий файл на магнитной ленте, содержащий имя и характеристики всей ленты. Метка ленты начинается с метки тома , а каждый файл данных на ленте имеет предшествующую метку заголовка и последующую метку- маркер конца В этом отношении данный стандарт следует положениям Стандарта ИСО 1001. (b) ПАТЕНТНЫЙ ДОКУМЕНТ: выражение .патентный документ. включает патенты на изобретения, патенты на растения, авторские свидетельства, патенты на образцы. свидетельства о полезности, полезные модели, дополнительные документы к ним и опубликованные заявки на выдачу этих документов. ( Патентный документ может содержать субдокументы, см. ниже). (c) ЛОГИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных, относящихся к одному и тому же патентному документу и рассматриваемому как одно целое. Логическая запись может содержать различные компоненты документа. (d) КОМПОНЕНТ ДОКУМЕНТА: совокупность полей и данных в пределах логической записи (патентного документа), которая может рассматриваться как одно целое, например: полный текст патентного документа, одно изображение. (e) СУБДОКУМЕНТ ПАТЕНТА: в пределах варьируемой части текстового компонента патентный документ может содержать такие субдокументы, как: библиографические данные, реферат, описание, формулу, чертежи, отчет о поиске. (f) КОМПОНЕНТ С ИЗОБРАЖЕНИЕМ: компонент с изображением содержит одно изображение: встроенное изображение, чертеж, полную страницу факсимильного изображения (которая может включать несколько изображений). (g) БЛОК: совокупность записей, которая может размещаться в 20 000 байтах. (h) ФИЗИЧЕСКАЯ ЗАПИСЬ: совокупность всех полей и данных в пределах документного компонента, которая может рассматриваться как одно целое. Если объем документного компонента превосходит объем блока в 20 000 байтов, то данные должны быть записаны ( перенесены) в более, чем одну физическую запись. (i) СПЭННИНГ (ПЕРЕНОС): техника записи, используемая для разбиения логической записи на более чем одну физическую запись, поскольку размер логической записи может быть больше максимального размера физической записи. ЧАСТЬ 1: СПЕЦИФИКАЦИИ ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ В СМЕШАННОЙ МОДЕ (ЛОГИЧЕСКАЯ ЗАПИСЬ И СОСТАВЛЯЮЩИЕ ЭЛЕМЕНТЫ) 6. Эта часть стандарта описывает рекомендуемый общую логическую структуру расположения и форматирование опубликованных патентных документов, включаемых в обмен на магнитной ленте в виде катушечного носителя шириной 1/2 дюйма или картриджа типа IBM 3480/90, описанных в части 2. 7. Логическая запись не может содержать более одного патентного документа. 8. Набор данных (файл) с патентными документами в электронном виде может содержать последовательность логических записей, организованных, например, в возрастающем порядке идентификационных обозначений документов. 9. Каждая логическая запись в отношении определенного патентного документа может содержать информацию как в символьнокодированной ( текстовой) форме, так и факсимильной, а также сочетания символьнокодированной и факсимильной форм. 10. Следующий рисунок иллюстрирует общую структуру: 11. Префиксы могут содержать код страны, номер документа, его вид и т.д., а также любую другую общую информацию, которая является полезной для обработки переменной части документа. (См. Приложение 2). 12. Переменная часть может содержать два основных компонента: (a) в отношении символьнокодированной части соответствующий компонент может состоять из всех текстовых данных, относящихся к данному документу, то есть, таких субдокументов, как: библиографические данные, реферат, описание, формула, чертежи, отчет о поиске и т.д. Настоятельно рекомендуется, чтобы эти данные кодировались в соответствии со стандартом ВОИС ST.32, который определяет метки SGML, позволяющие структурирование данных таким образом, которое облегчает дальнейшую обработку. В частности, данные метки включают ссылки на факсимильные элементы внутри текста - так называемые встроенные изображения-, кодируемые согласно меткам < EMI>. Это обеспечивает связь с самим факсимильным изображением . (Рекомендуемые наборы символов, а также ссылки на единичные символы для этих данных также определены в ST.32 ВОИС). [В отношении символьнокодированной части возможно также рассматривать одну страницу патентного документа в качестве одного компонента, за которым следуют все относящиеся факсимильные элементы (если они имеются). В данном случае определения отдельных префиксов, например, 18 (см . Приложение 2) приобретают большую значимость.] (b) В отношении изображений для каждого кодированного изображения ( полной страницы или встроенного изображения) создается соответствующий компонент, кодированный с помощью EMI или RTI (см. ниже). Таким образом, каждое изображение( либо полная страница, либо встроенное изображение) рассматривается в качестве компонента. Изображения записываются в последовательности их появления в логической записи документа, о чем делается отсылка в соответствующей позиции символьнокодированой части документа. Их соответствие должно быть точным. 13. Изображения могут храниться в переменной части записи различными способами: (a) битовое (растровое) представление согласно рекомендации Группа 4; (b) битовое (растровое) представление в формате TIFF согласно рекомендации группы 4. Данный стандарт позволяет использовать дальнейшие расширения (CGM, JPEG и т.д.), при этом в префиксе указывается, каким образом записано данное изображение. Последовательность изображений может быть идентифицирована с помощью порядковых номеров из 8 байтов. Обычно он состоит из четырех знаков для номера страницы, за которыми следуют четыре знака для указания номера кадра. Альтернативно, могут использоваться последовательные номера, начинающиеся с единицы для каждого документа ( например, в случаях, когда используются электронные методы публикации без отсылок к бумажным документам). Логическое представление и взаимосвязь указанных переменных компонентов можно проиллюстрировать следующим образом: Типовой патентный документ может быть структурирован следующим образом (разметка осуществляется в соответствии со стандартом ST.32): Таким образом, в выше приведенном примере мы имеем один патентный документ (логическая запись), содержащий три документных компонента: текстовые данные и два изображения. Один компонент -текстовые данные- содержит шесть субдокументов. Связь между документами обеспечивается с помощью меток рамках текстовой информации и с помощью префиксов в рамках факсимильной информации. Имя файла для логической записи, совпадающее обычно с номером патентной заявки или номером публикации, может связывать все компоненты в одно целое. Другие примеры можно найти в Приложении 5. Следующий раздел стандарта иллюстрирует, как эти данные могут быть записаны на магнитную ленту (катушечный носитель или картридж) для обмена информацией . Использование других носителей, отличных от магнитной ленты, остается открытым для дальнейшего изучения. ЧАСТЬ 2: ФИЗИЧЕСКИЕ ХАРАКТЕРИСТИКИ КОМПОНЕНТОВ ДЛЯ ЗАПИСИ НА МАГНИТНУЮ ЛЕНТУ Стандартные характеристики магнитной ленты 14. Стандартные характеристики магнитной ленты должны быть следующими: (a) магнитная лента на катушке шириной 1/2 дюйма, 9-ти дорожечная или 18/36 дорожечная лента в картридже типа IBM 3480/90; (b) плотность записи 6250 бит на дюйм для катушечных лент, 48 КВ/ дюйм для картриджей; (c) стандартные метки для тома: заголовок 1 и заголовок 2 способом, как это предусмотрено в стандарте ИСО 1001, который в отношении меток совместим с метками IBM, метки пользователя могут также добавляться; (d) кодирование метки и префикса записи должно производиться с помощью букв латинского алфавита и арабских цифр, полностью совместимо с кодированием в соответствии с EBCDIC IBM и кодировочным набором символов, представленным в Приложении1 ; (e) один файл может быть распространен на несколько ленточных томов согласно стандарту ИСО 1001. Структура файла 15. Следует применять стандарт ИСО 1001, который определяет идентификацию магнитной ленты, формат метки и ее использование. 16. Каждый набор данных (файл) может содержать совокупность логических записей, каждая из которых представляет патентный документ. 17. Следующая фигура иллюстрирует общую структуру файла: 18. Максимальное число физических записей в пределах одной логической записи составляет Поэтому теоретическая длина логической записи должна быть менее чем позиций (максимальная длина блока 20 000 минус 4 байта для указателя длины блока). 19. Общая максимальная длина физической записи составляет 19 996 включая 4 байта для указателя длины записи. Физические характеристики записи 20. Физическая запись должна иметь следующие характеристики: (a) способ записи с переменным блокированием, то есть блок может содержать разное число физических записей; (b) максимальная длина блока составляет 20 000, включая 4 байта для указателя длины блока; (c) максимальная длина физической записи составляет 19996 , включая 4 байта для указателя длины записи; (d) структура физической записи может быть схематически представлена следующим образом: 21. Каждая физическая запись начинается с префикса из 256 байтов. Это включает дескриптор записи (указатель длины бинарной записи из 4 байтов), однако в зависимости от системной среды данное поле не может быть непосредственно доступным для некоторых прикладных программ, например, IBM OS/VS COBOL. Префикс определяется в Приложении 2. 22. Для каждого компонента создается, по крайней мере, одна физическая запись. Когда длина компонента превышает максимальную физическую длину, допустимую при использовании метода переноса (спэннинга), описываемого ниже , обычно создаются несколько физических записей. 23. Физические записи создаются на магнитной ленте с использованием переменной структуры записи. Метод переноса (спэннинга) 24. Метод переноса (спэннинга) записи необходим для компонентов вследствие невозможности магнитоленточных устройств обрабатывать в обычных условиях физические записи, превосходящие 20000 символов. Префикс записи содержит два элемента , касающиеся метода переноса, а именно: элемент 9 и 19 (номер последовательности записи компонента и наибольший номер последовательности записи компонента документа, оба занимающие 2-байтовые поля, см. Приложение 2, рекомендуемое для использования в прикладных программах). 25. Для иллюстрации примера структуры расположения данных на ленте и связанные с этим префиксы могут оказаться полезными следующие примеры: (Примечание: Обычно первый компонент всегда содержит символьнокодированные данные, за которыми может следовать n-е число факсимильных изображений.). VOL = метка тома ленты HDR = головная метка файла EOF = хвостовая метка файла TM = ленточный маркер BDW = дескриптор блока в 4 байта: Байты 1-2 содержат действительную длину блока в 16-ричной системе, например, 19774 записывается как х .4D3E.. Байты 3-4 содержат значение x .0000. в 16-ричной системе. RDW = дескриптор записи в 4 байта: Байты 1-2 содержат действительную длину записи в 16-ричной системе, например, 1526 записывается как х .05F6.. Байты 3-4 содержат значение x .0000. в 16-ричной системе. RL = длина записи в 5 байтов. Максимальная длина записи составляет 19 992 байта ( исключая указатель длины записи (RDW) в 4 байта) с фиксированной частью в 252 байта. Начиная с позиции 253 запись содержит данные переменной длины. Примечания: HDR = Головная метка файла PX = Элементы префиксов (см. Таблицы ниже в Приложении 2). Номера в скобках, например (7) означает элементы префикса, описанных в таблицах Приложения 2. |
Кроме номера, у каждой схемы имеется год описания и номер в соответствующем ежегодном обзоре мошенничеств с недвижимостью, с полными... | Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую... | ||
Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую... | Прошу Вас определить возможность и предоставить технические условия для подключения объекта капитального строительства (гостиница),... | ||
В федеральном государственном образовательном стандарте ведущая роль сегодня отводится умениям работы с текстами, которые являются... | Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую... | ||
Прочитайте тексты и установите соответствие между заголовками 1 – 8 и текстами а – G. Запишите свои ответы в таблицу. Используйте... | Прочитайте тексты и установите соответствие между заголовками 1–8 и текстами А–G. Запишите свои ответы в таблицу. Используйте каждую... | ||
Егэ по обществознанию. Ученики смогут осмыслить стратегию собственных действий при операциях с понятиями, работе с диаграммами и... | Егэ по обществознанию. Ученики смогут осмыслить стратегию собственных действий при операциях с понятиями, работе с диаграммами и... |
Поиск Главная страница   Заполнение бланков   Бланки   Договоры   Документы    |