О. М. Топоркова информационные технологии

Скачать 1.71 Mb.

Название	О. М. Топоркова информационные технологии
страница	3/20
Тип	Учебное пособие

1 2 3 4 5 6 7 8 9 ... 20

1. Структура информационного процесса

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты. Являясь объектом преобразования в ИТ, информация имеет следующие виды:

факты – результат наблюдения за источником информации¹ (ИИ), представленный произвольным образом (например, в виде текстовой, речевой, визуальной форме),
данные – это факты, дискретно описывающие ИИ, т.е. характеризующие отдельные его свойства. Они отличаются высокой степенью структурированности в отличие от более свободных форм, характерных для фактов,
знания – это закономерности ИИ (принципы, связи, законы). Они позволяют специалистам ставить и решать определенные задачи. Это итог теоретической и практической деятельности человека, отражающий накопление предыдущего опыта и отличающийся высокой степенью структурированности.

При переносе информации от источника к потребителю (ПИ) она проходит последовательно следующие фазы (говорят – фазы обращения), составляющие информационный процесс (рис. 1.1):

извлечение - это переход от реальной предметной области к ее описанию в некотором виде,
обмен - это передача информации на расстояние для организации быстрого доступа к ней,
обработка – это любое преобразование значений или структур информации,
накопление – это скапливание и долговременное сохранение информации,
представление - это отображение информации потребителю в удобной для него форме.

Рис. 1.1. Структура информационного процесса

1.1. Извлечение информации

Извлечение информации – это процесс ее прохождения от ИИ к сигналу, целью которого является получение и фиксация сведений о некоторых объектах, их свойствах, структурных связях между ними, функциях, выполняемых этими объектами, над ними или для них.

Извлечение информации может производиться или человеком (наблюдателем, аналитиком, ИТ-специалистом), или с помощью технических средств и систем, т.е. аппаратно. Тогда в первом случае этот процесс называется сбором информации, во втором – восприятием информации.

Сбор информации

В силу того, что информационные ресурсы включают факты, данные и знания, схема сбора информации может иметь вид рис. 1.2:

безымянный.bmp

Рис. 1.2. Схема сбора информации
По связи 1 наблюдаются и неформально описываются факты, имеющие место в предметной области. Поскольку ИИ безграничен, факты должны выявляться в соответствии с важностью отдельных параметров для решения требуемой задачи. Для корректной реализации этой фазы наблюдатель должен обучаться, профориентироваться и специализироваться. По связи 6 эти факты могут фиксироваться на некотором носителе для накопления, обработки или обмена (это регистрация данных – см. п. 1.1.1.2).
Пусть, например, разрабатывается ИТ для задачи регулирования деканатом контингента студентов после сессии, т.е. для составления списков студентов на отчисление и на перевод в следующий семестр на основании результатов сдачи сессии. Для автоматизации этой задачи ИТ-специалист выявляет в предметной области (т.е. в деканате) следующие факты:

студент Х имеет оценку 2 по информатике – он отчисляется,
студент Y имеет оценку 2 по физике – он отчисляется,
студент Z не имеет оценки 2 ни по одной дисциплине – он переводится в следующий семестр.

По связи 2 факты обобщаются, структурируются и превращаются в данные (это формирование данных – см. п. 1.1.1.1). При этом в предметной области выделяются понятия и их свойства, устанавливаются связи между отдельными понятиями, определяются последовательности событий во времени.
Для нашего примера на основании обобщения фактов выделяются понятия со свойствами (т.е. происходит структурирование фактов):

понятие свойства

студент фамилия студента

дисциплина название дисциплины

Устанавливается связь между понятиями «дисциплина» и «студент»: она формирует понятие «экзамен» со свойством «оценка»:

понятие связанные понятия свойство

экзамен дисциплина, студент оценка

Полученные результаты формируют модель данных предметной области – она описывает объекты, их свойства и структурные связи между объектами. Данная модель может использоваться для проектирования баз данных ИТ (связь 5).

Устанавливается последовательность событий: наличие двойки по какой-либо дисциплине (обобщение) приводит к отчислению. Выполняется еще одна операция над фактами - анализ и определение нового данного: для решения о дальнейшей судьбе студента в вузе можно использовать минимальную оценку в сессию (это новое данное).

В результате формируется структура данных, которая описывает процедурные параметры ИИ, важные для решения задачи:

фамилия студента	минимальная оценка	решение деканата
Х	2	отчисляется
Y	2	отчисляется
Z	>2	переводится (в следующий семестр)

По связи 3 данные еще более обобщаются. В них выявляются скрытые закономерности путем определения причинно-следственных связей между элементами данных.
В примере на основании дальнейшего обобщения наблюдателем формируется знание как система правил, по которым работает деканат:

для каждого студента: если минимальная оценка=2 отчисляется,
для каждого студента: если минимальная оценка>2 переводится.

Полученное знание есть алгоритмическая модель предметной области: она описывает функции, выполняемые над объектами или самими объектами. По связи 4 выполняется программная реализация данной модели.

Совокупность модели данных и алгоритмической модели является информационной моделью предметной области.

Представленная схема процесса извлечения информации является обобщенной и имеет различные реализации:

последовательность связей 1 – 2 – 5 используется для разработки информационного обеспечения ИТ – баз и банков данных,
последовательность связей 1 – 2 – 3 – 4 употребляется для разработки программного обеспечения ИТ – прикладных программ, реализующих различные алгоритмы обработки данных,
последовательность связей 1 – 6 применяется при эксплуатации ИТ:

для ведения информационных массивов, т.е. для ввода в них актуальной информации, отражающей состояние предметной области,
для ввода исходной информации при выполнении прикладных программ.

1.1.1.1. Формирование данных

На данном этапе возможно проведение классификации полученной информации с помощью иерархического и фасетного методов. Каждый из методов использует выделенное ранее множество свойств объектов и их значений (здесь они называются классификационными признаками).

При иерархической классификации все исходное множество объектов, соответствующих анализируемой предметной области, образует нулевой уровень классификации (он вначале является текущим). Затем выполняются шаги:

нулевой уровень делится на классы в зависимости от выбранного классификационного признака. Полученные группы образуют первый уровень;
каждый класс первого уровня делится на подклассы в соответствии со своим признаком классификации - получается второй уровень классификации (использование оригинального признака классификации при этом и каждом последующем разбиении на классы позволяет применять независимые классификационные признаки в разных ветвях иерархической структуры);
полученный уровень классификации становится текущим, и к нему применяется первый шаг.

Пример 1. Пусть решается задача анализа успеваемости отдельных студентов в учебных группах первого курса специальностей кафедры СУиВТ по итогам зимней сессии. Наблюдателем выявлены следующие характеристики предметной области, существенные для решаемой задачи:

на первом курсе по кафедре СУиВТ набраны 2 учебные группы с шифрами АС и ВС;
в зимнюю сессию включены экзамены по дисциплинам (условно):

для группы АС – информатика, математика;
для группы ВС – физика, культурология;

возможные оценки за экзамены – от 2 до 5.

Требуется построить классификацию студентов первого курса кафедры СУиВТ для решения задачи анализа результатов сессии, применив метод иерархической классификации.

Решение

Зададимся нулевым уровнем классификации – это все множество студентов первого курса кафедры СУиВТ (табл.. 1.1). Применим первый классификационный признак – пусть это шифр учебной группы. Получим первый уровень классификации.

Таблица 1.1

Классификатор для примера 1

студенты первого курса кафедры СУиВТ						0-й уровень

	ВС			АС		1-й уровень

информатика		математика	физика		культурология	2-й уровень

2 3 4 5		2 3 4 5	2 3 4 5		2 3 4 5	3-й уровень

К каждому классу первого уровня применим классификационный признак – дисциплина с соответствующими учебной группе значениями. Получим второй уровень классификации. К каждому классу второго уровня применим классификационный признак – оценка. Получим третий уровень классификации.

Классификатор построен.
При фасетной классификации признаки классификации называются фасетами и выбираются независимо друг от друга. Каждый фасет содержит совокупность однородных значений данного классификационного признака.
Пример 2. Построить фасетный классификатор для задачи из примера 1.

В соответствии с выявленными классификационными признаками и их значениями имеем табл. 1.2:
Таблица 1.2

Классификатор для примера 2

Учебные группы	Дисциплины	Оценки
ВС	Информатика	5
АС	Математика	4
	Физика	3
	Культурология	2

Полученная таблица и есть классификатор. При этом данные, находящиеся в одной строке, никак не связаны.

1.1.1.2. Регистрация данных

В случае регистрации на бумажный носитель (документ) осуществляется визуальный контроль – это зрительный просмотр документа в целях проверки полноты, актуальности, наличия подписей ответственных лиц и т.д. Используются следующие виды бумажных носителей:

содержащие произвольный текст, т.е. текст или иллюстрации произвольного вида и содержания (примером такого носителя является конспект, который студент ведет на лекциях);
стилизованные, ориентированные на использование информации автоматом, например, индекс на почтовом конверте, налоговая декларация и т.п.

Часто бумажный носитель используют как промежуточное звено для последующего переноса данных на электронный носитель. В этом случае для уменьшения числа возможных ошибок при переносе данных применяют следующие приемы:

разрабатывают правила составления документа на бумажном носителе (это связано с унификацией и стандартизацией форм документов);
обеспечивают совместимость форматов исходного бумажного и электронного документов.

Совместное использование бумажного и электронного носителя имеет место при регистрации результатов сдачи сессии. Оценив ответ студента, преподаватель записывает оценку в экзаменационную ведомость – регистрирует ее. Переносом данных с одного носителя на другой занимается методист деканата, когда переносит экзаменационные оценки из ведомости преподавателя в электронный журнал учета. Уменьшение числа ошибок при таком переносе может достигаться следующими приемами:

единой структурой бумажных экзаменационных ведомостей, которые заполняет преподаватель,
регламентацией для преподавателя формы оценки в ведомости: всегда цифра (4, 3 и т.д.), а не символьное данное («хор.», «хорошо» и т.п.);
единой структурой ведомости и самого журнала: так, если ведомость последовательно содержит графы «ФИО студента», «Дата сдачи экзамена», «Оценка», то такая же последовательность граф желательна и в электронном журнале.

В случае электронного носителя при регистрации применяется некоторый машинный код (построенный, например, на базе ASCII-кода), который может выполнять дополнительные функции эффективного, криптографического или помехозащитного характера. При этом используется экран монитора, который позволяет применять следующие приемы, облегчающие оператору проводить регистрацию и обрабатывать ошибки ввода:

начало зоны ввода данных указывается курсором;
на экране содержится описание значения, которое должно быть помещено в рабочую зону (своеобразная подсказка оператору);
используются средства визуализации для показа ошибок;
используются редактирующие функции: дублирование символов, пропуск нескольких позиций, стирание символов, вставка символов, дополнение нулями или удаление незначащих нулей, автозамена;
автоматически добавляются данные, например, дата, номера страниц, время, оглавление и т.д.

После того, как данные записаны на электронный носитель, можно организовать дополнительный контроль правильности данных. Для этого используются следующие приемы:

контроль формата данного (типа и числа символов);
контроль идентичности: введенное данное сравнивается с имеющимся в системе;
проверка допустимости данного: может выполняться для всего набора записанных данных или для отдельного данного путем вычислительных операций и сравнения с некоторой суммой;
контроль по граничным значениям (диапазон);
контроль сопоставлением, когда дважды вводится одно и то же данное.

Некоторые из этих приемов можно найти в прикладных пакетах Word, Excel, Access.

При регистрации возможно кодирование информации регистрационными и классификационными методами. Цель такого кодирования (замена данного на условное обозначение) - уменьшение объема регистрируемой информации и, возможно, защита от несанкционированного доступа.

Регистрационные методы кодирования не требуют предварительной классификации объектов и включают порядковое и серийно-порядковое кодирование.

При порядковом кодировании объекты обозначаются числами натурального ряда или другими символами. Применяется, когда количество объектов невелико.
Пример 3. Выполнить порядковое кодирование для названий дисциплин, шифров учебных групп и оценок из примера 1.

При решении этой задачи преследуем две цели – уменьшение объема информации (для учебных групп и дисциплин) и шифрование для защиты от несанкционированного доступа (для оценок). Примерная система кодирования будет иметь вид:

Шифры учебных групп	Коды	Названия дисциплин	Коды	Оценки	Коды
ВС	1	Информатика	1	5	#
АС	2	Математика	2	4	$
		Физика	3	3	@
		Культурология	4	2	)

При серийно-порядковом кодировании предварительно выделяются группы объектов, которые составляют серию, затем в каждой серии производится порядковое кодирование. Сами серии также кодируются с помощью порядкового кодирования. Между кодами серии и кодами ее элементов ставится разделитель. Применяется, когда число объектов сравнительно велико, но классификация не применяется.
Пример 4. Выполнить серийно-порядковое кодирование для названий дисциплин, условно предположив, что их число велико.

Для кодирования упорядочим значения по алфавиту и разобьем список на две равные части - серии. Первой серии присвоим код А, второй – В. Элементы в каждой серии пронумеруем по порядку. Получим:

Серия А Серия В

1 Информатика 1 Математика

2 Культурология 2 Физика
Тогда получим коды:

Дисциплины Коды

Информатика А.1

Математика В.1

Физика В.2

Культурология А.2
Классификационные методы кодирования ориентированы на проведение предварительной классификации объектов на основе иерархического или фасетного методов. Включают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классификации – сначала записывается код класса первого уровня, затем – второго и т.д. Коды классов формируются способом регистрационного кодирования, между кодами разных уровней классификации возможны разделители.
Пример 5. Выполнить последовательное кодирование для вершин третьего уровня классификатора из примера 1. При этом использовать коды признаков, полученные при порядковом кодировании из примера 3.

Припишем коды из примера 3 вершинам классификатора из примера 1. Результат представлен в табл. 1.3 (коды приписаны вершинам справа и выделены жирным стилем).

Таблица 1.3

Последовательное кодирование для примера 5

студенты первого курса кафедры СУиВТ						0-й уровень

	ВС	1		АС	2	1-й уровень

информатика 1		математика 2	физика 3		культурология 4	2-й уровень

2) 3@ 4$ 5#		2) 3@ 4$ 5#	2) 3@ 4$ 5#		2) 3@ 4$ 5#	3-й уровень

Тогда, например, для класса студентов из группы ВС, получивших оценку 5 на экзамене по информатике, сформируем код: 1.1.#, где точка играет роль разделителя.

Параллельное кодирование используется для фасетной классификации. Фасеты кодируются с использованием регистрационного кода, между кодами разных уровней возможны разделители.
Пример 6. Выполнить параллельное кодирование для класса со следующими значениями классификационных признаков (при построении кода учитывается и порядок признаков): дисциплина = физика; учебная группа = АС; оценка = 3. При этом использовать коды признаков, полученные при порядковом кодировании из примера 3.

Имеем код: 3.2.@, где точка играет роль разделителя.

1.1.2. Восприятие информации

При восприятии информации техническим устройством выделяются следующие этапы:

первичное восприятие и измерение информации;
анализ информации;
распознавание введенного сигнала.

Рассмотрим, как выполняется восприятие информации сканером – устройством для ввода в компьютер двумерных изображений.

Принцип действия сканера очень прост. Поверхность с изображением просматривается (сканируется) непрерывным лучом света, испускаемым фотодиодом, в направлении, которое на рис. 1.3 изображено пунктирными линиями:
безымянный.bmp

Рис. 1.3. Схема работы сканера
Отражаемый луч улавливается датчиком, который замеряет интенсивность отраженного луча с определенной частотой (получается дискретный по времени и значению сигнал). Интенсивность потока преобразуется в двоичный код (в простейшем случае - в однобитовый) по следующему правилу: если в точке падения луча на поверхность есть изображение, оно кодируется двоичной 1, если нет – двоичным 0².

Таким образом, после сканирования всей поверхности каждая ее точка представляется (кодируется) двоичным 0 или 1. Получается растровый формат исходного изображения. На этом работа сканера может быть закончена, если пользователь настроил сканер на ввод изображения.

Если вводится текст (настройка на ввод текста также выполняется пользователем), в растровом формате изображения начинают распознаваться отдельные символы. В результате получается текстовый формат, который может обрабатываться, например, текстовым процессором.

1.1.2.1. Первичное восприятие и измерение информации

Для сканера этот этап выполняется датчиком, который преобразует интенсивность отраженного светового потока в дискретный по времени и значению электрический сигнал.

Пусть в результате сканирования исходной поверхности с изображением выделено (nxm) точек, с которых сняты замеры интенсивности отраженного луча. Эти замеры преобразованы в электрические сигналы U_ij, где i={1,2,…,n}; j={1,2,…,m}. Таким образом, в результате данного этапа сформирован двумерный массив размером (nxm), элементы которого содержат значения напряжения в каждой точке с координатами (i,j):

U₁₁	U₁₂	U₁₃	…	U_1m
U₂₁	…	…		U_2m
U₃₁				U_3m
…				…
U_n1	U_n2	U_n3	…	U_nm

1.1.2.2. Анализ результатов первичного восприятия и измерения

Этот этап состоит в кодировании значений U_ij по следующему правилу (в простейшем случае, когда вводится черно-белое изображение): 1, если U_ij> U_порог; 0, если U_ijU_порог, где U_порог – некоторое пороговое значение напряжения.

Тогда в результате анализа значений из массива, изображенного выше, получим, например, бинарный двумерный массив:

0	0	0	0
0	0	1	0
0	0	1	0
0	1	1	0
0	1	1	0
0	1	1	0
0	1	1	0
1	1	1	1
0	0	0	0
0	0	0	0

Очевидно, данный этап включает в себя и кодирование. В самом деле, числовые значения напряжений U_ij преобразованы в двоичные значения. Если вводится графическое изображение (рисунок), на этом работа сканера закончена. Получен растровый формат.

Если вводится текст, выполняется следующий этап – распознавание символов.

1.1.2.3. Распознавание символов

Рассмотрим, как решается эта задача в простейшем случае, когда сканер предварительно обучается распознавать символы того или иного шрифта.

В этом случае в сканер вводятся по каждому шрифту (с учетом стиля и размера символов) списки шаблонов символов в виде растровых решеток. Например, шаблон единицы, представленный растровой решеткой размером 10х10, изображен ниже слева, шаблон строчной латинской буквы l – справа:

0	0	0	0	0	0	0	0
0	0	1	0	0	1	1	0
0	1	1	0	0	1	1	0
0	1	1	0	0	1	1	0
0	1	1	0	0	1	1	0
0	1	1	0	0	1	1	0
0	1	1	0	0	1	1	0
1	1	1	1	1	1	1	1
0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0

Полученный после анализа бинарный массив сопоставляется с шаблонами из памяти сканера. Подсчитывается число совпавших растровых элементов, равных 1. Выбирается тот символ, для которого число совпавших растровых элементов максимально.

Сравним изображение из п.1.1.2.2 с левым изображением: число совпавших элементов – 14. Сравнение того же изображения с правым изображением дает число совпавших элементов – 13. Таким образом, введенный символ – 1.

Распознанный символ кодируется, например, ASCII-кодом.

Очевидно, и в случае восприятия информации техническим устройством происходит ее регистрация. При этом, как правило, используются машинные носители информации.