Актуальные проблемы кластерного анализа


НазваниеАктуальные проблемы кластерного анализа
страница5/12
ТипДокументы
filling-form.ru > Туризм > Документы
1   2   3   4   5   6   7   8   9   ...   12

Структура системы

6.1. Принципиальная схема



6.2 Программная реализация библиотеки


Модуль ввода данных

Связь данных пользователя и данных работы библиотеки задаётся не произвольно. Надсистема библиотеки не может просто так подключить свою базу данных для обработки информации. В первую очередь это связано с необходимостью строго типизировать библиотеку и уменьшать абстракцию, следовательно, сжимать область применения программного продукта. Во-вторых, работая с абстрактными данными библиотека не получает прямого доступа к пользовательским данным, а так же не несёт в себе опасности кражи данных. Надсистема, использующая библиотеку перед началом работы должна передать конфигурации для подключения к заранее созданной базе данных. В этой базе будут размечены необходимые таблицы. Если таблицы уже существуют, то драйвер базы данных библиотеки продолжит заполнение таблиц информацией. После подключения к базе данных надсистема получает возможность передавать библиотеке данные в итеративном режиме по одному событию. Событием будем называть целочисленное значение, характеризованное двумя уникальными метками. Первая метка – идентификатор процесса, которому принадлежит событие, вторая – кэш имени события. Библиотека не обязана работать с истинными значениями процесса и события, поэтому надсистеме рекомендуется оперировать двумя хэш-таблицами вида «процесс | идентификатор» и «событие | кэш имени события». Ввод информации в систему образован в виде передачи функции добавления процесса с двумя строковыми и одним целочисленным параметрами. Первые два строковых параметра – это идентификатор процесса и кэш имени события соответственно, а третье, целочисленное, инкремент счётчика событий. При получении параметров, библиотека отыскивает в базе данных ячейку, соответствующую паре «идентификатор процесса – кэш имени события» и увеличивает её значение на значение инкремента. Если указанных процесса или события не существует, то происходит их создание. В базе данных также находятся две несвязанных таблицы – хэш таблица идентификатор «процесса | строка» и кэш имени «события | столбец». Удаление записей из базы данных библиотекой не предусмотрено, эта функция ложится на администратора базы данных и сторонние редакторы. В случае обновления исходных данных, рекомендуется сделать резервную копию существующей базы данных библиотеки, очистить текущее содержимое таблиц и агрегировать процессы заново. Это поможет не образовывать коллизий, а скорость выполнения данной операции O(N), где N – число процессов.

Модуль построения ценовых моделей.

Данный модуль предназначен для приёма вектора весов от надсистемы в случае, если экспертом были определены параметры заранее, либо вызов метода, содержащего алгоритм автоматического взвешивания. При вызове метода передачи весов библиотека ожидает получить вектор значений двойной точности с определённым количеством элементов в определённом порядке. Каждый элемент будет ассоциирован с процессом в порядке расположения кэша имени процесса в таблице. Для синхронизации данных предусмотрен метод получение списка событий. Данный метод возвращает вектор строк, где каждый элемент – кэш имени процесса, а положение в векторе соответствует номеру столбца таблицы.

Для автоматического взвешивания необходимо вызвать соответствующей метод, который сформирует вектор коэффициентов и вернёт его надсистеме.

Модуль кластеризации.

В библиотеке предусмотрены два вида кластеризации CLOPE как представитель итерационного метода для категорийных атрибутов и BIRCH с использованием k-means на второй фазе, как представитель иерархического метода для отыскания сферических кластеров с центроидами для объектов с числовыми атрибутами, использующий меру евклидово расстояние как меру схожести.

Для работы алгоритма CLOPE необходим параметр, названный коэффициентом отталкивания (repulsion). Поэтому при вызове метода данного алгоритма ожидается передача параметра двойной точности значением больше 1.

В своей работе алгоритм BIRCH так же не требует априорных данных, но метод кластеризации с применением данного алгоритма ожидает получения порогового значения, числа двойной точности, определяющего максимальный размер кластера.

Данные результатов работы алгоритмов хранятся в таблицах, представляющих из себя следующую структуру данных:

Модуль рекомендации на основании запросов.

Библиотека решает два экспертных вопроса – это отыскание группы объектов, схожих с данным, и прогнозирование неизвестных параметров новых объектов.

Решение первого вопроса представлено методом поиском кластера. Данный метод переопределён для двух видов запроса:

  • Найти кластер, в который попал процесс. Тогда параметром ожидается строка, содержащая идентификатор искомого процесса. В результате работы метода будет возвращён номер кластера.

  • Найти кластер, в который наиболее вероятно попадёт новый процесс с данными, обладающими полнотой, то есть метод ожидает принять новый вектор, заполненный значениями

На второй вопрос поможет ответить метод прогнозирования события.

Вспомогательный модуль

Вспомогательный модуль позволяет работать с таблицами вне зависимости от модулей вычислений.

Класс получения конкретного значения события позволяет получить данные из таблицы «идентификатор процесса | кэш имени события». Метод получения конкретного процесса принимает параметром идентификатор процесса и возвращает вектор целочисленных данных в порядке размещения кэшей имени процессов в таблице.

Метод получения списка всех процессов выполняется без параметра и возвращает вектор идентификаторов процессов в порядке их расположения в таблице.

Метод получения списка всех событий выполняется аналогично, но возвращает вектор кэшей имён событий в порядке их размещения в таблице.

6.3. Форматы входных и выходных данных:

6.3.1 Модуль ввода начальных данных.


Формат единицы процесса – две бинарные строки формата юникод. Параметры входа [уникальный идентификатор процесса] | [уникальная хэш-сумма имени процесса]

6.3.2. Модуль формирования весовой модели:


Выходные данные:

Строка с хэш-суммами имён процессов, разделённых одной запятой и пробелом. [хэш-сумма №1, ] | [хэш-сумма №2, ] … [хэш-сумма №n].

Входные данные:

Строка с весами в числовом виде, разделёнными запятой. Каждое число должно находиться на позиции, соответствующей ему хэш-суммы имени процесса. При избыточном количестве чисел система отбросит лишние числа справа. При недостаточном их количестве система дополнит входные данные справа единицами.

Если надсистема, использующая библиотеку, будет использовать автоматическую систему поиска весов, то в соответсвующий метод необходимо передать параметры искомого атрибута.

6.3.3. Модуль кластеризации


Входные данные:

Для кластеризации методом CLOPE в соответствующей метод необходимо передать коэффициент отталкивания в виде числового значения двойной точности.
1   2   3   4   5   6   7   8   9   ...   12

Похожие:

Актуальные проблемы кластерного анализа iconАктуальные проблемы
Актуальные проблемы гражданского процесса: Учебно-методическое пособие. М. А. Гранат, Тольятти: тгу, 2012. с. 26

Актуальные проблемы кластерного анализа iconРабочая программа Актуальные проблемы «холодной войны»
Учебная дисциплины «Актуальные проблемы «холоднойвойны» предусмотрена компетентно- ориентированным учебным планом по направлению...

Актуальные проблемы кластерного анализа iconГосударственное образовательное учреждение высшего профессионального...
Актуальные проблемы рекламной деятельности: теория и практика : сб науч тр. / отв ред. А. В. Прохоров; м-во обр и науки рф, г оувпо...

Актуальные проблемы кластерного анализа iconМетодические рекомендации по изучению курса «Актуальные проблемы...
Костенко Р. В., Зубенко Е. И. Актуальные проблемы уголовного процессуального права: Учебно-методическое пособие для студентов юридического...

Актуальные проблемы кластерного анализа iconБиблиографический указатель книг, имеющихся в библиотеке Казанского...
Актуальные проблемы гражданского права: учебное пособие/ под ред. Н. М. Коршунова, Ю. Н. Андреева, Н. Д. Эриашвили. 2-е изд., испр...

Актуальные проблемы кластерного анализа iconМетодические рекомендации по изучению курса «Актуальные проблемы...
Костенко Р. В., Зубенко Е. И. Актуальные проблемы уголовного процессуального права: Учебно-методическое пособие для студентов юридического...

Актуальные проблемы кластерного анализа iconV международная молодежная научная конференция «Актуальные проблемы...
Представлены материалы конференции молодых ученых «Актуальные проблемы современной механики сплошных сред и небесной механики», прошедшей...

Актуальные проблемы кластерного анализа iconМосква Актуальные проблемы современной науки гуманитарные науки часть...
Актуальные проблемы современной науки: Труды 14-й Международной конференции -конкурса «Актуальные проблемы современной науки». Гуманитарные...

Актуальные проблемы кластерного анализа iconЗаявка на обучение по программе «Актуальные проблемы применения законодательства...
«Актуальные проблемы применения законодательства о несостоятельности (банкротстве)»

Актуальные проблемы кластерного анализа iconАктуальные проблемы паремиологии
Типы преобразований словацких, чешских и английских пословиц в Интернет-пространстве

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск