Правительство Российской Федерации Федеральное государственное автономное


НазваниеПравительство Российской Федерации Федеральное государственное автономное
страница1/4
ТипАнализ
filling-form.ru > бланк строгой отчетности > Анализ
  1   2   3   4
Правительство Российской Федерации
Федеральное государственное автономное

Образовательное учреждение

высшего профессионального образования
«Национальный исследовательский университет

«Высшая школа экономики»


Факультет бизнес-информатики
Кафедра бизнес-аналитики

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

На тему

«Построение хранилища данных для анализа

авиаперевозок на территории России»

Студент группы № 473

Смоленцев А. И.


Научный руководитель

к.т.н., доцент Герасимов Н. А.

Рецензент

преподаватель, Периков Ю. А.


Москва, 2013

ОГЛАВЛЕНИЕ
Введение 4

Глава 1. Анализ проблем авиатранспортной отрасли России 7

  1. Комплексный анализ положения авиатранспортной отрасли России 7

  2. Формулировка основных задач работы 10

  3. Анализ инструментария для достижения цели работы 11

Глава 2. Сбор данных для разрабатываемой системы 15

  1. Определение модели предметной области 15

  2. Поиск данных в различных источниках 18

  3. Моделирование данных для разрабатываемой системы 22

Глава 3. Проектирование хранилища данных

и инструментов анализа данных 24

  1. Создание модели хранилища данных 24

  2. Применение ETL-инструмента 30

  3. Применение BI-приложения и моделей data mining 38

Заключение 47

Список использованной литературы 50

Приложение 1 52

Приложение 2 53

Аннотация.
В данной выпускной квалификационной работе проиллюстрировано построение и применение аналитической системы на базе многомерного хранилища данных для анализа проблем и прогнозирования развития авиатранспортной системы в России. В работе был осуществлен сбор данных; затем была спроектирована структура хранилища данных, в которое затем при помощи ETL-инструментов были загружены собранные данные. В конечном итоге система произвела анализ данных по авиаперевозкам, благодаря чему были сделаны некоторые выводы.

Структура работы представлена вводной частью, тремя главами по три параграфа в каждой, заключением, списком использованной литературы и двумя приложениями.

Данная работа будет интересна как специалистам, которые занимаются бизнес-аналитикой, так и другим людям интересующимся развитием и проблемами российской экономики, в частности в авиатранспортной отрасли.

Введение.

Особенностью Российской Федерации является резкое различие уровня развития регионов в зависимости от их территориальной принадлежности. Регионы центральной России, такие как Москва и Московская область, наиболее развиты, в то время как уральские, дальневосточные и южные субъекты федерации обладают гораздо меньшими экономическими возможностями и в большинстве случаев развиваются (если развиваются вообще) довольно медленными темпами. Такое положение вещей накладывает свой отпечаток на производственные и коммерческие сферы деятельности, в том числе на систему и структуру авиаперевозок в России. Авиатранспортная сеть страны покрывает огромную территорию и включает в себя более 125 функционирующих аэропортов. Бóльшая доля потоков в этой отрасли проходит через московский транспортный узел (МТУ), что указывает на централизованное развитие структуры транспортных маршрутов. Примерные соотношения средних исходящих грузовых потоков за месяц для десяти лидирующих по этому показателю городов России (2010-2011 гг., по данным ТКП) представлены на иллюстрации ниже [12].


Иллюстрация : Среднемесячный исходящий грузопоток, тонн



По данным наглядно видно, что Москва обгоняет ближайшего преследователя (Санкт-Петербург) более чем в 10 раз. Таким образом, на базе МТУ сформировался торгово-распределительный центр для всей страны. Для такой большой страны, какой является Россия, такое несбалансированное распределение мощностей играет неблагоприятную роль и является серьезной структурной проблемой.

Очевидно, что тема развития или же реструктуризации авиатранспортной отрасли Российской Федерации заслуживает внимания. В данной работе предпринимается попытка решить проблемы, имеющие место в данной отрасли.

Основная цель работы заключается в построении хранилища данных, благодаря которому будет возможно проанализировать развитие авиаперевозок в России за некоторый период времени, спрогнозировать их объемы в будущем, а самое главное — предложить альтернативную структуру авиатранспортной сети.

В качестве инструментария для выполнения этой задачи в работе предлагается использование технологий Data Warehousing / Business Intelligence (DWH/BI).

Данная работа предполагает следующий поток выполнения работ для достижения поставленной цели:

  1. Комплексный анализ положения авиационной отрасли для выявления особенностей моделирования предметной области для исследования.

  2. Формулировка конкретной задачи и формирование четкого плана выполнения работ в разрезе информационных технологий.

  3. Анализ программных средств, имеющихся на рынке, для каждого из этапов реализации технологий BI/DWH, а именно: этап «проектирование хранилища данных на основе определенной СУБД (системы управления базами данных)», этап «извлечение данных из источников в хранилище данных», этап «реализация инструментов анализа и визуализации данных».

  4. Создание абстрактной модели предметной области с учетом проанализированной информации на этапе комплексного анализа авиатранспортной отрасли.

  5. Определение источников информации об авиационной отрасли и извлечение данных из этих источников.

  6. Моделирование недостающих данных из-за их отсутствия в открытом доступе на основе других немаловажных факторов регионального развития с учетом сезонности авиаперевозок.

  7. Проецирование модели предметной области на модель хранилища данных, имеющего форму «Звезда» (Star-Schema) с учетом особенностей СУБД.

  8. Реализация механизма extract-transform-load (ETL) для переноса данных из различных источников в хранилище данных.

  9. Применение инструментов интеллектуального анализа и моделей data mining на основе хранилища данных для получения выводов и заключений по проблеме работы.


Глава 1. Анализ проблем авиатранспортной отрасли России

      1. Комплексный анализ положения авиатранспортной отрасли России.

Как отмечалось во вводной части данной работы, авиатранспортная сеть в России является централизованной и несбалансированной. Эта ситуация неблагоприятна для экономики как отдельных регионов, так и страны в целом.

Вопрос несовершенности авиатранспортной структуры уже поднимался неоднократно, причем доклады, исследования и предложения звучали как со стороны государственных органов, так и со стороны коммерческих организаций, являющихся участниками рынка авиаперевозок. Также интерес к проблеме проявляет академическая среда, и даже коммерческий сектор экономики, никак напрямую не увязанный с авиаперевозками. Все эти стороны рассматривают и анализируют проблему с разных точек зрения, что позволяет получить целостную картину происходящего в отрасли.

В докладе «Некоторые аспекты региональных авиаперевозок» [12] генерального директора авиакомпании «Полет» на Международном Авиатранспортном Форуме автор демонстрирует, насколько велик дисбаланс грузоперевозок между МТУ и другими регионами. Также докладчик акцентируется на односторонности потоков грузов, на очень маленьких объемах грузопотоков между отдельными регионами, на высокой конкуренции авиационного транспорта с другими видами — автомобильным и железнодорожным. Также автор ссылается на данные по плотности населения по федеральным округам, данные по количеству складских площадей в регионах, а также на данные по входящим и исходящим грузопотокам в разных городах России. Один из выводов доклада говорит о том, что в ближайшее время не ожидается перераспределения потоков и уменьшения дисбаланса между потреблением в центральной части России (особенно в столице) и в восточных регионах.

Взгляд на проблему с точки зрения академической среды проиллюстрирован в работе «Анализ состояния и развития авиатранспортной системы (в России)» [11]. Автор работы неоднократно указывает на плачевность состояния аэродромной сети в России, приводя ряд интересных статистических данных, например «количество действующих аэропортов на территории Российской Федерации, начиная с 1991 года по настоящее время, сократилось с 1450 до 351» или «в целом износ основных фондов аэродромной сети приблизился к 80%» (касательно только региональных аэропортов). Среди выводов в работе фигурирует идея о том, что именно государство должно заниматься решением проблемы, в том числе бороться с инфраструктурной непригодностью региональных аэропортов.

На государственном уровне проблема также рассматривается, причем уже есть некоторые результаты. Министерство транспорта РФ внесло в правительство проект «дорожной карты» [13] развития региональных авиаперевозок до 2030 года, что позволило бы решить множество проблем в отрасли. В задачи проекта входит, например: финансовое обеспечение аэропортов, разработка стандарта минимальной транспортной доступности, совершенствование государственного регулирования, а также снижение стоимости региональных авиаперевозок. В целом, задачи проекта очень актуальны для отрасли. Вопрос в том, будут ли они реализованы в полной мере, и в какие сроки все это будет сделано.

Также нужно отметить статью «Бизнес-модель развития грузовых авиаперевозок в Российской Федерации» [10], авторы которой акцентируются на транспортных взаимоотношениях с другими странами. В статье говорится о потенциальных возможностях российской авиационной структуры по отношению к зарубежным перевозчикам, то есть о транзитных взаимоотношениях. Авторы пишут, что для реализации такого потенциала необходимо внедрение стандарта e-freight, а также усовершенствование (расширение) аэродромной сети, упрощение процедур приема и изменение нормативно-правовой базы по данному вопросу. Центральным аспектом является как раз расширение аэродромной сети России, другими словами — переход от централизованной системы к распределенной: с несколькими «хабами» для более эффективной работы сети.

Из всей приведенной выше информации можно сделать вывод о том, что на сегодняшний день аэропортная сеть в России представляет собой централизованную структуру с серединой в московском транспортном узле, в то время как региональные аэропорты и аэродромы в большинстве случаев характеризуются неразвитостью, отсутствием надлежащей инфраструктуры и чрезвычайно сильным износов оборудования. Также нужно отметить, что больше половины транспортных потоков по воздуху проходят через МТУ, причем товарные потоки между регионами несоизмеримо малы. Если учитывать территориальную обширность России, то такая несбалансированная ситуация в отрасли недопустима. Абстрактно ситуация может быть представлена, как показано на иллюстрации ниже.


Иллюстрация : Абстрактная схема текущей структуры авиаперевозок России





      1. Формулировка основных задач работы.

В данной работе лишь предпринимается попытка проанализировать авиатранспортную отрасль России в разрезе авиатранспортных потоков при помощи изученных инструментов анализа данных, относящихся к концепции Business Intelligence.

К сожалению, очень малая доля информации относительно авиатранспортных потоков находится в открытом доступе, особенно в разрезе временной динамики и в разрезе территориальной принадлежности. Поэтому, разрабатываемая система будет реализована на смоделированных данных, основанных на реальных экономических показателях. Сбору и моделированию данных в данной работе будет посвящена отдельная часть.

Из комплексного анализа проблемы следует то, что в первую очередь необходимо сфокусироваться на определении доли московского транспортного узла в общем объеме авиатранспортных перевозок по России. Первая важная задача в работе — это определение этой доли и динамики её изменения за определенный период времени.

Также было бы интересно узнать, какая динамика развития отрасли будет наблюдаться в будущем. Из этого вытекает вторая важная задача работы — прогнозирование объемов авиатранспортных потоков в будущем.

Немаловажно также сделать попытку предложить вариант решения проблемы несбалансированности авиатранспортной системы в России. Решение этой проблемы является третьей важной задачей работы.

Как было отмечено выше, попытка решения всех важных задач работы должна быть реализована при помощи инструментов анализа данных, существующих на сегодняшний день на рынке IT-решений.

      1. Анализ инструментария для достижения цели работы.

Так как в цели работы входит построение хранилища данных для анализа авиатранспортной системы России, то в первую очередь необходимо произвести обследование рынка компонентов хранилищ данных для более эффективной и удобной работы в процессе исследования.

Концепция BI/DWH, которая будет применяться в работе, предполагает наличие нескольких компонентов:

  • Внешние источники данных. В качестве внешних источников в работе будут выступать файлы различных форматов, содержащие в себе собранную и смоделированную информацию по авиатранспортной отрасли России.

  • ETL-инструмент, который поддерживает процедуры извлечения данных из внешних источников, их преобразования и дальнейшей загрузки в хранилище данных.

  • Хранилище данных, в которое производится загрузка данных из внешних источников при помощи ETL процедур. Хранилище представляет собой предметно-ориентированную информационную базу данных, специально разработанную и предназначенную для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Хранилище данных реализуется в системе управления базами данных (СУБД).

  • Инструменты интеллектуального анализа. Они обеспечивают анализ данных, хранящихся в хранилище данных. Основная цель интеллектуального анализа данных состоит в обеспечении необходимой информацией того круга лиц, которому эта информация необходима для принятия важных управленческих решений или для решения других важных задач. Информация может быть представлена в форме отчетов, информационных панелей, визуализированных данных и т. д.

Обобщенная схема концепции представлена на иллюстрации 3:


Иллюстрация : Общая схема Business Intelligence



В данном параграфе будет сделан обзор инструментов по 3 направлениям:

  • ETL;

  • СУБД;

  • Инструменты анализа.

На рынке существует большое количество как платных, так и бесплатных ETL-инструментов и инструментов интеграции данных. Ниже будут рассмотрены 3 решения: Microsoft SQL Server Integration Services (MSSIS), Oracle Warehouse Builder (OWB) и Pentaho Data Integration (PDI).

OWB [18] входит в семейство продуктов Oracle Developer Suite и представляет собой интегрированную CASE-среду, предназначенную для разработки и развертывания хранилищ и витрин данных. Средствами этого продукта можно проектировать, создавать и администрировать хранилища и витрины данных, разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников, управлять метаданными. Плюсы: наглядность проектирования, стандартизованность, мультиплатформенность, управляемость компонентами хранилища данных, многофункциональность. Минусы: сложность при установке системы, возможна несовместимость с некоторыми программами, высокие системные требования.

Службы Integration Services [17] представляют собой платформу для построения высокопроизводительных решений интеграции данных и решений потока операций, включая операции извлечения, преобразования и загрузки (ETL) для хранилищ данных. Плюсы: большой объем документации, поддержка продукта, относительно небольшая цена, визуальные средства разработки. Минусы: возможна сложность в организации логики ETL процесса, продукт ориентирован только на одну.

PDI - это компонент комплекса Pentaho [19] отвечающий за процессы Извлечения, Преобразования и Загрузки данных в целевую систему (ETL). Несмотря на то, что использовать системы ETL предполагается в рамках комплекса хранения данных, средства PDI могут быть применены и для других целей: обмена данными между приложениями или базами данных, экспорта данных из таблиц баз данных в файлы, загрузки массивов данных в базы данных, обработки данных, интеграции в приложения. Плюсы: бесплатная система, понятный графический интерфейс (именуемый Spoon), многофункциональность, мультиплатформенность, легкость в инсталляции. Минусы: в системе есть недостатки, связанные с тем, что продукт является open source.

В данной работе будет использоваться инструмент Pentaho Data Integration, т. к. он является бесплатным и наиболее понятным в использовании. К тому же в отличие от SSIS в PDI имеются возможности предварительного просмотра объектов в источнике данных, прогона трансформаций в тестовом режиме, а также вывода системных уведомлений. К тому же SSIS не располагает такими возможностями как PDI при извлечении информации из файлов различных типов. Функционал этого продукта достаточен для реализации задач, поставленных в работе.

При выборе СУБД рассматривались 3 варианта. Это Microsoft Sql Server 2008, MySQL и Oracle 11g. Несмотря на то, что Microsoft Sql Server [17] работает только под операционной системой Windows, выбор пал именно на этот продукт. Это обуславливается тем, что СУБД от Microsoft с одной стороны обеспечивает наибольшую надежность и безопасность, что особо заметно при сравнении с MySQL, а с другой стороны MS Sql Server не настолько дорогая, как Oracle. К тому же СУБД от Microsoft обладает таким функционалом, который является достаточным для решения поставленной в работе задачи. Также, что немаловажно, эта СУБД тесно интегрируется с продуктами Microsoft Office. Другой отличительной чертой MS Sql Server является собственная разработка всей линейки продуктов в отличие от компании Oracle, линейка продуктов которой была создана путем приобретения, что требует усилий по интеграции всех компонентов в одну систему.

Поскольку в качестве СУБД была выбрана разработка компании Microsoft, то интеллектуальный анализ данных было решено проводить на базе продуктов от этой компании. Это обуславливается тем, что MS Sql Server прекрасно интегрируется с продуктами для бизнес-анализа от Microsoft, а также функции, которые реализуются в данных продуктах, соответствуют задачам работы. В инструменте предусмотрены встроенные модели data mining [9], которые позволят проводить прогнозный анализ по авиатранспортной отрасли, а также реализовывать другие требуемые задачи.

Итак, в качестве ETL-системы был выбран продукт Pentaho Data Integration, в качестве СУБД — MS Sql Server 2008, а в качестве инструментов анализа — MS Sql Server Analysis Services.


  1   2   3   4

Похожие:

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего профессионального образования

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное...

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное...

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное образовательное
Оценка инвестиционной привлекательности российских интернет-стартапов 29

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Санкт-Петербургский филиал
Федеральное государственное автономное образовательное учреждение высшего профессионального образования

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное образовательное
Применение алгоритма анализа рисков для логистического проекта «Логистик» 43

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное...
На тему Апелляция в гражданском процессе Российской Федерации и странах Таможенного Союза: сравнительный анализ

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное...
На тему «Риски выбора способа размещения заказа в системе общественных закупок в Российской Федерации»

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное...
История появления и развития института налогового контроля цен в Российской Федерации и в иностранных государствах 5

Правительство Российской Федерации Федеральное государственное автономное iconПравительство Российской Федерации Федеральное государственное автономное образовательное
Теоретические и нормативно-правовые основы организации бухгалтерского учета в книжной торговле

Вы можете разместить ссылку на наш сайт:


Все бланки и формы на filling-form.ru




При копировании материала укажите ссылку © 2019
контакты
filling-form.ru

Поиск