ИВМ СО РАН Поиск 
Отчеты ИВМ СО РАН

Отчет ИВМ СО РАН за 2013 год

Программы фундаментальных исследований сибирского отделения РАН

IV.35. Когнитивные системы и технологии, нейроинформатика и биоинформатика, системный анализ, искусственный интеллект, системы распознавания образов, принятие решений при многих критериях


Программа IV.35.1. Теоретические основы и технологии создания и применения интегрированных информационно-вычислительных систем для решения задач поддержки принятия решений

Координатор программы: академик РАН И. В. Бычков

Проект IV.35.1.2. Методы аналитической обработки данных и технологии создания интегрированных информационно-управляющих систем
№ гос. регистрации 01201356264

Научный руководитель проекта: д.т.н., профессор Л. Ф. Ноженкова

Блок 1. Интегрированные информационно-управляющие системы и технологии оперативной аналитической обработки данных.

Обоснованы принципы системной интеграции: технологическая интеграция, консолидация и оперативная аналитическая обработка консолидированных данных. На основе принципов системной интеграции разработана и апробирована технология создания интегрированных информационно-управляющих систем, позволяющая выполнять информационно-аналитическую поддержку сложных задач территориального и корпоративного управления. Разработаны новые инструменты информационно-графического моделирования и применения веб-технологий для построения пользовательских интерфейсов, в том числе для удаленного доступа к данным инструментальных измерений.

Новые инструменты апробированы в задаче построения корпоративной системы поддержки конструирования бортовой аппаратуры командно-измерительной системы космического аппарата.

Разработана имитационная информационно-графическая модель бортовой аппаратуры командно-измерительной системы космического аппарата (рис.III.8). Система позволяет моделировать работу центра управления полетами, бортовой аппаратуры и основных блоков командно-измерительной системы на уровне прохождения телекоманд и телеметрии. Проектирование командно-измерительной системы является дорогостоящим процессом, для ее изготовления и анализа функционирования требуются специальные инструменты. Использование имитационной информационно-графической модели позволяет ускорить и удешевить процессы конструирования бортовых комплексов.

Разработаны методы и технологии консолидации и оперативной аналитической обработки данных, выполнена их алгоритмическая и программная реализация для построения интегрированных систем. Исследованы существующие подходы к организации распределенного сбора и консолидации данных, обоснован выбор веб-технологии. Разработаны методы и программное обеспечение для интеграции веб-технологии со средствами распределенного сбора, консолидации и оперативного анализа данных. Разработаны алгоритмические средства, обеспечивающие единую среду и общее управление оперативной обработкой данных OLAP с возможностью их отображения и интерпретации в ГИС, в том числе и для веб-публикаций. Для картографического отображения аналитических результатов предусмотрены возможности использования картографических ресурсов хранилища пространственных данных и геосервисов в сети Интернет.

Рис. III.8
Рис. III.8. Моделирование функционирования командно-измерительной системы

Средства консолидации и анализа данных применены для задач мониторинга чрезвычайных ситуаций. Разработаны методические, алгоритмические и программные средства оперативного аналитического контроля состояния объектов техносферы и окружающей среды.

Разработан комплекс OLAP-моделей, позволяющий оперативно выполнять многоаспектный анализ мониторинговых данных по различным обстановкам. Разработаны средства оценивания угрозы возникновения ЧС на основе аналитических индикаторов с использованием экспертных знаний о критических уровнях опасности (рис.III.9).

Разработаны средства оперативной публикации результатов аналитической обработки данных мониторинга ЧС с применением веб-технологий (рис. III.10).

Полученные мониторинговые данные после OLAP-анализа публикуются на сайте Арктического центра мониторинга и прогнозирования ЧС в разделе «Оперативная обстановка». Результаты аналитической обработки данных комплексного оперативного мониторинга обстановки представляются в виде оперативных таблиц, графиков, карт, а также аналитических отчётов, обзоров. Используются разнородные типы данных: тексты и таблицы с элементами гипертекстовой разметки; растровые изображения; документы офисных форматов; цифровые топографические карты (Яндекс, Google, OpenStreetMap) для отображения параметров оперативной обстановки.

Проведены исследования кибербезопасности для научных организаций. Идентифицированы основные активы организации и риски для них. Определены ключевые меры для снижения рисков и повышения безопасности киберпространства. Произведена доработка и настройка программных средств предотвращения вторжений и политик сетевой безопасности. Произведен анализ имеющихся данных журналов веб-сервисов, на основе которого адаптированы правила фильтрации сетевого трафика на граничных маршрутизаторах корпоративной сети.

Рис. III.9
Рис. III.9. Результаты анализа гидрологической обстановки в виде гидрографа и картограммы
Рис. III.10
Рис. III.10. Веб-публикация данных мониторинга

Блок 2. Непараметрические системы обработки информации и принятия решений, основанные на оценках плотности вероятности типа Розенблатта-Парзена и принципах коллективного оценивания.

Разработаны непараметрические системы распознавания образов для решения задач проверки гипотез о распределениях многомерных случайных величин. Их применение обеспечивает обход проблем декомпозиции области определения анализируемых случайных последовательностей и введения упрощающих предположений, свойственных традиционным критериям.

Идея предлагаемого подхода состоит в обосновании возможности замены задачи сравнения законов распределения многомерных случайных величин проверкой гипотезы о равенстве статистической оценки вероятности ошибки распознавания образов определённому пороговому значению с использованием критерия Колмогорова. Непараметрические алгоритмы распознавания образов формируются на основе ядерных оценок плотности вероятности типа Розенблатта — Парзена и соответствуют критерию максимального правдоподобия.

С этих позиций предложены методы синтеза непараметрических систем проверки гипотез об однородности законов распределения двух последовательностей многомерных случайных величин, включая наличие гипотетического распределения. Для проверки гипотез о распределениях случайных величин в условиях неравномерного распределения статистических данных сравниваемых последовательностях случайных величин разработан ряд модификаций коллективов непараметрических решающих правил. При их синтезе используются новые непараметрические оценки смеси плотностей вероятности, соответствующие различным условиям распределения статистических данных.

Впервые решена проблема оптимального выбора количества интервалов дискретизации области изменения одномерных случайных величин для решения задач проверки статистических гипотез об их распределениях. Основу предложенного подхода составляют результаты исследования асимптотических свойств регрессионной оценки плотности вероятности, синтез которой осуществляется путём декомпозиции исходных статистических данных и последующем анализе количественных характеристик получаемых множеств случайных величин на основе кривой регрессии.

Выбор количества интервалов дискретизации значений случайной величины является одной из актуальных задач математической статистики, возникающих при проверке статистических гипотез. Существующие традиционные решения носят эвристический характер.

Впервые обоснована и разработана методика оптимального выбора количества интервалов дискретизации области значений случайной величины. Основу предложенного подхода составляют результаты исследования асимптотических свойств регрессионной оценки плотности вероятности, синтез которой осуществляется путём декомпозиции исходных статистических данных и последующем анализе количественных характеристик получаемых множеств случайных величин.

Из условия минимума асимптотического выражения среднеквадратической ошибки аппроксимации регрессионной оценки $\bar{p}\left(x\right)$ плотности вероятности $p\left(x\right)$ определена оптимальная зависимость количества $\textit{N}$ интервалов дискретизации

\[N=k\sqrt{n}, \, \, \, \, k=\sqrt{\Delta \; \left\| p\left(x\right)\right\| ^{2} },~~~~~~~(III.4)\]

от объёма $\textit{n}$ исходных статистических данных. Здесь $\Delta$ — длина интервала изменения значений одномерной случайной величины.

Полученная аналитическая зависимость по виду близка к формуле Гаеде-Хайнкольда и совпадает с ней при оценивании плотности вероятности с равномерным законом распределения ($\textit{k}=1$). Показано, что значение коэффициента k определяется только видом закона распределения и не зависит от его параметров.

Эффективность применения формулы дискретизации (III.4) по сравнению с традиционными методами представлена на рис. III.11.

Результаты исследований имеют важное значение в задачах проверки гипотез о распределениях случайных величин с использованием критерия Пирсона, оценивании плотностей вероятности и построении их доверительных границ.

Рис. III.11
Зависимости статистических оценок среднеквадратического отклонения $W_{2}$ регрессионной оценки плотности вероятности от объёма $\textit{n}$ исходных данных. Кривые 1, 2, 3 получены методом дискретизации Брукса-Каррузера, Гаеде-Хайнкольда и по формуле (III.4), соответственно

Научная значимость полученных результатов заключается в развитии нового направления теории принятия решений, связанного с разработкой эффективных методов проверки сложных статистических гипотез.

Проведены исследования изменений среднемесячных температур и осадков на территории Сибири. Анализ изменений климата показывает, что в разных районах процессы протекают неравномерно. Тренды основных климатических параметров не совпадают для разных сезонов и временных интервалов, и значения температуры не возрастают синхронно с изменениями глобальной температуры. Для более точного прогноза возможного изменения биоценозов и оценки пожароопасности выполнено детальное выявление структуры зависимостей среднемесячных температур и осадков на территории Сибири от изменений глобальных температур (А. В. Лапко, В. А. Лапко).

Блок 3. Методы анализа многомерных данных большой размерности в динамических и генетических системах в проблеме выявления связи структуры и функции.

Построен набор моделей, описывающих динамику пространственно распределённого сообщества, включающего два вида, связанных отношениями типа «хищник-жертва», с учётом двух вариантов информированности особей: глобального и локального. Модели динамики локальной информированности имеют пороговый характер: поведение особей меняется по достижении некоторого критического значения величины продуктивности в следующем поколении. Для построенных моделей изучены типичные предельные динамические режимы, построены некоторые фазовые портреты, описывающие типичное поведение моделей в разных областях значений параметров. Аналогичные результаты получены для моделей, описывающих динамику одновидового сообщества.

Для моделей двухвидовых сообществ были проанализированы режимы, в которых особи реализовывали рефлексивное поведение; особи разных видов наделялись способностью «предугадывать» (предвидеть) поведение противоположной стороны по конфликтному взаимодействию. Для этих моделей проведена серия вычислительных (имитационных) экспериментов, в ходе которых выделены области в пространстве параметров, для которых разные рефлексивные стратегии дают преимущество той или иной ситуации (М. Г. Садовский, М. Ю. Сенашова).

Основные публикации:

  1. Penkova T., Korobko A.
    Constructing the Integral OLAP-Model for Scientific Activities Based on FCA // Knowledge Engineering, Machine Learning and Lattice Computing with Applications. Lecture Notes in Computer Science, 2013. — Vol. 7828. — P. 163–170.

  2. Ноженкова Л. Ф., Исаева О. С., Грузенко Е. А.
    Принципы построения и применения программно-математической модели бортовой аппаратуры командно-измерительной системы космического аппарата // Материалы XIII Всерос. науч.-практ. конф. «Проблемы информатизации региона» (ПИР-2013). — Красноярск: ИВМ СО РАН, 2013. — С. 250–255.

  3. Коробко А. В., Пенькова Т. Г., Ничепорчук В. В.
    Оперативный аналитический контроль состояния объектов техносферы и окружающей среды Красноярского края на основе мониторинговых данных // Мониторинг. Наука и безопасность, 2013. — № 3. — Вып. 11. — С. 66-83.

  4. Lapko A. V., Lapko V. A.
    Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques, 2013. — Vol. 56 (7). — P. 763–767.

  5. Ничепорчук В. В., Ноженков А. И.
    Автоматизация мониторинга чрезвычайных ситуаций в арктической зоне (на примере Красноярского края) // Информатизация и связь, 2013. — № 5. — С. 37-42.

(Отделы Прикладной информатики, Информационно-телекоммуникационных технологий, Вычислительной математики)

К началу