Непараметрические системы классификации в задачах исследования медико-биологических процессов

Высоцкая Г. С.
Автореферат диссертации на соискание ученой степени кандидата технических наук. — Красноярск, 1998. — 22 с.

Скачать

Текст автореферата диссертации [pdf, 255 Kb, in russian]

Аннотация

Разработка эффективных систем обработки информации, на основе создания мощных банков данных, и возможность более свободного обмена информацией через сети приводит к многократному увеличению ее объемов. В этих условиях возрастает потребность создания математических средств и разработки программ для структуризации и анализа больших массивов данных с целью обнаружения скрытых закономерностей и представления их в удобном для человека виде. Несмотря на это большое количество информации все-таки остается не востребованной.

Когда пользователь оперирует большой, постоянно увеличивающейся числовой информацией, важным средством исследования систем в условиях исходной неопределенности становятся методы классификации и распознавания образов. Они позволяют создать представление о структуре этих данных, дифференцируя и объединяя их в классы. Если в результате решения задачи классификации получены компактные группы, однородные по характерным признакам, то в дальнейшем анализе мы можем использовать такие группы, как структурные единицы. Классификация данных обеспечивает обход проблемы сложности и априорной неопределенности при моделировании систем позволяет получить более точные оценки и распространить полученные результаты на множества объектов. Актуальной для классификации и распознавания образов, особенно в области медицины, является также задача о сокращении объема и размерности обучающей выборки.

В настоящее время с различных теоретических позиций разработано большое число способов решения задачи классификации и распознавания образов. Установлено, что трудоемкость сложных методов классификации пропорциональна квадрату объема выборки N, и в лучшем случае имеет порядок O(N ln N). Требуемый объем памяти зачастую также пропорционален квадрату объема выборки.

Известны примеры программных реализаций методов классификации и распознавания в таких коммерческих пакетах, как ER DAS, STATGRAF, STATISTICA, IDRISI и др. Но, как правило, в этих пакетах используется метод k — ближайших соседей и аналогичные методы, основным достоинством, которых является относительно низкая трудоемкость. Из российских разработок наиболее популярны пакеты ОТЭКС и КВАЗАР. В то же время опыт работы в области классификации и распознавания образов показывает необходимость создания быстродействующих алгоритмов классификации, хорошо работающих не только в ситуации хорошо разделимых классов, но и тогда, когда границы между соответствующими классами «размыты».

Работа выполнялась в рамках научной темы Института Вычислительного моделирования СО РАН «Создание теории многоуровневых непараметрических систем принятия решений» (1.13.5.3), грантов РФФИ N93 — 012 — 0486, N97 — 01 — 01043.