Тикунов В. С. Геоинформатика. Предварительная обработка данных

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

Предварительная обработка данных. Важным этапом классификации ОТЕ является их предварительная обработка, часто включающая нормировку, взвешивание, снижение размерности и агрегирование.

Нормировка показателей. На практике при проведении классификаций очень редко встречаются ситуации, когда анализируемые показатели представлены в одинаковых единицах измерения и масштабе. Существуют специальные термины для обозначения соизмеримых и несоизмеримых систем показателей (моноструктурные и полиструктурные соответственно). Примером моноструктурной системы показателей является процент занятых по разным отраслям промышленности.
Наиболее часто используются следующие виды нормировки.
1. Нормировка по заданному показателю.
В социально-экономической географии чаще всего нормирующим показателем является общая численность населения ОТЕ или площадь занимаемой ОТЕ территории.
Пусть

Формула (доступно при скачивании полной версии книги)

Тогда нормировка заключается в пересчете

Формула (доступно при скачивании полной версии книги)

Примеры нормировки по заданному показателю:
• показатель плотности населения (нормировка численности населения ОТЕ площадью, занимаемой ОТЕ);
• процент голосов, отданный на выборах за какую-либо политическую партию (нормировка числа проголосовавших за партию в данной ОТЕ общим числом избирателей);
• валовой внутренний продукт страны (ВВП) на душу населения (нормировка ВВП общим числом граждан; в качестве ОТЕ выступают страны мира).

2. Нормировка по заданным значениям осуществляется по общей формуле

Формула (доступно при скачивании полной версии книги)

В качестве Д, в числителе выступает число, отклонения от которого наиболее интересны; Д2 представляет величину разброса значений ОТЕ по заданному показателю. Ниже приведены наиболее известные разновидности нормировки по заданным значениям (случаи 2.1 и 2.2).

2.1. Нормировка по дисперсиям и математическим ожиданиям.
Целью данной нормировки является приведение каждого показателя к стандартному виду (в результате математическое ожидание любого показателя становится равным нулю, а дисперсия — единице).
Пусть

Формула (доступно при скачивании полной версии книги)

Тогда нормировка заключается в пересчете

Формула (доступно при скачивании полной версии книги)

2.2. Нормировка по наилучшим или наихудшим значениям [В.С.Тикунов, 1985].
Целью данной нормировки является перевод показателя в проценты отклонений от заданного наилучшего или наихудшего значения с. Пусть

Формула (доступно при скачивании полной версии книги)

Тогда нормировка заключается в пересчете

Формула (доступно при скачивании полной версии книги)

Часто (не всегда) в качестве с берут максимальные или минимальные значения j-го показателя о(j)max или о(j)min. Допустим, максимальное значение показателя до нормировки соответствовало наилучшей ситуации в ОТЕ (например, ожидаемой продолжительности жизни). Если нормировать показатель по максимальному значению, то нулю будет соответствовать наилучшее значение, единице — наихудшее.
Полученные в результате нормировки по наилучшим или наихудшим значениям oi(j) ограничены отрезком [0,1]. Иногда в формулу нормировки вводят умножение на 100, изменяя диапазон значений на отрезке [0,100].
В ряде случаев требуется нормировать показатели по наилучшим или наихудшим условным значениям. Например, для оценок заболеваемости теоретически наилучшее значение — нуль. При этом следует изменить знаменатель в формуле нормировки:

Формула (доступно при скачивании полной версии книги)

Взвешивание показателей. Процесс получения весов для показателей необходим для корректного проведения классификаций. Зачастую, по аналогии с различными единицами измерения, показателей, различны и их вклады, значимость для данной предметной области. Исследователь, например, может включить в число показателей анализа первостепенные и второстепенные, а для различия степени их влияния на конечный результат уменьшить влияние второстепенных показателей, «взвешивая» их. Такое взвешивание может заключаться в делении уже нормированного показателя j є (1, ..., М) на какое-либо число t є R, т.е. присвоении показателю веса Формула (доступно при скачивании полной версии книги).
При типологических классификациях знак веса никак не влияет на результат анализа, поскольку исходный показатель можно умножать на -1. В случае использования показателей для проведения оценочных классификаций их знаки могут оказаться решающими. Так, взвешивание может заключаться только в домножении некоторых показателей на -1, чтобы увеличение значений любого из них сигнализировало бы или об улучшении, или об ухудшении ситуации в рассматриваемой ОТЕ.
Способы получения объективных весов для показателей различны. Наиболее часто используется экспертный метод, при котором специалист или их группа в конкретной предметной области оценивает важность каждого показателя. Существуют также и так называемые аналитические методы. Проблема взвешивания показателей в географических исследованиях обсуждается в работе [В.С.Тикунов, 1997].
После нахождения вектора весов w = (w1,..., wм) он применяется либо к матрице ОТЕ-признак, либо используется при расчете расстояний между ОТЕ в признаковом пространстве.

Анализ главных компонент. Анализ главных компонент, или компонентный анализ, — один из наиболее часто используемых методов снижения размерности. Данным методом решается задача отыскания на основе существующей системы атрибутивных признаков, описывающих ОТЕ, новой системы со следующими свойствами:
• признаки новой системы являются линейными комбинациями признаков исходной системы;
• количество признаков в новой системе в общем случае не больше, а на практике всегда меньше числа признаков в исходной системе;
• признаки новой системы ортогональны, т.е. не коррелиро-ваны;
• признаки новой системы упорядочены в порядке убывания дисперсии;
• признаки новой системы несут столько же информации (или наперед заданный процент информации, например 90%) об изменчивости объектов, сколько и исходные признаки. Под информацией понимается дисперсия признаков.
Метод главных компонент следует применять для исправления искаженного взаимными корреляциями исходного пространства признаков, снижения объемов хранящихся данных без потери существенной части информации об ОТЕ, визуализации ОТЕ в пространстве признаков (что достигается, например, изображением ОТЕ в виде точек на плоскости первых двух главных компонент) и выявления латентных (т. е. скрытых, не наблюдаемых в явном виде) показателей, отражающих суть процесса или явления.
В матричной форме результат работы метода главных компонент записывается в следующем виде:

Формула (доступно при скачивании полной версии книги)

Наиболее просто воспринимается геометрическая интерпретация метода главных компонент. В многомерном пространстве признаков ОТЕ рассматриваются как точки, геометрическая структура облака которых в случае нормального распределения напоминает Af-мерный эллипсоид. За новые признаки принимаются главные оси воображаемого эллипсоида, отсортированные в порядке Уменьшения дисперсий ОТЕ по осям.
Применение метода главных компонент в качестве предварительного этапа классификации описано в подразд. 3.1 «ГИС и дистанционное зондирование». Компонентный анализ является не единственным методом снижения размерности. В качестве примеров других распространенных методов снижения размерности можно отметить факторный анализ, многомерное шкалирование и метод экстремальной группировки признаков.

Агрегирование. Агрегирование в наиболее простой интерпретации является одним из методов перехода от множества исходных показателей к единственному, по которому следует различать ОТЕ. В общем случае методы агрегирования оперируют показателями, измеренными в различных шкалах, и служат для получения иерархии признаков.
Агрегирование очень часто используется в географических и экологических исследованиях, поскольку позволяет получать оценочные классификации по многим показателям. Чаще всего результирующий показатель получают таким образом, чтобы ОТЕ с его минимальными значениями могли интерпретироваться как «плохие», а с максимальными — как «хорошие» (в разрезе проблемы, описываемой показателями), или наоборот.
Ограничимся рассмотрением двух наиболее часто используемых методов, которые позволяют получить единственный результирующий признак o(agr) = (o1(agr), ..., oN(agr)) путем:
• суммирования значений предварительно нормированных и взвешенных показателей, т. е.

Формула (доступно при скачивании полной версии книги)

• расчета расстояний до наилучшей или наихудшей (возможно условной) ОТЕ о', т.е.

Формула (доступно при скачивании полной версии книги)

В первом случае нормировка показателей может производиться и по дисперсиям, и по наилучшим (наихудшим) значениям. Важно, чтобы после нормировки большие (меньшие) значения всех показателей указывали на лучшую (худшую) ситуацию в ОТЕ, или наоборот. Если нормировка производилась по дисперсиям (и соответственно направление признаков не учтено), необходимо домножить, например, группу негативных признаков на -1. Метод главных компонент для «исправления кривизны» признакового пространства здесь применяться не может, так как полученные главные компоненты могут не быть в общем случае интерпретируемыми в терминах хорошо-плохо.
Второй метод подразумевает образования (N +1)-йусловной ОТЕ о', показатели которой являются наилучшими (наихудшими). Вектор о' = (о'1, ...,о'м) покоординатно необходимо дописать в матрицу ОТЕ-признак. Далее показатели можно (и нужно) нормировать, взвешивать, проводить компонентный анализ. После этого и рассчитываются расстояния от (N +1)-йусловной ОТЕ о' до всех остальных ОТЕ и формируется новый признак. Большие значения этого признака сигнализируют о худшей (лучшей) ситуации в ОТЕ по комплексу исходных показателей.
Можно заметить, что второй метод сводится к первому при нормировке по наилучшим (наихудшим) значениям, без применения метода главных компонент, и использовании манхэттенского расстояния d (т. е. первый метод — частный случай второго).

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу