Тикунов В. С. Геоинформатика. Расчет расстояний между ОТЕ в признаковом пространстве. Расчет расстояний между классами в географическом и признаковом пространствах. Функционалы качества классификации.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

Расчет расстояний между ОТЕ в признаковом пространстве. Расстояние между ОТЕ в пространстве показателей характеризует сходство или различие ОТЕ между собой [С. А. Айвазян и др., 1989. — С. 147]. Каждому типу шкал, в котором измерены признаки, соответствует свой способ расчета расстояния.

Для расчета расстояния на М количественных признаках существует наиболее общее соотношение, называемое метрикой махалонобисского типа. Частными случаями расстояния махалонобисского типа являются:
• обычное евклидово расстояние

Формула (доступно при скачивании полной версии книги)

• манхэттенское расстояние

Формула (доступно при скачивании полной версии книги)

В качестве меры близости ОТЕ в пространстве числовых признаков может также использоваться коэффициент корреляции, вычисленный для ОТЕ.
Расстояния между ОТЕ, помещенными в пространство с порядковыми признаками, чаще всего основаны на различных коэффициентах ранговой корреляции. Главными из них являются коэффициенты ранговой корреляции Спирмена и Кендалла.
Расстояние между ОТЕ, характеризующимися номинальными признаками, обычно рассчитывают как количество совпадений или несовпадений значений признаков для двух ОТЕ:

Формула (доступно при скачивании полной версии книги)

Для получения расширенного перечня способов задания расстояний между объектами в признаковом пространстве можно обратиться к специальной литературе по методам анализа данных [например, С.А.Айвазян и др., 1985; 1989].
Расчет расстояний между классами в географическом и признаковом пространствах. Способы вычисления степени «близости» классов (расстояния между классами D) иногда называются стратегиями объединения классов и обычно рассчитываются в признаковом пространстве. Они особенно важны в иерархических процедурах классификации, всегда основываются на расстоянии d между отдельными ОТЕ двух классов и могут определяться различным образом. Пусть

Формула (доступно при скачивании полной версии книги)

Ниже приведены наиболее известные виды расстояния между классами (способы задания функции D).
1. Метод ближнего соседа. Расстояние между двумя классами рассчитывается как расстояние между двумя ближайшими ОТЕ этих двух классов:

Формула (доступно при скачивании полной версии книги)

В качестве недостатка метода можно отметить тот факт, что при наличии в выборке из N OTE аномальных наблюдений (т.е. таких, которые существенно отличаются по своим значениям показателей от остальных ОТЕ) они будут помещены в отдельные классы. Основная же группа ОТЕ «сольется» в один большой класс.
2. Метод дальнего соседа. Расстояние между двумя классами рассчитывается как расстояние между двумя самими дальними ОТЕ этих классов:

Формула (доступно при скачивании полной версии книги)

Данный метод более устойчив к аномальным наблюдениям при использовании в агломеративном алгоритме. Кроме того, получаемые с его помощью классы обычно соразмерны (т. е. число ОТЕ в них примерно одинаково).
3. Центроидный метод. Расстояние между двумя классами рассчитывается как расстояние между центрами классов:

Формула (доступно при скачивании полной версии книги)

4. Метод группового среднего (средней связи). Расстояние между двумя классами рассчитывается как среднее расстояние между ОТЕ двух классов:

Формула (доступно при скачивании полной версии книги)

Функционалы качества классификации. Функционал качества классификации — отображение множества всех возможных систем классов на действительную прямую:

Формула (доступно при скачивании полной версии книги)

Часто используют ограниченную функцию качества, т. е. задают

Формула (доступно при скачивании полной версии книги)

Функционалы качества разбиения исходного множества ОТЕ на классы используются, в частности:
• для оценки объективного количества классов;
• для сравнения схем классификаций, полученных с использованием различных алгоритмов, и выбора наилучшей из них;
• для непосредственного использования в иерархических процедурах классификации в качестве расстояний.

Наиболее часто применяются следующие два способа расчета качества классификации (при заданном числе классов К).

1. Сумма попарных внутриклассовых расстояний:

Формула (доступно при скачивании полной версии книги)

Данный функционал идентичен функционалу суммы попарных межклассовых расстояний

Формула (доступно при скачивании полной версии книги)

так как суммирование межклассовых и внутриклассовых расстояний дает сумму расстояний между всеми парами ОТЕ:

Формула (доступно при скачивании полной версии книги)

Отличие в использовании Q, и Q2 заключается в том, что Qx необходимо минимизировать (т. е. добиваться максимального сходства ОТЕ в пределах класса), a Q2 — максимизировать (т.е. добиваться максимального различия классов между собой). Кроме того, иногда величины Q( и Q2 нормируют их суммой, получая таким образом безразмерные или процентные величины:

Формула (доступно при скачивании полной версии книги)

Переход к процентному представлению значений функционала качества позволяет сравнивать на предмет лучше-хуже схемы классификации для разных групп ОТЕ или для различных периодов времени.

2. Сумма внутриклассовых квадратов отклонений ОТЕ от средних

Формула (доступно при скачивании полной версии книги)

Поскольку функционал Q3 означает сумму квадратов разбросов ОТЕ, естественно стремиться к его минимизации, а при переходе к безразмерным величинам нормировать общей суммой квадратов разбросов:

Формула (доступно при скачивании полной версии книги)

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу