Тикунов В. С. Геоинформатика. Использование географического пространства при классификациях. Обучающая выборка. Оценивание истинного количества классов.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

Использование географического пространства при классификациях. Формирование классов при проведении многих классификаций происходит в общем случае на основе и географического, и атрибутивного признакового пространств. Однако, исходя из степени использования географического пространства, возможны следующие варианты (либо их комбинации, за исключением первого):
• географическое пространство при классификации не используется;
• географическое пространство используется перед проведением классификации при формировании признаков атрибутивного пространства (соответствующие примеры были приведены при обсуждении представления атрибутивного пространства в виде таблицы ОТЕ-признак);
• географическое пространство используется при визуализации хода и результатов классификации (т. е. ход и результаты анализа картографируются);
• географическое пространство представлено матрицей близостей вида ОТЕ-ОТЕ, которая используется алгоритмом классификации вместе с матрицей, представляющей атрибутивное признаковое пространство.

Обозначим, как это было и ранее, матрицы ОТЕ-признак и ОТЕ-ОТЕ для атрибутивного признакового пространства символами X и А соответственно, матрицу ОТЕ-ОТЕ географического пространства — символом G.
Примером географических классификаций является группирование регионов (ОТЕ) по силе связей (наиболее часто — экономических). Целью такой классификации является получение групп, связи между ОТЕ которых максимальны. Географические расстояния здесь задаются отдельной таблицей и являются одним из видов связей, поскольку могут отражать, например, стоимость перемещения товара из одной ОТЕ в другую.
Еще один вид классификации с использованием матриц сразу двух пространств (причем матрица вида ОТЕ-ОТЕ, представляющая географическое пространство, бинарная) — районирование. Под районированием понимается деление территории на множество непересекающихся целостных районов, представляющих собой компактные сгущения ОТЕ как в географическом, так и в признаковом пространствах [В. И. Блануца, 1993. — С. 3]. В классическом географическом понимании это разделение территории по принципу их различия, непохожести. Матрица расстояний G в данном классе методов представлена таблицей смежности. В терминах районирования синонимом класса с ограничением на его пространственную нерасчлененность является понятие района.
В основе постановки задачи районирования лежит необходимость территориального управления ОТЕ. Ограничением районирования, помимо пространственной нерасчлененности классов, являются также целостность получаемых классов-районов, а возможно и учет прежней административно-территориальной сетки (например, экономических районов, федеральных округов).

Обучающая выборка. При проведении классификаций очень важно максимально использовать при анализе априорную информацию о классах, которые необходимо сформировать. Такой информацией в первую очередь является так называемая обучающая выборка, т. е. множество ОТЕ, для каждой из которых известна ее принадлежность одному из классов.
Обладание обучающей выборкой в большинстве случаев облегчает проведение классификаций и повышает их качество. Она может использоваться для настройки математических моделей — выбора метрики d и показателя качества классификации Q, определения числа классов К, их ядер и т.д. Например, при проведении классификации стран мира по уровню социально-экономического развития, как это описано в работе [В.С.Тикунов, 1997], обучающая выборка состояла из нескольких наиболее типичных стран-представителей каждого класса, что позволило осмысленно с точки зрения географии сформировать классы.

Оценивание истинного количества классов. Очень часто при проведении классификаций необходимо оценивать количество классов, которые необходимо сформировать. Для определения истинного количества классов КИСТ существует достаточно простой, но широко используемый подход. Этот подход основан на использовании значений функционала качества классификации Q(K), рассчитанного для количества классов К е [Кmin,..., Kmax] . Истинное значение КИСТ лежит сразу после последнего резкого скачка функционала качества Q(K). Это означает, что увеличение количества классов не дает затем существенного прироста в качестве классификации.
При решении конкретной задачи целесообразно задаваться минимально и максимально возможными количествами классов Kmin и Ктах (например, Kmin = 2 и Ктах = 10). Чем больше диапазон, тем легче находить КИСТ и тем больше вычислений придется произвести.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу