Скачать учебники

Тикунов В. С. Геоинформатика. Точность атрибутивных данных. Логическая непротиворечивость, полнота, происхождение. Особенности интеграции разнотипных данных.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

Точность атрибутивных данных. Точность атрибутов определяется как близость их к истинным показателям (на данный момент времени). В зависимости от природы данных точность атрибутов может быть проанализирована разными способами.
Для непрерывных атрибутов, представляющих модель поверхности, например ЦМР, точность определяется как погрешность измерений по этой модели.
Для атрибутов объектов, выделяемых в результате классификации, точность выражается в оценках соответствия, определенности или правдоподобия. В случае двух объектов ситуация, в которой они представлены сочетанием 70% атрибута объекта А и 30% атрибута В, выгоднее, чем когда объекты А и В недостаточно определены, что не позволяет четко разграничить их. В общем случае Для оценки точности атрибутов полезно составить матрицу ошибок классификации. Для этого нужно взять несколько случайных точек, определить их категорию по базе данных, затем на местности определить истинный класс и заполнить матрицу классификации (соответствия). Если, например, число классов 4, а число обследованных точек 100, из них на местности определено 25 точек класса А, 18 точек – В, 24 — С и 33 — D (табл. 2.1).

Таблица 2.1 Матрица классификации (доступно при скачивании полной версии книги)

В идеале все точки должны располагаться по диагонали матрицы; это показывает, что на местности и в базе данных зафиксирован один и тот же класс. Ошибка пропуска возникает в тех случаях, когда точки класса на местности неправильно зафиксированы в базе данных. В матрице число ошибочных точек класса В равно сумме записей в столбцах А, С и D строки В (числу точек, относящихся на местности к классу В, а в базе данных — к другим классам). Ошибка добавления (ложного класса) имеет место в случаях, когда в базе данных зафиксирован класс, которого нет на местности, например, для класса А — это сумма записей в строках В, С и D столбца А (соответствует числу точек, неправильно отнесенных к классу А в базе данных).
Для обобщения матрицы соответствия используют показатель достоверности классификации — количество правильно классифицированных точек, расположенных по диагонали матрицы (в %). На самом деле это число может быть случайным. Чтобы учесть этот факт, часто при обобщении результатов используют индекс к (каппа Коэна), вносящий поправку на случайность. Он вычисляется по формуле

Формула (доступно при скачивании полной версии книги)

Показатель достоверности классификации равен 44%, что меньше значения, полученного по диагональным элементам (58%).
Неопределенность атрибутов каждого элемента растра постоянна для каждого из представленных классов объектов, а позиционная неопределенность постоянна для всего растра — фиксируется один раз для всей карты.
Для социальных данных основной источник неточности в атрибутах — недоучет данных. Например, при проведении переписи в некоторых районах и по некоторым социальным группам недоучет может быть очень высоким (>10%).

Логическая непротиворечивость, полнота, происхождение. Эти элементы качества данных относятся к базе данных в целом, а не к объектам, атрибутам или координатам.
Логическая непротиворечивость связана с внутренней непротиворечивостью структуры данных, с топологическим представлением данных, что означает наличие исчерпывающего списка взаимоотношений между связными геометрическими представлениями данных без измерения хранимых координат пространственных объектов. Она обычно заключается в ответах на вопросы: замкнуты ли полигоны, нет ли полигонов без меток или с несколькими метками, есть ли узлы на всех пересечениях дуг. Логические противоречия могут быть вызваны проблемами согласования информации и географических границ при совмещении данных из разных источников.
Полнота связана со степенью охвата данными множества объектов, необходимых для представления реальности или отображения на результирующей карте (все ли соответствующие объекты включены в базу данных?). Она зависит от правил отбора объектов или явлений, генерализации и масштаба.
Происхождение включает сведения об источниках данных, времени сбора данных, точности источников и цифровых данных, организации, которая их собирала, об операциях по созданию базы данных (как кодировались данные и с какого исходного материала, как происходила их обработка). Обычно эта информация содержится в специальных файлах метаданных.

Особенности интеграции разнотипных данных. Новые виды и типы цифровых данных требуют разработки методов их совместного использования, оценки пригодности для создания ГИС и составления карт. Создание проблемно-ориентированных банков географических и картографических данных и знаний способствует не только накоплению информации и обмену ей, но и повышению качества и достоверности результатов, получаемых ГИС. Особенно возрастает роль таких банков для интеграции, пространственного и тематического согласования информации.
Проблемы интеграции данных особенно остро встали в связи с Широким использованием уже существующих цифровых карт (см. 2.1.4), содержащихся в разнообразных базах пространственных данных и распространяемых по телекоммуникационным сетям. Они могут быть слоями проблемно-ориентированных ГИС, представлять результаты компьютерного дешифрирования аэро- и космических снимков, цифрового моделирования объектов или явлений. Информация относительно их происхождения, методов создания, точности и достоверности часто отсутствует или недоступна. Технология создания цифровых карт часто определяется временными, не устоявшимися, разрозненными, не всегда профессионально составленными инструкциями и техническими заданиями, разработанными производителем или заказчиком работ, ведомственными инструкциями. Все чаще появляются в публикациях сообщения об ошибках в цифровых картах, а иногда об их полной непригодности к использованию или ненадежности как источников данных.
При традиционном (бумажном) создании карт разнотипные данные применяются давно и методы их совместного использования хорошо разработаны. Современное техническое и программное обеспечение позволяет на основе любых доступных данных создавать сколь угодно сложные по содержанию карты и делать их легко доступными для использования и модификаций. Но часто это происходит без учета картографических традиций, в то время как доверие к цифровым картам велико.
Решение проблем интеграции данных при создании и использовании цифровых карт лежит в области разработки инфраструктуры пространственных данных (на национальном, межгосударственном уровнях) [А. В. Кошкарев, 2000], четкой структуры метаданных и картографически обоснованного применения ГИС-технологий при работе с разнотипными данными.
Под формированием инфраструктуры пространственных данных подразумевается разработка механизма их обмена и накопления (доступность, стоимость, система стандартов на данные и обмен ими, метаданные), а также определение единой — базовой — пространственной информации, к которой, в первую очередь, следует отнести геодезическую основу, рельеф, гидрографию, транспортную сеть, административные границы.
Преимущество геоинформационных методов заключается в возможности оценить пригодность данных для совместного использования и осуществить их интеграцию на основе выполнения пространственного анализа с помощью ГИС-технологий. Однако основное правило при интеграции информации таково: качество данных должно быть определено скорее во время получения данных, чем при попытке применить эти данные. Тогда указанные технологии могут существенно облегчить их корректировку для поставленной задачи.

Основные проблемы, возникающие при совместном использовании разнотипных данных: отображение положения границ в разных цифровых источниках, временные параметры данных и способ отражения структуры геосистем. Необходимо каждый раз рассматривать два вопроса:
- насколько правильно и сопоставимо представляемые в базах данных цифровые структуры отражают реальную ситуацию (моделируют реальность);
- насколько точно используемые алгоритмы позволяют рассчитать истинное значение результата совмещения данных.

Хорошим технологическим приемом интеграции разнотипных данных произвольных источников может стать создание специализированных экспертных систем. Их задача — выполнение оценок качества и пригодности таких данных, опирающееся на три базовые составляющие системы: метаданные; логические процедуры, учитывающие характер проявления основных источников возможных ошибок в цифровых пространственных данных; ГИС-технологии, реализующие традиционные и современные приемы совмещения информации для создания БД.

Контрольные вопросы

1. Каким образом обеспечивается надежность хранения данных в БД?
2. Какие свойства реляционной модели обусловили ее широкое распространение?
3. В чем отличие баз данных ГИС от баз данных других информационных систем?
4. Что подразумевается под целостностью данных в пространственной базе данных?
5. Приведите примеры того, каким образом может нарушиться целостность пространственной базы данных без соответствующего контроля за доступом.
6. Определите разницу между чувствительностью к ошибкам в теории и на практике.
7. Каковы пути устранения последствий ошибок в данных?
8. Каковы преимущества создания объектно-ориентированных БД при работе с пространственными данными?

< Качество данных и контроль ошибок. Позиционная точность данных и типы ошибок.

Содержание книги "Тикунов В. С. Геоинформатика."

Геоанализ и моделирование. >

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

При копировании информации обязательны прямые ссылки на сайт, а также на авторов книг.
Все книги являются собственностью их авторов и служат исключительно для ознакомления.
© Edu-Knigi.ru, 2011. © Дизайн и программирование от студии "ПСГ".