Аналитические карты России (часть 1)

OLAP
Часто приходится слышать экстремистские высказывания в адрес действующей власти. Желая иметь определенную гражданскую позицию,  невольно задаешься вопросом, а действительно ли все так плохо в нашей стране, и какие же нужны изменения, чтобы жизнь российских граждан стала улучшаться? Статистические данные по некоторым критическим факторам и пространственные слои данных позволяют составить любопытные аналитические карты. В начале 2013 года по своей инициативе я провела исследование, разработала унифицированную модель данных и подготовила несколько аналитических карт. Я не политолог и не социолог, а просто ведущий ГИС-специалист, много лет работаю в ООО “ДАТА+”, пользуюсь ПО ESRI ArcGIS, и сужу обо всем происходящем вокруг “со своей колокольни”, поэтому с большим вниманием готова выслушать любую, но, замечу, конструктивную критику и другие суждения.

Начну свой многостраничный отчет с описания унифицированной модели данных. Такое описание мы называем логической моделью данных, она не претендует на полноту, точное описание таблиц и типов атрибутов, не указывает на выбор определенного программного обеспечения для ее реализации, но наглядно показывает  информационные блоки и логику хранения и представления данных.

Логическая модель данных “Аналитическая карта России”

Базовая карта

Под базовой картой мы понимаем растровую (кэш — набор тайлов) картографическую подложку. Можно выбрать любую из известных карт мира, на которой видны границы стран, водные просторы и основные города.

Пространственные классы или тип территории

В качестве пространственного класса можно выбрать полигональные границы территорий, по которым собираются статистические данные. В моем распоряжении субъекты РФ, но чаще всего можно встретить статистику по следующим территориям:

  • Страны
  • Федеральные округа
  • Субъекты РФ
  • Муниципальные районы и городские округа
  • Муниципальные образования (городского или сельского типа)
  • Административные округа населенного пункта
  • Населенные пункты
  • Избирательные округа
  • Избирательные участки

Могут также пригодиться Пункты голосования (УИК) — для привязки данных по выборам и адресная система до дома — для геокодирования данных по адресам.

Статистические таблицы

Статистическая таблица должна содержать наименование или идентификатор территории, значение показателя, наименование показателя, тип показателя, момент или период актуальности показателя, единица измерения показателя, базовая единица измерения показателя, масштабный коэффициент — для приведения единицы измерения к базовой единице измерения, тип территории или пространственный класс.

Домены

Домены — предопределенные значения атрибутов. Используются как справочники или классификаторы, легко дополняются в случае необходимости.

  • Базовые единицы измерения (штука, человек, квадратный километр, рубль, …)
  • Тип временного интервала (год, месяц, период, …)
  • Тип территории (субъект, избирательный участок, …)
  • Тип показателя (численность, количество, плотность, площадь, доля, явка, стоимость, …)
  • Наименование показателя

Представления

Представления или отфильтрованные выборки могут быть хранимыми в СУБД, либо формироваться “на лету”. Например, если нас интересуют явка на выборах президента России 2012 года, то мы составляем условие и формируем представление, в частном случае – подмножество всей статистической таблицы, которая, в общем случае, может быть единой для всех показателей. С помощью представления можно собрать таблицу для сравнения однотипных показателей, например, проценты голосов за кандидатов на место президента РФ.

Принятые допущения

Надо отметить одну трудность. Статистика и границы должны соответствовать друг другу.  Если раньше статистика собиралась  по административным районам, то теперь она должна собираться по муниципальным образованиям, а таких данных на всю страну все еще по разным причинам не существует. Кроме того, в нашей стране есть  сложные и  изменяющиеся со временем субъекты, например, Москва изменила свои границы, Тюменская область включает Ханты-Мансийский автономный округ и Ямало-Ненецкий автономный округ. Зачастую статистика собирается на всю область и дополнительно по округам и тут нужно не ошибиться при суммировании показателей. Подобная ситуация в Архангельской области, которая включает Ненецкий автономный округ.  С недавних пор статистические данные не разделяют Республику Ингушетию и Чеченскую республику,  приводятся общие цифры для двух республик. Произошли изменения границ Иркутской области, республики Бурятии, Пермского края, но статистические данные прошлых, вероятно, собирались по другим территориям. Учитывая все сказанное, необходимым этапом обработки статистических данных является приведение статистических данных к выбранным для визуализации пространственным классам. Наилучшим образом на карте визуализируются не перекрывающиеся территории, поэтому, например,  территорию Тюменской области я представляю тремя полигонами – два автономных округа и остаток Тюменской области. Учитываю изменения геометрии границ Москвы, но не могу пересчитать статистику под эти изменения. Такие нюансы моей аналитической карты можно назвать принятыми допущениями.

Примечание: Такого типа модель данных напоминает технологию OLAP-кубов с одной лишь разницей, что один из показателей – пространственный. Современные  СУБД позволяют хранить геометрию объектов, но лично мне не очень нравится идея хранения пространственных данных “разного калибра” в одной таблице. Я традиционно храню пространственные классы послойно в базе геоданных. То есть, субъекты РФ – один класс, а избирательные участки – другой класс объектов. Такая организация данных позволяет мне контролировать пространственные отношения объектов внутри класса, например, такое правило топологии: объекты класса объектов не должны перекрываться. Не приводит к дублированию пространственных данных и позволяет корректно строить пространственные индексы на однородные, похожие по площади объекты для оптимизации быстродействия перерисовки карты. Я связываю представление статистической таблицы по идентификатору определенного типа территории с соответствующим пространственным классом.

Система координат

Момент выбора системы координат, что называется “навяз на языке”. Я по натуре космополит и мыслю глобально. Для меня люди всей Земли – мои потенциальные друзья. Имею родственников в США и в Израиле. Мой главный работодатель живет в Редлендсе, штат Калифорния, США. Но я родилась в Таганроге, живу и работаю в Москве, Россия. Здесь получаю зарплату и отчисляю налоги. Здесь живут мои родители, дети и моя маленькая внучка. Поэтому, для своих задач я выбираю WGS 84 Web Mercator – систему координат совместимую с картографической подложками лидирующих мировых ГИС — ArcGIS Online, Bing Maps, Google Maps.

Продолжение следует…

боб

Добавить комментарий