Исследование российских баз данных адресов на предмет их полноты и возможности автоматического сбора данных— пилотный проект Геоалерт и Почты России

GeoAlert
10 min readApr 15, 2020

Проблема адресных реестров в российском информационном поле хорошо известна, но при этом нет понимания ее реального масштаба. В таких крупных компаниях как Почта России, имеющая в своем составе более 40 тыс. отделений по всей стране, проблема неточности и неполноты адресов, по которым осуществляется доставка, оборачивается затратами на повторные доставки, хранение и штрафы, исчисляемыми в млрд рублей.

Платформа Геоалерт тестировалась для автоматической оцифровки строений по космическим снимкам с целью пополнения и валидации новой геопривязанной базы адресов системы “Почта Атлас”.

Помимо проверки координат уже геокодированных адресов, мы провели исследование существующих и доступных адресных баз данных на территорию РФ. На практике, мы опробовали возможность автоматического получения геопривязанных адресов в машиночитаемом виде, использовав несколько крупных источников. При выборе территории для пилотного исследования, нашими критериями были сочетание многоэтажной застройки и частного сектора, а также присутствие различных типов каждого из этих двух подвидов: панельных домов, новых блочных многоэтажных зданий, дачных кооперативов, прочих частных жилых домов, т.д. Мы также решили искать подобную территорию только в пределах нашего “домашнего” региона, — Москвы и Московской области. Во-первых, проводить исследование на знакомой территории, как правило, проще. Во-вторых, это позволяет проводить полевой сбор данных при необходимости, — например, выехать на место для проверки адресов или типа застройки. В третьих, даже в 2020 году, надежда на наличие в адресных реестрах качественного покрытия основывается на добром совете “места знать надо”. Особенно это касается данных, собираемых и хранимых органами государственной власти. О проблемах открытых данных в РФ уже многое написано, и мы оставим эту тему за пределами данной статьи.

Мы разделили область поиска на листы топографической карты 1:10000, т.е прямоугольники со стороной 2'30'’ по широте и 3'45'’ по долготе. По итогам, мы выбрали один из листов, большая часть которого лежит в пределах г. Видное. Для выбранного региона мы оцифровали здания по космоснимкам, используя платформу Геоалерт. После этого картографы на стороне Почты России проверили и доработали автоматические результаты, — убрали некапитальные строения, добавили полигоны зданий, скрытых деревьями и т.п.

Итог — 6154 полигона зданий на площадь ~ 57 кв. км.

Следующей задачей стало добавление адресов к полигонам зданий в качестве атрибутивной информации. Нахождение координат объекта по его адресу называется геокодированием, а противоположный процесс — обратным геокодированием. Про многообразие и проблемы баз данных адресов в России мы подробнее написали в приложении к этой статье.

Где взять данные? Пожалуй, в первую очередь любой картограф проверит OpenStreetMap (OSM). Выгрузить данные из OSM можно через сервис Overpass API: напрямую через HTTP, через веб-интерфейс Overpass Turbo, либо сторонними средствами, такими как плагин Quick OSM для QGIS. Любой из этих интерфейсов позволяет запросить данные building=* , т.е. все категории зданий. Как тип элемента (node, way или relation), так и геометрия (Point, LineString или Polygon) могут быть любыми — здания могут быть показаны точкой, полигоном или линией. Последний случай редок, но встречаются и здания, представленные контуром.

В полученных данных полный адрес разбит на несколько полей, которые нетрудно соединить в одно. Полнота данных OSM может сильно различаться в зависимости от территории исследования. Объекты, для которых присутствуют все элементы адреса — скорее исключение, чем правило.

Пример атрибутивных данных OSM building=*

Из 1226 полигонов зданий, присутствовавших в OSM для выбранной нами территории (по состоянию на февраль 2020 г.), только 300 имели и улицу, и номер дома. Из них, 263 пересеклись с нашими полигонами.

Теперь обратимся к государственным данным: с 2013 г. Центральной государственной адресной базой данных РФ является ФИАС (Федеральная Информационная Адресная Система), но адреса в ней не геокодированы. Геопривязанными адресными данными в России заведует Росреестр, который ведет Единый Государственный Реестр Недвижимости (ЕГРН). Вы могли сталкиваться с ЕГРН напрямую, заказывая “выписки” из него на сайте Росреестра, либо через Публичную Кадастровую Карту (ПКК), — картографический веб-интерфейс для отображения данных ЕГРН. Эти данные являются “открытыми” (но не бесплатными), и предоставляются по запросу, — через заполнение формы на сайте. Какой-либо возможности выгрузить часть ЕГРН автоматически, например через API, Росреестр на данный момент не предоставляет. По крайней мере, официально.

Наверное, вы подумали, а почему бы просто не открыть сайт ПКК и с помощью “инструментов разработчика” в браузере не посмотреть, как составлять запрос к ЕГРН. Это действительно возможно, но это еще не конец истории: если вы хотите получать большое количество адресов, то вам придется использовать прокси или т.п. Мы попробовали и стабильно получали “бан” на 24 часа после примерно 1000 запросов, совершенных с одного IP адреса.

На полноту данных, полученных таким способом, рассчитывать тоже не стоит: сервер Росреестра, судя по нашему опыту, в любом случае не выдерживает большое количество запросов, — множество из них начнут возвращать ошибки, а среднее время ответа может превышать 10 секунд. Таким способом нам удалось получить лишь 536 адресов для наших контуров зданий в г. Видное.*(updated)

Наши коллеги из Почты также предоставили нам выборки из двух других источников: ГИС ЖКХ и Почта Атлас.

ГИС ЖКХ (Государственная Информационная Система Коммунального Хозяйства) — это проект “цифровизации” сферы ЖКХ в РФ, включающий, в том числе, базу данных “объектов жилого фонда”, т.е. жилых зданий. Эти данные доступны на сайте ГИС ЖКХ, но не в машиночитаемом виде: данные представлены на карте, и для каждого дома отдельно можно выгрузить информацию в формате XML.

При желании, конечно, данные с сайта можно распарсить, но, если что, — это не мы вам посоветовали. Выгрузка, которую предоставила нам Почта, содержала 1603 адресные точки на исследуемую территорию, из которых 1506 пересеклись с нашими зданиями.

Почта Атлас — это текущий проект Почты России, целью которого является создание собственной геопривязанной базы данных адресов. Это внутренний ресурс Почты, и будет ли он в будущем доступен к использованию вовне — нам неизвестно. Технологически, сейчас Почта Атлас — это знания Почты об адресах, которые были накоплены в формате плоской базы данных ЦХДПА, геопривязанные по OSM. Скажем только, что Почта России предоставила нам выгрузку на территорию “Видное”, которая содержала 267 пар координат с адресами, большинство — на многоквартирные дома; данные по частному сектору почти отсутствуют. К 245 из этих 267 точек мы нашли соответствующие полигоны.

Пришло время использовать и коммерческие источники. Для сравнения мы остановились на Яндексе, который известен полнотой и актуальностью своих данных на территорию РФ. API Геокодера предоставляет возможность в том числе и обратного геокодирования, с пределом числа запросов 25 тыс. в сутки. Эти данные нельзя использовать в коммерческих целях, и мы приводим их только для сравнения полноты других баз данных с Яндексом. Проведя обратно геокодирование, мы получили 7073 адреса, из которых 5670 имели и улицу, и номер дома. Мы также удалили дубликаты и наложили оставшиеся адреса на наши полигоны, получив 5102 адреса.

По итогам геокодирования, большинству полигонов зданий (84%)* был присвоен один или более адрес. При сравнении количества адресов, полученных из разных источников, Яндекс ведет с большим запасом:

Распределение найденных адресов по источникам

К сожалению, полнота адресных данных OSM в России невелика. Результаты могут сильно отличаться в зависимости от территории, но, пожалуй, Москва и Московская Область отличаются одним из самых полных покрытий в OSM, и, тем не менее, содержат адреса для менее, чем 10% существующих зданий (и близко к 0% в частном секторе). Почта Атлас / OSM дали схожий объем адресов, что означает, что большая часть работы по созданию собственной геопривязанной базы данных адресов для Почты России — еще впереди. Что касается данных ЕГРН, — результат невысок, но учитывая особенности способа, которым мы получили эти данные (описанного выше), этот результат не может с уверенностью говорить о полноте данных ЕГРН. Наилучший результат среди государственных данных показала ГИС ЖКХ, но учитывая, что эти данные не являются открытыми, практическое значение такого результата может быть невелико.

Основные пробелы в базах данных — это территории садоводческих некоммерческих товариществ (СНТ), дачных кооперативов и т.п.:

Этот факт подтвердили и наши коллеги из Почты: частный сектор растет быстрыми темпами, и присутствие незарегистрированных или неверно оформленных зданий — частый случай. И в целом, в частном секторе, наличие данных в наших результатах — это в основном заслуга Яндекса, по крайней мере, с полнотой адресов у них лучше всех:

Дружными усилиями мы все же собрали все возможные адреса (ОКС и участки) по данным Росреестра. После такого апдейта, в нашем бенчмарке осталось всего 6% не-адресных объектов. Это успех.🙂 Во многом, такой результат свидетельствует о том, что и в коммерческих источниках (лучший показатель у Яндекса 77%), и в государственных (Росреестр, 65%), покрытие адресных баз на территорию Московской области хорошее. Можно предположить, что все изменится, и качество полноты адресных баз будет совсем иным в других регионах России. Это уже предмет более комплексного исследования.

Что делать с пропусками в адресах и неполными или неточными данными? Можно фотографировать таблички с номерами домов, как это делают волонтеры проекта OpenStreetMap. У Почты России существует своя неповторимая сеть носителей знаний о местности в лице почтальонов. Имея доступ к единой системе ввода с мобильного приложения, такой сотрудник может стать поставщиком “полевой картографии”. К сожалению, эти множества, волонтеры-картографы и почтальоны, по всей видимости, пока не пересекаются.

По словам коллег из Почты, с которыми мы работали в рамках пилота: “Эталон адреса в России — это не один официальный адрес, а зачастую набор адресов — официальных, альтернативных, исторических — которые привязаны к объекту (зданию) на местности. Очень часто угловые дома, здания ввиду особенностей присвоения адреса на муниципальном уровне — имеют несколько официальных адресов — и это реалии которые нужно учитывать в работе с адресным пространством.”

В связи с вышесказанным, координатная привязка адресов позволяет связать разрозненные реестры, даже не имея единого стандарта написания адреса.
Спутниковые снимки — контуры домов — цифровой адрес — геокодированный адрес. Таким “цифровым” адресом, имеющим координаты, может являться кадастровый номер объекта из той же базы ЕГРН, либо подобный адрес может быть присвоен с помощью системы координатного кодирования.

Репозиторий с результатами проекта — https://github.com/Geoalert/vidnoe_benchmark

В завершение этого материала об использовании сервисов геокодирования в пилотном проекте по автоматической оцифровке зданий в интересах Почты России, мы подготовили справочную информацию по имеющимся в России “адресным базам данных”. Эта справка отнюдь не претендует на исчерпывающий вид, так что будем рады дополнениям и замечаниям.

Адресные базы данных в России

C 2012 г. роль центральной адресной базы данных России исполняет Федеральная Информационная Адресная Система (ФИАС). ФИАС была призвана заменить своего предшественника, Классификатор Адресов России (КЛАДР), и была построена на его основе. Отличия ФИАС от КЛАДР наши коллеги из DaData описали здесь. Неоднозначности добавляет существование еще одного сокращения, — ГАР (Государственный Адресный Реестр). ГАР — это название собственно базы данных адресов, а ФИАС — всей системы поддержания, обновления и предоставления данных из ГАР. Поэтому можно увидеть такие формулировки как “данные из ГАР в формате ФИАС”. Далее в этой статье, мы будем использовать только название ФИАС.

Оператором ФИАС является Федеральная Налоговая Служба (ФНС) (она же была разработчиком и оператором КЛАДР). ФИАС предоставляет данные в открытом доступе в форматах XML и DBF. Частота обновления базы — два раза в неделю. Пополнение и обновление ФИАС, — задача органов местного самоуправления, а значит именно от качества их работы зависит полнота и актуальность данных. Главной таблицей в ФИАС является ADDROBJ. В ней хранятся все адресные объекты, каждому из которых присвоен один из десяти уровней:

  1. РФ (единственный объект этого уровня)
  2. Субъект РФ
  3. Муниципальный район, городской округ или внутригородская территория (для городов федерального значения — Москвы, СПБ и Севастополя)
  4. Городское или сельское поселение (в случае муниципального района) или район города (в составе городского округа)
  5. Населенный пункт
  6. Элемент планировочной структуры (например, микрорайон)
  7. Элемент улично-дорожной сети (улица, проезд, т.д.)
  8. Земельный участок (его номер)
  9. Объект капитального строительства (здание/сооружение, его тип и номер)
  10. Помещение внутри здания/сооружения (квартира, офис, т.д.)

Объекты разного иерархического уровня хранятся в одной таблице. Такая структура называется плоским деревом. При этом у каждого объекта, кроме РФ, есть идентификатор родительского объекта; таким образом построена связь объектов между собой. Также, ФИАС содержит индексы, статусы актуальности записи, даты создания и архивирования записи (если она более не актуальна), для домов — текущее состояние (например, “требует ремонта”). Каждая запись имеет уникальный идентификатор. Если объект, например улица, получает новое название или перестает существовать, запись со старым названием не удаляется, но меняется значение поля актуальности, и заполняется поле даты архивации.

Где еще можно взять адресные данные? Следующий важный источник это Публичная Кадастровая Карта (ПКК). Собственно ПКК, — это картографический веб-интерфейс для просмотра данных из Единого Государственного Реестра Недвижимости (ЕГРН). Ведется он Росреестром, и политика предоставления данных вызывает разночтения уже не первый год. На странице открытых данных Росреестра ЕГРН не указан. Некоторые разъяснения можно найти в FAQ на официальном сайте Росреестра (2. Получение сведений, содержащихся в ЕГРН). Сначала, мы видим там следующую формулировку:

Обращаем внимание, что сведения, содержащиеся в ЕГРН, являются общедоступными (за исключением сведений, доступ к которым ограничен федеральным законом) и предоставляются органом регистрации прав по запросам любых лиц.

Но заканчивается этот FAQ-ответ абзацем, состоящим из одной фразы:

За предоставление сведений из ЕГРН взимается плата.

Авторы написанного ссылаются на Федеральный Закон “О государственной регистрации недвижимости” (ФЗ-218). Согласно ФЗ-218, бесплатно данные из ЕГРН могут получить только лица и организации, перечисленные в части 1 статьи 63, — это различные государственные учреждения, органы государственной власти и их отдельные представители. Общедоступность данных устанавливает статья 7:

Сведения, содержащиеся в Едином государственном реестре недвижимости, являются общедоступными, если иное не установлено законом.

Последняя часть фразы исключает из числа общедоступных данные, являющиеся государственной, налоговой, коммерческой или другими тайнами. Сам термин общедоступность не разъясняется и, судя по всему, не имеет официального определения, но вывод понятен: общедоступность означает возможность получения данных любым лицом; платно или нет — это уже другой вопрос.

Порядок предоставления сведений из ЕГРН устанавливает статья 62, пункт 5:

Порядок предоставления сведений, содержащихся в Едином государственном реестре недвижимости … устанавливается органом нормативно-правового регулирования.

Таким органом является Росреестр, и, следовательно, конкретные условия предоставления данных определяет именно он. Эти условия установлены Приказом Минэкономразвития России от 23.12.2015 N 968. Это массивный правовой текст, в котором говорится о различных бумажных и онлайн формах запросов и соответствующих документах, представляемых при удовлетворении запроса. Об автоматических способах получения данных вроде REST API в нем не упоминается.

У ПКК есть API, построенный на основе ArcGIS Server: он включает достаточно широкий набор сервисов. В своей работе мы опробовали сервис обратного геокодинга. Заключение — сервис работает, но информация об условиях получения данных, максимально разрешенном количестве запросов и т.п. отсутствует, и, по нашему опыту, этот предел существует (сервис блокирует доступ после нескольких сотен запросов, но это число не является постоянным). Данный API не афишируется на сайтах Росреестра и ПКК, и в целом по запросу в поисковике какой-либо информации о нем мы не смогли найти. Мы узнали о нем, изучив запросы и ответы браузера при использовании ПКК.

Пример запроса:

https://pkk.rosreestr.ru/arcgis/rest/services/Address/gkn/GeocodeServer/reverseGeocode?f=json&location={"x":"37.616802","y":"55.759715","spatialReference":{"wkid":4326}}&inPoint=true

Ответ:

{“address”: {“Address”: “УЛ БОЛЬШАЯ ДМИТРОВКА 4/2”,“Postal”: “”,“City”: “МОСКВА”,“Province”: null,“Region”: “МОСКВА”,“Loc_name”: pkk_place”},“location”: {“x”: 37.616786055655922,“y”: 5.759735684772174,“spatialReference”: {“wkid”: 4326,“latestWkid”: 326}}

--

--

GeoAlert

We apply Machine learning to automated analysis over Earth observation data