Мы начали обновление открытых датасетов контуров зданий с регионов Чечня и Тыва, а теперь обновили и выкладываем Московскую область и Москву. По сравнению с обработкой за октябрь прошлого года, по старым снимкам Mapbox Satellite, прирост кол-ва детектированных строений составил:
1. по Московской области — 906+ тыс.
2. по Москве — 18+ тыс.
Такие показатели отражают не столько повышение качества наших нейросетей, сколько темпы строительства в регионе за последние несколько лет. И эти результаты получены по снимкам, которые уже устарели на год!
Сейчас топ 3 рейтинга полноты карты Российских регионов выглядит так:
Вы можете посмотреть и самостоятельно проверить данные статистики по ссылке.
Рейтинг сравнения с данным OpenStreetMap составлялся нами с актуальностью на начало 2021 г. Мы пересчитали статистику по двум обновляемым регионам и узнали, что картографы OSM тоже не стояли на месте. Карта пополнялась со скоростью примерно 30 тыс. новых зданий в месяц. Чтобы догнать текущее отставание с результатами детектирования Geoalert-Mapbox по Московской области, понадобится примерно 7.25 лет!
❗️Как обычно, датасеты можно скачать по ссылке на странице проекта — https://github.com/Geoalert/urban-mapping
А вот интересный факт — здания в некоторых населенных пунктах отрисованы в OSM очень детально, например, г. Егорьевск опережает на почти 4 тыс. объектов. А впереди всех по кол-ву — Можайский район.
Urban Mapping API
Датасет по Москве / Мос. области содержит почти 4 млн фичей. Поэтому мы публикуем его в GeoPaсkage, а не в GeoJSON (как “Microsoft building footprints” 😏) — это удобный формат, поддерживаемый современными ГИС, который по сути представляет контейнер базы данных и быстро читается программой. Тем не менее, работать с одним таким файлом может оказаться неудобно, либо могут понадобиться выборки на конкретный населенный пункт, над которым вы, как картограф, в данный момент работаете. Чтобы импортировать данные в такой редактор как JOSM — опять же нужен формат GeoJSON, и целый датасет не пролезает.
Поэтому мы подключили открытые датасеты к сервису Urban Mapping API, который стримит данные в формате GeoJSON по области запроса. ⚙️
Если вы разрабатываете собственное приложение для кадастра или территориального планирования, или если вы, например, Facebook, который делает свой редактор для Openstreetmap — можете застримить данные с нашего сервера, и пользователям будет еще удобнее выбирать и редактировать на конкретный интересующий их поселок или город.
Данные по Тыве и Чечне тоже доступны по API.
Вопросы-ответы
После первой попытки опубликовать данные для пользователей Openstreetmap у нас сформировался список часто задаваемых вопросов, которые задают и другие пользователи, и заказчики.
- Зачем вам это надо?
Мы применяем свой продукт, которым является платформа обработки. Мы сами используем открытые данные, поэтому ищем форму, как помогать сообществу картографов. - Что делать с тегами?
При импорте в JOSM, информация из поля “Properties” проставляется в теги. В первой версии мы склеивали контуры зданий с данными Реформы ЖКХ, в этот раз выкладываем только контуры, а склейки с другими датасетами, геокодинг и проч., возможно, сделаем чаcтью сервиса Urban Mapping API - Как избежать конфликтов с данными OpenStreetMap
В ММО-датасете мы оставили поле source (если его значение “OSM” — значит такое здание уже есть в OSM по состоянию на июль 2021). Мы согласны, что нужна более продвинутая система мерджинга и разрешения конфликтов, типа “Rapid”, это вопрос интеграции с такими системами. - Как нарезать большой файл, чтобы загрузить в JOSM?
См. Urban Mapping API - Как импортировать в OpenStreetMap?
Как обычно, совет “спросите бывалых” — самый действенный. Мы не самые бывалые, но подготовили страницу wiki, для дальнейшего наполнения. В этом посте есть краткий гайд, как заполнить пробелы в своей любимой деревне. “Best practice”.😉 - Каково качество ваших данных?
Мы много времени посвятили работе с научными подходами к исследованиям качества алгоритмов на основе машинного обучения, поэтому теперь оцениваем качество на глаз😁. Нравится — не нравится. Ведь так делают картографы?🤷🏼♂️
Если говорить более серьезно, то мы разрабатываем бенчмарки и тестируем качество алгоритмов на разных примерах территорий. Справедливее говорить о доверительном интервале, в который попадают метрики. Для инстанс-сегментации мы оцениваем “пространственное пересечение” масок эталона и автоматической обработки и считаем объектные метрики (см. пример бенчмарка по территории Москвы — Мос области).
При этом при сравнении картографического качества важно использовать одни и те же снимки, поскольку дополнительную погрешность вносит точность геопривязки изображений, не говоря про изменения, произошедшие в застройке. Но наибольшее разнообразие вносит разница эстетических взглядов на карту и применение в рамках прикладной задачи, поэтому метрики между двумя результатами картографов могут разойтись даже сильнее, чем картограф и автомат.😁
По датасету Московской области метрика пространственного пересечения с бенчмарком, в данном случае, будет около 0.7 для автоматических данных. Для данных OSM ~ 0.8
7. Для чего это нужно?
На примерах Московской области и других регионов мы видим, что карта отстает от действительности. Если в Московской области есть проект “Геопортал Подмосковья”, в котором собрана очень детальная информация, то не факт что проекты с таким бюджетом возможны во всех регионах. Да и снимки на геопортале Подмосковья обновлялись с промежутком в шесть лет.
Так что, возможно, технологические процессы, совмещающие в себе автоматическое дешифрирование и экспертную аналитику и картографию, нужны как разумный компромисс, чтобы не отстать от жизни.
Ссылки
- GitHub
- Wiki OpenStreetMap (EN)
- Open Urban Mapping — read more
- Open Urban Mapping — statistics
- Mapflow.ai — The Geoalert platform for AI-mapping