О том как находить скрытые данные в среди открытых данных. О API скрытых в недрах сайтов, о поиске опубликованных XML и CSV файлов и том какие данные скрываются в сканах документов
1 of 29
More Related Content
Скрытые данные. Какие данные спрятаны на госсайтах
1. “Скрытые данные”
Какие данные спрятаны в
госсайтах?
Иван Бегтин
Директор АНО “Информационная культура”
Член экспертного совета при Правительстве РФ
2. Тезисы
Открытые данные - это лишь малая часть
государственных общедоступных
данных.
Много большее скрывается за пределами
разделов по открытым данным.
3. О чём пойдёт речь
• Скрытое API на официальных сайтах
• Государственные FTP сервера
• Поиск данных и API в поисковых системах
• Поиск данных в веб-архивах
• Данные внутри сканов документов
6. Скрытое API сайта Мэра Москвы
• Не документировано
• Включает: новости, структуру власти,
ключевые индикаторы, структуру сайта и тд
• Является частью CMS сайта (используется для
Ajax запросов)
9. Как найти API на сайте?
Основные способы
• Признаки факта наличия в robots.txt
• Включив режим веб-разработки в браузере и
отслеживая XHR запросы
А также
• Читая ТЗ и результаты работы на создания
сайтов (помним про документы на
zakupki.gov.ru)
• Анализируя код сайтов
10. Где ещё есть недокументированное
API?
• Портал госуслуг
• Единый портал бюджетной системы
• ГАС “Управление”
• ГИС “ЖКХ”
• Портал открытых данных Москвы
и ещё десятки государственных сайтов и
порталов государственных информационных
систем
12. Примеры государственных FTP
серверов
• FTP сервер сайта госзакупок (массовая
выгрузка данных по контрактам и
закупкам)
• FTP сервер сайта бюджетных
учреждений (массовая выгрузка данных
по бюджетным организациям)
18. Как искать данные и API
По домену и расширениям файлов:
• site:mvd.ru filetype:csv
• site:kremlin.ru filetype:xml
Поиск по ключевым словам:
• API REST site:gov.ru
• API JSON site:gov.ru
19. Нюансы
• Находит только находимое поисковыми
системами, не находит за пределами
ограничений robots.txt
• Google лучше Яндекса для
направленного поиска
21. Особенности работы с данными на
сайтах
• Многие реестры публикуются как Excel
файлы .xls/.xlsx большого объёма
• Многие данные скрыты внутри
ZIP/RAR/7z файлов и не находятся
поисковыми системами
• Найти их на самом сайте очень
неочевидно
26. Проблемы со сканами документов
• Сканы не только понижают удобство
работы с документами, но и позволяют
упустить утечки персональных и иных
данных
• Например, публикация паспортных
данных доверенности или информацию
для служебного использования
27. Как много?
За последние 3 года выявлено в:
• 4 крупных государственных реестра
• 10 сайтах органов власти
Объём
• тысячи документов