ݺߣ

ݺߣShare a Scribd company logo
“Скрытые данные”
Какие данные спрятаны в
госсайтах?
Иван Бегтин
Директор АНО “Информационная культура”
Член экспертного совета при Правительстве РФ
Тезисы
Открытые данные - это лишь малая часть
государственных общедоступных
данных.
Много большее скрывается за пределами
разделов по открытым данным.
О чём пойдёт речь
• Скрытое API на официальных сайтах
• Государственные FTP сервера
• Поиск данных и API в поисковых системах
• Поиск данных в веб-архивах
• Данные внутри сканов документов
Скрытое API
Пример: www.mos.ru
Скрытое API сайта Мэра Москвы
• Не документировано
• Включает: новости, структуру власти,
ключевые индикаторы, структуру сайта и тд
• Является частью CMS сайта (используется для
Ajax запросов)
Находится через режим веб-разработки
браузера
… и через упоминания в robots.txt
Как найти API на сайте?
Основные способы
• Признаки факта наличия в robots.txt
• Включив режим веб-разработки в браузере и
отслеживая XHR запросы
А также
• Читая ТЗ и результаты работы на создания
сайтов (помним про документы на
zakupki.gov.ru)
• Анализируя код сайтов
Где ещё есть недокументированное
API?
• Портал госуслуг
• Единый портал бюджетной системы
• ГАС “Управление”
• ГИС “ЖКХ”
• Портал открытых данных Москвы
и ещё десятки государственных сайтов и
порталов государственных информационных
систем
Государственные FTP
сервера
Примеры государственных FTP
серверов
• FTP сервер сайта госзакупок (массовая
выгрузка данных по контрактам и
закупкам)
• FTP сервер сайта бюджетных
учреждений (массовая выгрузка данных
по бюджетным организациям)
Малоизвестные государственные FTP
ресурсы
• FTP сервер Судебного департамента:
судебная статистика
• SFTP сервер федеральной
антимонопольной службы
Официальная новость на сайте ФАС
Поиск данных и API в
поисковых системах
REST API на сайтах в домене .gov.ru
XML на сайте МВД
Как искать данные и API
По домену и расширениям файлов:
• site:mvd.ru filetype:csv
• site:kremlin.ru filetype:xml
Поиск по ключевым словам:
• API REST site:gov.ru
• API JSON site:gov.ru
Нюансы
• Находит только находимое поисковыми
системами, не находит за пределами
ограничений robots.txt
• Google лучше Яндекса для
направленного поиска
Поиск данных внутри
веб-архивов
Особенности работы с данными на
сайтах
• Многие реестры публикуются как Excel
файлы .xls/.xlsx большого объёма
• Многие данные скрыты внутри
ZIP/RAR/7z файлов и не находятся
поисковыми системами
• Найти их на самом сайте очень
неочевидно
Решение
Выкачать весь сайт и найти всё
что спрятано в архивах и найти
все документы большого объёма
Национальный цифровой архив
Национальный цифровой архив
• Создан для целей долгосрочной
архивации документов
• Но может использоваться и для
обнаружения данных на сайтах
Поиск данных внутри
сканов документов
Проблемы со сканами документов
• Сканы не только понижают удобство
работы с документами, но и позволяют
упустить утечки персональных и иных
данных
• Например, публикация паспортных
данных доверенности или информацию
для служебного использования
Как много?
За последние 3 года выявлено в:
• 4 крупных государственных реестра
• 10 сайтах органов власти
Объём
• тысячи документов
Примеры
Примеров не будет:(
Когда находим подобное сразу
передаём информацию
руководству госоргана или
правоохранительным органам
Спасибо за
внимание.
Иван Бегтин
Email: ibegtin@infoculture.ru
Сайт: http://infoculture.ru

More Related Content

Скрытые данные. Какие данные спрятаны на госсайтах