8. Открытые данные
В каких ситуациях?
- При поиске любых государственных данных
Как действовать:
✓ Искать на порталах открытых данных и сайтах ведомств
✓ Запрашивать данные в машиночитаемых форматах
Ограничения
- не все данные легко найти, часто надо знать как они называются
- данные бывают большого объема и в неудобных форматах
(пример, SDMX для статистики)
9. Официальные запросы
В каких ситуациях?
- Поиск данных, не опубликованных в открытом доступе
Как действовать:
✓ Официальные запросы по 8-ФЗ
https://ru.wikisource.org/wiki/Федеральный_закон_от_07.02.2017_
№_8-ФЗ
✓ Запрашивать данные в машиночитаемых форматах
Ограничения
- ответят через 30 дней и часто не дают данные, а пришлют
отписку
10. Скрейпинг (Scraping)
В каких ситуациях?
- Когда данные есть, но не в машиночитаемом виде, а в виде веб-
страниц или PDF/DOC файлов
Как действовать:
✓ Найти первоисточник данных
✓ Написать программу скрейпер или найти ту/того кто ее напишет
Ограничения
- Требует навыков программирования, знания как устроены веб-
сайты, PDF документы и какие инструменты используются
11. Краудсорсинг
В каких ситуациях?
- Есть много сканов или источников информации для которых
невозможно написать скрейперы
Как действовать:
✓ Использовать одну из площадок или развернуть свою PyBossa
✓ Собрать и скоординировать команду волонтеров
Ограничения
- нет гарантии вовлечения участников, нужны механизмы
мотивации и работы с сообществом
12. Посредники
В каких ситуациях?
- Коммерческие данные не собираемые государством или
продаваемые государством. Пример - ЕГРЮЛ
Как действовать:
✓ Если есть возможность, приобретать данные или доступ к ним
✓ Если нет возможности, делать партнерские материалы с
владельцами данных
Ограничения
- нет гарантии вовлечения участников, нужны механизмы
мотивации и работы с сообществом
13. Биржи данных
В каких ситуациях?
- Коммерческие данные не собираемые государством
Как действовать:
✓ Если есть возможность, приобретать данные
✓ Если нет возможности, делать партнерские материалы с кем-то
кто их купил
Ограничения
- дорого и, чаще всего, не про данные в России
22. Знать где можно найти данные
1. Каталог порталов открытых данных
http://dataportals.org/
2. Каталог ссылок на открытые данные в России
https://github.com/infoculture/awesome-
opendata-rus
3. Хаб открытых данных https://hubofdata.ru
23. Где спросить?
Канал в Slack
https://opendatarussia.slack.com/
Чаты в Telegram:
- https://t.me/opendatachat
- https://t.me/begtinchat
Quora Datasets
https://www.quora.com/topic/Datasets
StackOverflow
http://opendata.stackoverflow.net/
24. Где найти инструменты для скрейпинга
Awesome data journalism
https://github.com/infoculture/awesome-
datajournalism
Awesome python scraping
https://github.com/lorien/awesome-web-
scraping/blob/master/python.md