ݺߣ

ݺߣShare a Scribd company logo
Где взять данные дата-
журналисту?
Иван Бегтин
Директор НП “Информационная культура”
Ситуация
Нужно срочно, статья
через несколько часов
Ситуация
Данных очень много, но
где найти нужные?
Ситуация
Данные очень “грязные”
Ситуация
Не умею
программировать!
Что делать?
Как искать данные?
Порталы
открытых
данных
Скачать/Запросить
Официальные
запросы в
госорганы и
компании
СкрейпингСобрать Краудсорсинг
Биржи
данных
КупитьПосредники
Открытые данные
В каких ситуациях?
- При поиске любых государственных данных
Как действовать:
✓ Искать на порталах открытых данных и сайтах ведомств
✓ Запрашивать данные в машиночитаемых форматах
Ограничения
- не все данные легко найти, часто надо знать как они называются
- данные бывают большого объема и в неудобных форматах
(пример, SDMX для статистики)
Официальные запросы
В каких ситуациях?
- Поиск данных, не опубликованных в открытом доступе
Как действовать:
✓ Официальные запросы по 8-ФЗ
https://ru.wikisource.org/wiki/Федеральный_закон_от_07.02.2017_
№_8-ФЗ
✓ Запрашивать данные в машиночитаемых форматах
Ограничения
- ответят через 30 дней и часто не дают данные, а пришлют
отписку
Скрейпинг (Scraping)
В каких ситуациях?
- Когда данные есть, но не в машиночитаемом виде, а в виде веб-
страниц или PDF/DOC файлов
Как действовать:
✓ Найти первоисточник данных
✓ Написать программу скрейпер или найти ту/того кто ее напишет
Ограничения
- Требует навыков программирования, знания как устроены веб-
сайты, PDF документы и какие инструменты используются
Краудсорсинг
В каких ситуациях?
- Есть много сканов или источников информации для которых
невозможно написать скрейперы
Как действовать:
✓ Использовать одну из площадок или развернуть свою PyBossa
✓ Собрать и скоординировать команду волонтеров
Ограничения
- нет гарантии вовлечения участников, нужны механизмы
мотивации и работы с сообществом
Посредники
В каких ситуациях?
- Коммерческие данные не собираемые государством или
продаваемые государством. Пример - ЕГРЮЛ
Как действовать:
✓ Если есть возможность, приобретать данные или доступ к ним
✓ Если нет возможности, делать партнерские материалы с
владельцами данных
Ограничения
- нет гарантии вовлечения участников, нужны механизмы
мотивации и работы с сообществом
Биржи данных
В каких ситуациях?
- Коммерческие данные не собираемые государством
Как действовать:
✓ Если есть возможность, приобретать данные
✓ Если нет возможности, делать партнерские материалы с кем-то
кто их купил
Ограничения
- дорого и, чаще всего, не про данные в России
Вопросы
Сколько
государственных денег
получила _эта_ компания
в 2016 году?
Какой средний заработок
сотрудников
министерства NNN за
прошлый год?
Какой средний заработок
сотрудников
министерства NNN за
прошлый год?
В каких компания NNN
является учредителем
или директором?
Где найти статистику
усыновлений по
регионам России за 2016
год?
Сколько и на что
потратил средств Лукойл
в рамках программы
корп. соц.
ответственности?
Инструменты
Знать где можно найти данные
1. Каталог порталов открытых данных
http://dataportals.org/
2. Каталог ссылок на открытые данные в России
https://github.com/infoculture/awesome-
opendata-rus
3. Хаб открытых данных https://hubofdata.ru
Где спросить?
Канал в Slack
https://opendatarussia.slack.com/
Чаты в Telegram:
- https://t.me/opendatachat
- https://t.me/begtinchat
Quora Datasets
https://www.quora.com/topic/Datasets
StackOverflow
http://opendata.stackoverflow.net/
Где найти инструменты для скрейпинга
Awesome data journalism
https://github.com/infoculture/awesome-
datajournalism
Awesome python scraping
https://github.com/lorien/awesome-web-
scraping/blob/master/python.md
Краудсорсинг
PyBossa
http://pybossa.com
Hive
https://github.com/nytlabs/hive
Transcribable
https://github.com/propublica/transcribable
В следующий раз
Как собирать данные
используя API
“Темные данные”
Спасибо за
внимание.
Иван Бегтин
Email: ibegtin@infoculture.ru
Сайт: http://infoculture.ru

More Related Content

Где взять данные дата-журналисту?