ݺߣ

ݺߣShare a Scribd company logo
Хакатон
исследование использования ОД в
науке на примере
Анализ паспортов специальностей
ВАКа и объектов защиты в
диссертациях
Сергей Салтыков
к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
Цели исследования по ОД
• Проанализировать, насколько
немашиночитаемые текстовые
индексируемые ОД по науке полезны и
интерпретируемы
• Продемонстрировать, что полезным
переходным шагом к машиночитаемым ОД от
плохоиндексируемых (.doc, .pdf) являются
индексируемые (.html) ОД.
• Показать, что в структуре гражданского
общества, работающего с ОД, минимум два
этажа: владеющие программированием и
использующие поисковики.
Для кого результаты исследования
• РАН
• МинОбр
• ФАНО
• Гражданское общество
Конечный продукт исследования
• Выложенные индексируемыеОД по науке
для использования гражданским
обществом
• Единая открытая информационная система
с распределенным хранилищем,
создаваемая РАН, МинОбром, ФАНО.
Типология открытых данных
• Открытые данные с .doc и .pdf
• Открытые данные, хорошо индексируемые
поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-
специалистами
• Работа с ОД, индексируемыми
поисковиками, без участия ИТ-
специалистов
Преимущества «гуглочитаемого
подхода» к Открытым данным
• Не нужны навыки программирования – сможет
любой член гражданского общества
• Решает часть проблем компьютерной лингвистики
– формы слова, разные части речи, близость
ключевых слов друг к другу и, соответственно,
ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и
для случаев, когда ключевое слово одна на сотни
тысяч страниц, и когда у нас десятки тысяч
различных вхождений.
• Позволяет с минимальными затратами создать
прототип ИС управления наукой.
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
Как ловить псевдонауку в паспортах
ВАКа
Как ловить псевдонауку в паспортах
ВАКа.
Как ловить псевдонауку в
диссертациях
Что такое синергетика?
Что такое кибернетика?
Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или
«лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много
«лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по
синергетике / кибернетике / исследованию
операций и т.д. – это тоже сигнальчик. Значит
«взаимоопыления» будет мало.
Выводы
• Экспликация видовОД полезна.
• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать
текстом, что использовать большие
возможности поисковиков.Чтобы
информационные системы не дублировали
уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам
рассказывать о том, как важно обществу без
навыков программирования даже наблюдать
за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по
науке, не дублирующая функции поисковиков
sergey.saltykov@gmail.com
vk.com/sergiustoday

More Related Content

Similar to Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков (20)

Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Iryna Kuchma
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследования
Alena Begler
Открытая наука в России: практические шаги
Открытая наука в России: практические шагиОткрытая наука в России: практические шаги
Открытая наука в России: практические шаги
Dmitry Semyachkin
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)
Irinka Bilan
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
ДокШир
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Iryna Kuchma
Создание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе DspaceСоздание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе Dspace
bntulibrary
Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...
bntulibrary
Открытый доступ: Роль библиотек
Открытый доступ: Роль библиотекОткрытый доступ: Роль библиотек
Открытый доступ: Роль библиотек
Iryna Kuchma
Bulletin KMS 11.2013
Bulletin KMS 11.2013Bulletin KMS 11.2013
Bulletin KMS 11.2013
home
КиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к наукеКиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к науке
Dmitry Semyachkin
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Программа Развития
2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext
Valery Chernyshov
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS)
Fred Kozlov
Semantic oer
Semantic oerSemantic oer
Semantic oer
Irina Radchenko
Информационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигацииИнформационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигации
Lara Simonova
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Vladimir Haritonov
Innovation Ecosystem Forum
Innovation Ecosystem ForumInnovation Ecosystem Forum
Innovation Ecosystem Forum
Ingria. Technopark St. Petersburg
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
Alena Begler
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
Andzhey Arshavskiy
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Iryna Kuchma
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследования
Alena Begler
Открытая наука в России: практические шаги
Открытая наука в России: практические шагиОткрытая наука в России: практические шаги
Открытая наука в России: практические шаги
Dmitry Semyachkin
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)
Irinka Bilan
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
ДокШир
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Iryna Kuchma
Создание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе DspaceСоздание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе Dspace
bntulibrary
Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...
bntulibrary
Открытый доступ: Роль библиотек
Открытый доступ: Роль библиотекОткрытый доступ: Роль библиотек
Открытый доступ: Роль библиотек
Iryna Kuchma
Bulletin KMS 11.2013
Bulletin KMS 11.2013Bulletin KMS 11.2013
Bulletin KMS 11.2013
home
КиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к наукеКиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к науке
Dmitry Semyachkin
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Программа Развития
2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext
Valery Chernyshov
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS)
Fred Kozlov
Информационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигацииИнформационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигации
Lara Simonova
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Vladimir Haritonov
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
Alena Begler
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
Andzhey Arshavskiy

Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

  • 1. Хакатон исследование использования ОД в науке на примере Анализ паспортов специальностей ВАКа и объектов защиты в диссертациях Сергей Салтыков к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН, экс-доцент НИУ ВШЭ
  • 2. Цели исследования по ОД • Проанализировать, насколько немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы • Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД. • Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
  • 3. Для кого результаты исследования • РАН • МинОбр • ФАНО • Гражданское общество
  • 4. Конечный продукт исследования • Выложенные индексируемыеОД по науке для использования гражданским обществом • Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.
  • 5. Типология открытых данных • Открытые данные с .doc и .pdf • Открытые данные, хорошо индексируемые поисковиками («Гуглочитаемые» данные) • Машиночитаемые открытые данные
  • 6. Участие общества в работе с ОД • Работа с машиночитаемыми ОД ИТ- специалистами • Работа с ОД, индексируемыми поисковиками, без участия ИТ- специалистов
  • 7. Преимущества «гуглочитаемого подхода» к Открытым данным • Не нужны навыки программирования – сможет любой член гражданского общества • Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам. • Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений. • Позволяет с минимальными затратами создать прототип ИС управления наукой.
  • 8. Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией ru.wikipedia.org/wiki/псевдонаука Inurl:teacode.ru/online/vak
  • 9. Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
  • 10. Как ловить псевдонауку в паспортах ВАКа
  • 11. Как ловить псевдонауку в паспортах ВАКа.
  • 12. Как ловить псевдонауку в диссертациях
  • 15. Дальнейшие горизонты развития ИС • Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик. • Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик. • Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.
  • 16. Выводы • Экспликация видовОД полезна. • «Гуглочитаемые» данные – это важно. Надо продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков.Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков. • Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы. • Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков