ݺߣ

ݺߣShare a Scribd company logo
Ссылки в нормативных
     документах
      Сбор и хранение
СПС «Право.ру»


• более 9 миллионов документов
• +10 000 документов / день
Проблемы

• фидеральный зокон
• ФЗ о федзаконе
• документы меняются
• разная структура документов
Требования

• быстрый отклик на запросы
• большое количество ссылок
• Хранение дополнительных данных для
  сложных запросов
Задачи


• Как собрать?
• Как хранить и использовать?
Сборка ссылок


• Нормализуем текст
• Поиск документа
• Поиск уточнения в документе
Исходный текст

    Согласно пп 1 пункта 2 ст.17
ФЗ РФ «О крабах», медведи не имеют
     права голоса на выборах.
Нормализуем

Согласно [подпункт 1] [пункта 2] [статьи
 17] [Федеральный Закон] [Российской
 Федерации] [«О крабах»], медведи не
    имеют права голоса на выборах.
Склеиваем

[подпункт 1 пункта 2 статьи 17
Федеральный Закон Российской
   Федерации «О крабах»]
Поиск

   Тип: Федеральный Закон
Регион: Российская Федерация
    Заголовок: «О крабах»
Поиск уточнений
подпункт 1 пункта 2 статьи 17
  SELECT id FROM entities
          WHERE
     types = «13,16,17»
            AND
    num_path = «1,2,17»
            AND
  tons_of_optimization_shit
Хранение

• Neo4j
• OQGraph
• OrientDB
• HyperGraphDB
• MySQL + Sphinx
Решение

• MySQL - хранение ссылок
• Sphinx
 • Индекс ссылок в документе
 • Индекс счетчика ссылок на документ
Ссылки в нормативных документах
Итоги


• Ссылки в документах
• Связанные документы
• Автоподборка юр.практики
Вопросы?
     Андрей Суббота
   subbota@gmail.com
http://twitter.com/numbata

More Related Content

What's hot (19)

Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
Ivan Begtin
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
it-people
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"
Yandex
Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»
DevDay
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
Penguin Tux
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
GooVape
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
Yury Katkov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay SamokhvalovPostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
Nikolay Samokhvalov
Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"
Polina Fomina
Что такое ЭДО в 1С
Что такое ЭДО в 1СЧто такое ЭДО в 1С
Что такое ЭДО в 1С
1C-KPD
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERPМойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Oleg Alexeev
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Yandex
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
Елена Кузовкина
Бизнес почта
Бизнес почтаБизнес почта
Бизнес почта
Елена Кузовкина
Сергей Пузанков — XML
Сергей Пузанков — XMLСергей Пузанков — XML
Сергей Пузанков — XML
Yandex
SEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVOSEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVO
Vladislav Morgun
Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4
Gleb Lebedev
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
Ivan Begtin
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014А. Фирсов "Найти за одну секунду - 2", DUMP-2014
А. Фирсов "Найти за одну секунду - 2", DUMP-2014
it-people
Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"Екатерина Войденко "Интранет и синхронизация"
Екатерина Войденко "Интранет и синхронизация"
Yandex
Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»Матвей Мальков «Ещё один поиск контактов на Android»
Матвей Мальков «Ещё один поиск контактов на Android»
DevDay
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
Penguin Tux
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
GooVape
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
Yury Katkov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay SamokhvalovPostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
PostgreSQL Moscow Meetup - September 2014 - Nikolay Samokhvalov
Nikolay Samokhvalov
Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"Лекция "Архитектура поиска Яндекса"
Лекция "Архитектура поиска Яндекса"
Polina Fomina
Что такое ЭДО в 1С
Что такое ЭДО в 1СЧто такое ЭДО в 1С
Что такое ЭДО в 1С
1C-KPD
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERPМойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Oleg Alexeev
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Yandex
Сергей Пузанков — XML
Сергей Пузанков — XMLСергей Пузанков — XML
Сергей Пузанков — XML
Yandex
SEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVOSEO Battle #2: 26.01 SEOclub & EVO
SEO Battle #2: 26.01 SEOclub & EVO
Vladislav Morgun
Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4Поиск текста в MongoDB 2.4
Поиск текста в MongoDB 2.4
Gleb Lebedev

Viewers also liked (6)

Debbug Rails Application For Dummies
Debbug Rails Application For DummiesDebbug Rails Application For Dummies
Debbug Rails Application For Dummies
Andrey Subbota
Vim or die
Vim or dieVim or die
Vim or die
Ivan Evtukhovich
Errbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшенеErrbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшене
Andrey Subbota
Build system
Build systemBuild system
Build system
Andrey Subbota
Chef коротко об инфраструктуре
Chef коротко об инфраструктуреChef коротко об инфраструктуре
Chef коротко об инфраструктуре
Andrey Subbota
Git для продолжающих
Git для продолжающихGit для продолжающих
Git для продолжающих
Ivan Evtukhovich
Debbug Rails Application For Dummies
Debbug Rails Application For DummiesDebbug Rails Application For Dummies
Debbug Rails Application For Dummies
Andrey Subbota
Errbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшенеErrbit - агрегатор сбоев в продакшене
Errbit - агрегатор сбоев в продакшене
Andrey Subbota
Chef коротко об инфраструктуре
Chef коротко об инфраструктуреChef коротко об инфраструктуре
Chef коротко об инфраструктуре
Andrey Subbota
Git для продолжающих
Git для продолжающихGit для продолжающих
Git для продолжающих
Ivan Evtukhovich

Ссылки в нормативных документах

Editor's Notes