ݺߣ

ݺߣShare a Scribd company logo
20.09.2013
Извлечение
справочных данных из
технических текстов на
естественных языках
2
Первые попытки:
Моделирование требований
Проект ОАО Росэнергоатом, июль 2011
– Методология ручной обработки
технических заданий
– Специальный софт для преобразования в
модель данных ISO 15926
– Обработка типового ТЗ на АЭС:
• Размер выборки: 12 абзацев текста
• Идентификация содержания: 16 требований, 3
классификатора
• Модель: 96 объектов, 35 отношений
3
Семантическое моделирование
технических документов
Методология TabLan, март 2012
– Методология ручной обработки
технической документации (English)
– Используя подмножество языка Gellish
http://sourceforge.net/apps/trac/gellish/
– Отображение на расширенный набор
шаблонов ISO 15926-7
– Использует открытое расширение.15926
Editor для трансформации в модель
данных ISO 15926
Можно скачать с http://techinvestlab.ru/TabLan/
4
Уроки моделирования
документов
• Перспективы:
– Верификация требований
– Автоматизированная настройка IT систем
(классификаторы и справочники для
CAD/CAM/PLM/ERP/и т.п.)
– Поддержка интеграции данных (генерация библиотек
справочных данных)
– Трассировка требований к проектным решениям
– Верификация проектных решений
• Проблемы:
– Затраты ручного труда на моделирование
– Большой объём «тупой» подготовительной работы
– Необходимость участия специалистов инженерных
областях в работе на новом формальном языке
– Фрагментированная IT архитектура в проектных
организациях – препятствие для повторного
использования моделей
5
Необходимые условия для
автоматизации моделирования
технических документов
• Использование самых современных
достижений в компьютерной обработке
естественного языка (синтаксис и семантика)
• Использование самых современных
достижений онтологического моделирования
естественного языка
• Обучение на образцах из специального
корпуса естественного языка
• Контролируемый инженерный язык (по
образцу Gellish) как промежуточная модель
• Формальное преобразование моделей в
модели ISO 15926 и их верификация
Эксперименты с
ABBYY Compreno
Technology That Translates from Human
into Computer Language
http://www.abbyy.ru/science/techno
logies/business/compreno
Compreno
AABBYY Syntactic and Semantic Parser выполняет точный и подробный
анализ текстов на русском и английском языках, создавая прочный
фундамент для решения главной задачи приложения на высоком уровне.
JОбласть применения
●- Интеллектуальный корпоративный поиск
●- Автоматическое реферировании документов
●- Извлечение фактов из больших объемов информации
●- Мониторинг СМИ и социальных сетей с
последующим анализом тональности
найденных сообщений
●- Другие приложения, включающие анализ текстов
.15926 Editor: инструментарий ISO
15926
8
Система онтологического программирования:
- просмотр, создание, поиск и преобразование данных в
форматах стандарта ISO 15926;
- поддержка множественности неймспейсов, работа с
серверами SPARQL;
- консоль онтологического программирования на языке
Python;
- распознавание онтологических паттернов;
Работа будет продолжаться в направлениях:
- разработка адапторов для различных инженерных (и не
только инженерных) применений;
- интерфейсная поддержка exploratory programming;
- развитие возможностей онтологического
программирования (подъем уровня языка работы с
онтологическими данными, разработка верификаторов,
reasoners, средств эволюции онтологий и т.д.).
Скачать с http://techinvestlab.ru/dot15926Editor/
20.09.13
9
Пилотный проект
• ABBYY Compreno
• Использование самых современных достижений в компьютерной
обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического
моделирования естественного языка
• Обучение парсера ABBYY Compreno на корпусе инженерных
текстов
• Образцы текстов профессионального подмножества естественного
языка
• Моделирование отдельных инженерных текстов
• Извлечение инженерной онтологии объектов и отношений
• .15926 Editor
• Отображение инженерной онтологии объектов и отношений на
онтологию ISO 15926-2
• Формальное преобразование моделей в модели ISO 15926 и их
верификация
• Публикация в семантическом формате справочных данных ISO
15926-8
Извлечение онтологической информации
"Эта система состоит из двух объемов: сухой бокс и
мокрый бокс"
(ABBYY Compreno).
20.09.13 10
Формирование справочных данных
на основе онтологического разбора (.15926 Editor)
20.09.13 11
Извлечение онтологической информации
"Внутренние поверхности должны быть гладкими для
уменьшения отложения продуктов коррозии и упрощения
дезактивации" (ABBYY Compreno).
20.09.13 12
Формирование справочных данных
на основе онтологического разбора (.15926 Editor)
20.09.13 13
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
Создание системы накопления
справочных данных
Начальное наполнение на базе отраслевых глоссариев, тезаурусов,
материалов отдельных исследований по стандартизации – обработка
словарных определений.
Открытое предоставление специалистам отрасли и широкой публике
(проектные, исследовательские, эксплуатационные, надзорные
организации, органы стандартизации и т.д.) онтологической
информации (интернет-портал).
Публичное обсуждение терминов и коллаборативное пополнение
библиотеки заинтересованными лицами через wiki - инструменты.
Расширение библиотеки справочных данных путём обработки корпуса
инженерных текстов на естественных языках специализированными
инструментами извлечения и преобразования онтологий.
Использование словарей и тезаурусов для автоматизации переводов на
иностранные языки, каталогизации (рубрикации, индексирования) в
отраслевых и корпоративных электронных библиотеках и иных
форматах электронного сбора и хранения знаний.
Использование библиотеки справочных данных для стандартизации
терминологии проектной информации в системах CAD/PLM и каталогах
и для автоматизированного обмена такой информацией в обменных
форматах стандарта ISO 15926.
Sep 20, 2013 22
TechInvestLab.ru
Левенчук Анатолий Игоревич
Блог: http://ailev.ru
Почта: ailev@asmp.msk.su
Агроскин Виктор Владимирович
Почта: vic5784@gmail.com

More Related Content

Viewers also liked (20)

Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
Сергей Пономарев
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Alexander Shamanin
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Alexander Shamanin
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао
67921340AB
MT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in RussianMT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in Russian
oleg_vigodsky
Cредства автоматизированного перевода
Cредства автоматизированного переводаCредства автоматизированного перевода
Cредства автоматизированного перевода
Tetyana Struk TrainStation
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
Сергей Балан
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision
словари
словарисловари
словари
guestb6ebd36
презентация система электронного перевода Soylem 3.
презентация система электронного перевода Soylem 3.презентация система электронного перевода Soylem 3.
презентация система электронного перевода Soylem 3.
Berik Badayev
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
ABBYY Language Serivces
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
AINL Conferences
интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальности
KristinaIIE105
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
fiadotau
М.Акоев -- системная динамика и мышление
М.Акоев -- системная динамика и мышлениеМ.Акоев -- системная динамика и мышление
М.Акоев -- системная динамика и мышление
Anatoly Levenchuk
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
Сергей Пономарев
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Tim Weilkiens - Systems engineering: consulting services, masters curriculum ...
Alexander Shamanin
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Вячеслав Мизгулин - Результаты работы на INCOSE WS 2017
Alexander Shamanin
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао
67921340AB
MT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in RussianMT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in Russian
oleg_vigodsky
Cредства автоматизированного перевода
Cредства автоматизированного переводаCредства автоматизированного перевода
Cредства автоматизированного перевода
Tetyana Struk TrainStation
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
Сергей Балан
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision
презентация система электронного перевода Soylem 3.
презентация система электронного перевода Soylem 3.презентация система электронного перевода Soylem 3.
презентация система электронного перевода Soylem 3.
Berik Badayev
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
ABBYY Language Serivces
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
AINL Conferences
интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальности
KristinaIIE105
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
fiadotau
М.Акоев -- системная динамика и мышление
М.Акоев -- системная динамика и мышлениеМ.Акоев -- системная динамика и мышление
М.Акоев -- системная динамика и мышление
Anatoly Levenchuk

Similar to Извлечение справочных данных из технических текстов на естественных языках (20)

Семантические информационные модели и ISO 15926
Семантические информационные модели и ISO 15926Семантические информационные модели и ISO 15926
Семантические информационные модели и ISO 15926
Anatoly Levenchuk
ISO 15926 -- Стандарт датацентрического информационного моделирования и интег...
ISO 15926-- Стандарт датацентрического информационного моделирования и интег...ISO 15926-- Стандарт датацентрического информационного моделирования и интег...
ISO 15926 -- Стандарт датацентрического информационного моделирования и интег...
Anatoly Levenchuk
2012 andieva e_ju_innovative_management_of_complex_software_projects
2012 andieva e_ju_innovative_management_of_complex_software_projects2012 andieva e_ju_innovative_management_of_complex_software_projects
2012 andieva e_ju_innovative_management_of_complex_software_projects
dataomsk
Современна Программная инженерия. Системная инженерия
Современна Программная инженерия. Системная инженерияСовременна Программная инженерия. Системная инженерия
Современна Программная инженерия. Системная инженерия
Marcus Akoev
Построение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кодаПостроение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кода
Tatyanazaxarova
Отчет по проектах ЦПИКС
Отчет по проектах ЦПИКСОтчет по проектах ЦПИКС
Отчет по проектах ЦПИКС
ARCCN
презентация нпп V1.3
презентация нпп V1.3презентация нпп V1.3
презентация нпп V1.3
PingWin Software
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Cisco Russia
Машинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандартыМашинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандарты
Anatoly Levenchuk
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектирования
Anton Tyukov
А.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом активаА.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом актива
Anatoly Levenchuk
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
mikhaelsmirnov
Conception
ConceptionConception
Conception
biv63
О.Савин -- Modelica в архитектурном моделировании
О.Савин -- Modelica в архитектурном моделированииО.Савин -- Modelica в архитектурном моделировании
О.Савин -- Modelica в архитектурном моделировании
Anatoly Levenchuk
Разработка автоматизированной системы компоновки проектной документации и обу...
Разработка автоматизированной системы компоновки проектной документации и обу...Разработка автоматизированной системы компоновки проектной документации и обу...
Разработка автоматизированной системы компоновки проектной документации и обу...
Andrew Chuprina
TMPA-2013 Tools & Methods of Program
TMPA-2013 Tools & Methods of ProgramTMPA-2013 Tools & Methods of Program
TMPA-2013 Tools & Methods of Program
Iosif Itkin
Как сделать правильную МЭК 61131-3 систему программирования?
Как сделать правильную МЭК 61131-3 систему программирования?Как сделать правильную МЭК 61131-3 систему программирования?
Как сделать правильную МЭК 61131-3 систему программирования?
Andrey Shaverin
Проджект Менеджмент Профи, ООО
Проджект Менеджмент Профи, ОООПроджект Менеджмент Профи, ООО
Проджект Менеджмент Профи, ООО
PMF
Российская Программная Платформа: возможные пути формирования экосистемы
Российская Программная Платформа: возможные пути формирования экосистемыРоссийская Программная Платформа: возможные пути формирования экосистемы
Российская Программная Платформа: возможные пути формирования экосистемы
Dmitry Komissarov
Семантические информационные модели и ISO 15926
Семантические информационные модели и ISO 15926Семантические информационные модели и ISO 15926
Семантические информационные модели и ISO 15926
Anatoly Levenchuk
ISO 15926 -- Стандарт датацентрического информационного моделирования и интег...
ISO 15926-- Стандарт датацентрического информационного моделирования и интег...ISO 15926-- Стандарт датацентрического информационного моделирования и интег...
ISO 15926 -- Стандарт датацентрического информационного моделирования и интег...
Anatoly Levenchuk
2012 andieva e_ju_innovative_management_of_complex_software_projects
2012 andieva e_ju_innovative_management_of_complex_software_projects2012 andieva e_ju_innovative_management_of_complex_software_projects
2012 andieva e_ju_innovative_management_of_complex_software_projects
dataomsk
Современна Программная инженерия. Системная инженерия
Современна Программная инженерия. Системная инженерияСовременна Программная инженерия. Системная инженерия
Современна Программная инженерия. Системная инженерия
Marcus Akoev
Построение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кодаПостроение систем автоматического протоколирования Си/Си++ кода
Построение систем автоматического протоколирования Си/Си++ кода
Tatyanazaxarova
Отчет по проектах ЦПИКС
Отчет по проектах ЦПИКСОтчет по проектах ЦПИКС
Отчет по проектах ЦПИКС
ARCCN
презентация нпп V1.3
презентация нпп V1.3презентация нпп V1.3
презентация нпп V1.3
PingWin Software
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Решение для создания расширенных веб- отчетов Splunk Advanced Web Reporting д...
Cisco Russia
Машинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандартыМашинообрабатываемые инженерные данные и международные стандарты
Машинообрабатываемые инженерные данные и международные стандарты
Anatoly Levenchuk
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектирования
Anton Tyukov
А.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом активаА.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом актива
Anatoly Levenchuk
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
mikhaelsmirnov
Conception
ConceptionConception
Conception
biv63
О.Савин -- Modelica в архитектурном моделировании
О.Савин -- Modelica в архитектурном моделированииО.Савин -- Modelica в архитектурном моделировании
О.Савин -- Modelica в архитектурном моделировании
Anatoly Levenchuk
Разработка автоматизированной системы компоновки проектной документации и обу...
Разработка автоматизированной системы компоновки проектной документации и обу...Разработка автоматизированной системы компоновки проектной документации и обу...
Разработка автоматизированной системы компоновки проектной документации и обу...
Andrew Chuprina
TMPA-2013 Tools & Methods of Program
TMPA-2013 Tools & Methods of ProgramTMPA-2013 Tools & Methods of Program
TMPA-2013 Tools & Methods of Program
Iosif Itkin
Как сделать правильную МЭК 61131-3 систему программирования?
Как сделать правильную МЭК 61131-3 систему программирования?Как сделать правильную МЭК 61131-3 систему программирования?
Как сделать правильную МЭК 61131-3 систему программирования?
Andrey Shaverin
Проджект Менеджмент Профи, ООО
Проджект Менеджмент Профи, ОООПроджект Менеджмент Профи, ООО
Проджект Менеджмент Профи, ООО
PMF
Российская Программная Платформа: возможные пути формирования экосистемы
Российская Программная Платформа: возможные пути формирования экосистемыРоссийская Программная Платформа: возможные пути формирования экосистемы
Российская Программная Платформа: возможные пути формирования экосистемы
Dmitry Komissarov

More from Victor Agroskin (8)

Модульный подход к инвестиционному анализу крипто-протоколов
Модульный подход к инвестиционному анализу крипто-протоколовМодульный подход к инвестиционному анализу крипто-протоколов
Модульный подход к инвестиционному анализу крипто-протоколов
Victor Agroskin
Личность в цифровом мире
Личность в цифровом миреЛичность в цифровом мире
Личность в цифровом мире
Victor Agroskin
Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных.
Victor Agroskin
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИСИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
Victor Agroskin
dot15926 Software Presentation
dot15926 Software Presentationdot15926 Software Presentation
dot15926 Software Presentation
Victor Agroskin
Интеграция технико-экономических моделей
Интеграция технико-экономических моделейИнтеграция технико-экономических моделей
Интеграция технико-экономических моделей
Victor Agroskin
Model Integration for Systems Engineering
Model Integration for Systems EngineeringModel Integration for Systems Engineering
Model Integration for Systems Engineering
Victor Agroskin
Regulation System Choice - Risk Management Approach
Regulation System Choice - Risk Management ApproachRegulation System Choice - Risk Management Approach
Regulation System Choice - Risk Management Approach
Victor Agroskin
Модульный подход к инвестиционному анализу крипто-протоколов
Модульный подход к инвестиционному анализу крипто-протоколовМодульный подход к инвестиционному анализу крипто-протоколов
Модульный подход к инвестиционному анализу крипто-протоколов
Victor Agroskin
Личность в цифровом мире
Личность в цифровом миреЛичность в цифровом мире
Личность в цифровом мире
Victor Agroskin
Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных.
Victor Agroskin
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИСИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
СИСТЕМНЫЙ АНАЛИЗ ВОЗМОЖНОГО РАЗВИТИЯ КОНЦЕПЦИИ ЛИЧНОСТИ
Victor Agroskin
dot15926 Software Presentation
dot15926 Software Presentationdot15926 Software Presentation
dot15926 Software Presentation
Victor Agroskin
Интеграция технико-экономических моделей
Интеграция технико-экономических моделейИнтеграция технико-экономических моделей
Интеграция технико-экономических моделей
Victor Agroskin
Model Integration for Systems Engineering
Model Integration for Systems EngineeringModel Integration for Systems Engineering
Model Integration for Systems Engineering
Victor Agroskin
Regulation System Choice - Risk Management Approach
Regulation System Choice - Risk Management ApproachRegulation System Choice - Risk Management Approach
Regulation System Choice - Risk Management Approach
Victor Agroskin

Извлечение справочных данных из технических текстов на естественных языках

  • 2. 2 Первые попытки: Моделирование требований Проект ОАО Росэнергоатом, июль 2011 – Методология ручной обработки технических заданий – Специальный софт для преобразования в модель данных ISO 15926 – Обработка типового ТЗ на АЭС: • Размер выборки: 12 абзацев текста • Идентификация содержания: 16 требований, 3 классификатора • Модель: 96 объектов, 35 отношений
  • 3. 3 Семантическое моделирование технических документов Методология TabLan, март 2012 – Методология ручной обработки технической документации (English) – Используя подмножество языка Gellish http://sourceforge.net/apps/trac/gellish/ – Отображение на расширенный набор шаблонов ISO 15926-7 – Использует открытое расширение.15926 Editor для трансформации в модель данных ISO 15926 Можно скачать с http://techinvestlab.ru/TabLan/
  • 4. 4 Уроки моделирования документов • Перспективы: – Верификация требований – Автоматизированная настройка IT систем (классификаторы и справочники для CAD/CAM/PLM/ERP/и т.п.) – Поддержка интеграции данных (генерация библиотек справочных данных) – Трассировка требований к проектным решениям – Верификация проектных решений • Проблемы: – Затраты ручного труда на моделирование – Большой объём «тупой» подготовительной работы – Необходимость участия специалистов инженерных областях в работе на новом формальном языке – Фрагментированная IT архитектура в проектных организациях – препятствие для повторного использования моделей
  • 5. 5 Необходимые условия для автоматизации моделирования технических документов • Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика) • Использование самых современных достижений онтологического моделирования естественного языка • Обучение на образцах из специального корпуса естественного языка • Контролируемый инженерный язык (по образцу Gellish) как промежуточная модель • Формальное преобразование моделей в модели ISO 15926 и их верификация
  • 6. Эксперименты с ABBYY Compreno Technology That Translates from Human into Computer Language http://www.abbyy.ru/science/techno logies/business/compreno
  • 7. Compreno AABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне. JОбласть применения ●- Интеллектуальный корпоративный поиск ●- Автоматическое реферировании документов ●- Извлечение фактов из больших объемов информации ●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений ●- Другие приложения, включающие анализ текстов
  • 8. .15926 Editor: инструментарий ISO 15926 8 Система онтологического программирования: - просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926; - поддержка множественности неймспейсов, работа с серверами SPARQL; - консоль онтологического программирования на языке Python; - распознавание онтологических паттернов; Работа будет продолжаться в направлениях: - разработка адапторов для различных инженерных (и не только инженерных) применений; - интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.). Скачать с http://techinvestlab.ru/dot15926Editor/ 20.09.13
  • 9. 9 Пилотный проект • ABBYY Compreno • Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика) • Использование самых современных достижений онтологического моделирования естественного языка • Обучение парсера ABBYY Compreno на корпусе инженерных текстов • Образцы текстов профессионального подмножества естественного языка • Моделирование отдельных инженерных текстов • Извлечение инженерной онтологии объектов и отношений • .15926 Editor • Отображение инженерной онтологии объектов и отношений на онтологию ISO 15926-2 • Формальное преобразование моделей в модели ISO 15926 и их верификация • Публикация в семантическом формате справочных данных ISO 15926-8
  • 10. Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и мокрый бокс" (ABBYY Compreno). 20.09.13 10
  • 11. Формирование справочных данных на основе онтологического разбора (.15926 Editor) 20.09.13 11
  • 12. Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno). 20.09.13 12
  • 13. Формирование справочных данных на основе онтологического разбора (.15926 Editor) 20.09.13 13
  • 21. Создание системы накопления справочных данных Начальное наполнение на базе отраслевых глоссариев, тезаурусов, материалов отдельных исследований по стандартизации – обработка словарных определений. Открытое предоставление специалистам отрасли и широкой публике (проектные, исследовательские, эксплуатационные, надзорные организации, органы стандартизации и т.д.) онтологической информации (интернет-портал). Публичное обсуждение терминов и коллаборативное пополнение библиотеки заинтересованными лицами через wiki - инструменты. Расширение библиотеки справочных данных путём обработки корпуса инженерных текстов на естественных языках специализированными инструментами извлечения и преобразования онтологий. Использование словарей и тезаурусов для автоматизации переводов на иностранные языки, каталогизации (рубрикации, индексирования) в отраслевых и корпоративных электронных библиотеках и иных форматах электронного сбора и хранения знаний. Использование библиотеки справочных данных для стандартизации терминологии проектной информации в системах CAD/PLM и каталогах и для автоматизированного обмена такой информацией в обменных форматах стандарта ISO 15926.
  • 22. Sep 20, 2013 22 TechInvestLab.ru Левенчук Анатолий Игоревич Блог: http://ailev.ru Почта: ailev@asmp.msk.su Агроскин Виктор Владимирович Почта: vic5784@gmail.com