ݺߣ

ݺߣShare a Scribd company logo
Технологии
Semantic Web
Алик Кириллович
Казанский Федеральный Университет
http://www.alik.su
OWL SPARQLRDF
Ver. 2.0
Содержание курса
I. Введение в семантику и Semantic Web
II. Формат представления данных RDF
III. Формальные онтологии
IV. Язык описания онтологий OWL
V. Язык запросов SPARQL
VI. Semantic Web в дикой природе:
популярные ресурсы, онтологии и сервисы
World Wide Web
• Крупнейшее в мире хранилище информации
• Мгновенный доступ, мощный поиск по ключевым словам
IDC, 2008:
Объем информации в интернете составляет 5444 петабайт.
Для сравнения: объем информации во всех книгах, изданных в истории
человечества, составляет только 200 петабайт, т.е. почти в 30 раз меньше.
Яндекс, «Контент Рунета», 2009:
Объем Рунета (6% мировой паутины) соответствует 35 миллионам книг.
Решение: Semantic Web
Но:
• Информация понятна людям, но непонятна машинам
• Компьютеры обрабатывают документы как набор символов,
но не понимают их смысл
Semantic Web
• Семантический поиск
• Объединение данных
• Логический вывод
• Агенты
Semantic Web (≈ Linked Data, Linking Open Data, Web of Data) —
надстройка над WWW, позволяющая сделать информацию в
Web понятной не только людям, но и машинам
Возможности:
Семантический поиск
Семантический поиск — поиск не по ключевым словам,
а по смыслу
Ноутбуки с объемом памяти > 8GB по цене до $1000
10 самых длинных рек России
Какие американские президенты родились в Техасе?
Насколько подорожала стоимость тарифа электроэнергии за 2014 год?
Сколько мужей было у Аллы Пугачевой?
Объединение данных
Объединение данных помогает находить ответы на вопросы,
которых нет ни в одном источнике по отдельности, но есть в
их совокупности
Какие побочные эффекты у лекарства от туберкулёза?
Источники: , Diseasome, Sider
Какие конгрессмены голосовали против закона о защите окружающей среды, и,
при этом, представляют округа с самым высоким уровнем вредных выбросов?
Источники: , GeoNames, US Census
Логический вывод
Логический вывод — вычисление новых знаний из
уже имеющихся
Найти российские университеты:
КФУ находится в Казани, Казань находится в России → КФУ — российский универ
Найти праправнуков королевы Виктории:
Виктория — мать Эдуарда VII, Эдуард VII — отец Георга V, Георг V — отец Георга VI,
Георг VI — отец Елизаветы II → Елизавета II — праправнучка Виктории
Агенты
Интеллектуальный агент — программа, способная
автономно выполнять указанное человеком задание по
поиску и обработке информации
Пример задания:
Siri, закажи мне столик в лучшем итальянском ресторане в Пало-Альто.
См.: Adam Cheyer, Tom Gruber. Siri: A virtual personal assistant for iphone, an ontology-driven application for the masses // Open, International, Virtual
Community of Practice on Ontology, Ontological Engineering and Semantic Technology, 2010
В настоящее время широкое распространение агентов — только мечты.
Пока основное предназначение Semantic Web — поиск и интеграция данных.
Что же такое семантика?
Семантика
• Цель коммуникации — передать от отправителя получателю информацию
об объекте реального мира или ситуации
• Однако передать информацию напрямую («прямо в мозг») невозможно
• Поэтому, информация записывается на некотором языке с определенным
синтаксисом в виде последовательности знаков (напр., знаков или букв)
• Последовательность символов можно легко передать (в виде речи, письма)
• Получатель восстанавливает исходную информацию с помощью семантики
«Земля вращается вокруг Солнца» «Земля вращается вокруг Солнца»
Семантика
Денотат
• Семантика языка — это способ соотнесения знака с объектом реального
мира или ситуацией из некоторой предметной области (домена)
• Денотат — объект или ситуация, которые соотносятся со знаком
«Белый кролик»
Знак
Семантика
Денотат
Домен
(предметная область)
Концепт
• Знак соотносится с объектом благодаря наличию у знака концепта
• Концепт (≈ понятие, десигнат, интенсионал, смысл) — это некоторый набор
условий, которые должен удовлетворять объект или ситуация, чтобы
соотноситься со знаком
• Т.о. если объект если ситуация удовлетворяют условиям концепта, то они
соотносятся с его знаком, т.е. становятся денотатом
«Белый кролик»
Знак ДенотатКонцепт
Цвет: белый,
Вид: кролик…
Не во всех языках концепты явно и формально определены
Неявная семантика
Языки с неявной семантикой — концепты знаков
не определены
Естественный язык
Язык танца:
Знак: движения Концепт Денотат: эмоция
?
Люди понимают эти языки благодаря тому, что интуитивно «чувствуют» их концепты
(но не всегда могут объяснить их машинам).
Явная неформальная семантика
Языки с явной семантикой — концепты знаков явно
определены
Язык дорожных знаков
Языки программирования и разметки
«for(i=0;i<10;i++)»
Спецификация
ЯП
Машины могут понимать эти языки.
Но понимание каждого концепта надо программировать вручную.
Браузер понимает HTML.
Но: если появится новый тег в HTML → браузер надо перепрограммировать.
Беспилотные автомобили Google понимают язык дорожных знаков.
Но: появится новый знак в ПДД → беспилотники надо перепрограммировать.
Формальная семантика
Языки с формальной семантикой — концепты знаков явно
определены на метаязыке с явной семантикой
Язык логики и математики
«A = B∩C»
Язык логики и математики
«y = x2+b»
Машины могут самостоятельно прочитать и понять определение концептов.
Что же происходит с семантикой в World Wide Web?
Семантика в WWW
Люди интуитивно
чувствуют концепты
Человек Человек
Семантика в WWW
Человек Комп
?Машины не знают
концепты естественного языка
?
Что делать?
• Подход NLP — научить машину понимать синтаксис и
семантику естественного языка
Решение задачи в общем виде сопоставимо по сложности с созданием
искусственного интеллекта
• Подход Semantic Web — описать информацию на языке
понятному машине
Два подхода:
Семантика в Semantic Web
Человек Комп
OWL-онтология
определяет концепты
Архитектура Semantic Web
• RDF — язык, позволяющий записать утверждения
• RDFs и OWL — языки описания онтологий
Онтология определяют концепты из некоторой предметной области, с
помощью чего машина и понимает семантику
• SPARQL — язык запросов
Технологии:
Онтология
• Базовые понятия
• Сложные понятия на основе простых
• Аксиомы
Онтология описывает понятия предметной области и связи
между ними
Человек, Мужчина, Женщина, супруг, ребенок
Мать одиночка = женщина ∩ не имеет супруга ∩ имеет > 3 детей
Мужчина и Женщина не пересекаются
Аксиомы позволяют проводить логический вывод
племянник = брат ○ ребенок
потомок — транзитивное свойство

More Related Content

Технологии Semantic Web. Часть I. Введение

  • 1. Технологии Semantic Web Алик Кириллович Казанский Федеральный Университет http://www.alik.su OWL SPARQLRDF Ver. 2.0
  • 2. Содержание курса I. Введение в семантику и Semantic Web II. Формат представления данных RDF III. Формальные онтологии IV. Язык описания онтологий OWL V. Язык запросов SPARQL VI. Semantic Web в дикой природе: популярные ресурсы, онтологии и сервисы
  • 3. World Wide Web • Крупнейшее в мире хранилище информации • Мгновенный доступ, мощный поиск по ключевым словам IDC, 2008: Объем информации в интернете составляет 5444 петабайт. Для сравнения: объем информации во всех книгах, изданных в истории человечества, составляет только 200 петабайт, т.е. почти в 30 раз меньше. Яндекс, «Контент Рунета», 2009: Объем Рунета (6% мировой паутины) соответствует 35 миллионам книг. Решение: Semantic Web Но: • Информация понятна людям, но непонятна машинам • Компьютеры обрабатывают документы как набор символов, но не понимают их смысл
  • 4. Semantic Web • Семантический поиск • Объединение данных • Логический вывод • Агенты Semantic Web (≈ Linked Data, Linking Open Data, Web of Data) — надстройка над WWW, позволяющая сделать информацию в Web понятной не только людям, но и машинам Возможности:
  • 5. Семантический поиск Семантический поиск — поиск не по ключевым словам, а по смыслу Ноутбуки с объемом памяти > 8GB по цене до $1000 10 самых длинных рек России Какие американские президенты родились в Техасе? Насколько подорожала стоимость тарифа электроэнергии за 2014 год? Сколько мужей было у Аллы Пугачевой?
  • 6. Объединение данных Объединение данных помогает находить ответы на вопросы, которых нет ни в одном источнике по отдельности, но есть в их совокупности Какие побочные эффекты у лекарства от туберкулёза? Источники: , Diseasome, Sider Какие конгрессмены голосовали против закона о защите окружающей среды, и, при этом, представляют округа с самым высоким уровнем вредных выбросов? Источники: , GeoNames, US Census
  • 7. Логический вывод Логический вывод — вычисление новых знаний из уже имеющихся Найти российские университеты: КФУ находится в Казани, Казань находится в России → КФУ — российский универ Найти праправнуков королевы Виктории: Виктория — мать Эдуарда VII, Эдуард VII — отец Георга V, Георг V — отец Георга VI, Георг VI — отец Елизаветы II → Елизавета II — праправнучка Виктории
  • 8. Агенты Интеллектуальный агент — программа, способная автономно выполнять указанное человеком задание по поиску и обработке информации Пример задания: Siri, закажи мне столик в лучшем итальянском ресторане в Пало-Альто. См.: Adam Cheyer, Tom Gruber. Siri: A virtual personal assistant for iphone, an ontology-driven application for the masses // Open, International, Virtual Community of Practice on Ontology, Ontological Engineering and Semantic Technology, 2010 В настоящее время широкое распространение агентов — только мечты. Пока основное предназначение Semantic Web — поиск и интеграция данных. Что же такое семантика?
  • 9. Семантика • Цель коммуникации — передать от отправителя получателю информацию об объекте реального мира или ситуации • Однако передать информацию напрямую («прямо в мозг») невозможно • Поэтому, информация записывается на некотором языке с определенным синтаксисом в виде последовательности знаков (напр., знаков или букв) • Последовательность символов можно легко передать (в виде речи, письма) • Получатель восстанавливает исходную информацию с помощью семантики «Земля вращается вокруг Солнца» «Земля вращается вокруг Солнца» Семантика
  • 10. Денотат • Семантика языка — это способ соотнесения знака с объектом реального мира или ситуацией из некоторой предметной области (домена) • Денотат — объект или ситуация, которые соотносятся со знаком «Белый кролик» Знак Семантика Денотат Домен (предметная область)
  • 11. Концепт • Знак соотносится с объектом благодаря наличию у знака концепта • Концепт (≈ понятие, десигнат, интенсионал, смысл) — это некоторый набор условий, которые должен удовлетворять объект или ситуация, чтобы соотноситься со знаком • Т.о. если объект если ситуация удовлетворяют условиям концепта, то они соотносятся с его знаком, т.е. становятся денотатом «Белый кролик» Знак ДенотатКонцепт Цвет: белый, Вид: кролик… Не во всех языках концепты явно и формально определены
  • 12. Неявная семантика Языки с неявной семантикой — концепты знаков не определены Естественный язык Язык танца: Знак: движения Концепт Денотат: эмоция ? Люди понимают эти языки благодаря тому, что интуитивно «чувствуют» их концепты (но не всегда могут объяснить их машинам).
  • 13. Явная неформальная семантика Языки с явной семантикой — концепты знаков явно определены Язык дорожных знаков Языки программирования и разметки «for(i=0;i<10;i++)» Спецификация ЯП Машины могут понимать эти языки. Но понимание каждого концепта надо программировать вручную. Браузер понимает HTML. Но: если появится новый тег в HTML → браузер надо перепрограммировать. Беспилотные автомобили Google понимают язык дорожных знаков. Но: появится новый знак в ПДД → беспилотники надо перепрограммировать.
  • 14. Формальная семантика Языки с формальной семантикой — концепты знаков явно определены на метаязыке с явной семантикой Язык логики и математики «A = B∩C» Язык логики и математики «y = x2+b» Машины могут самостоятельно прочитать и понять определение концептов. Что же происходит с семантикой в World Wide Web?
  • 15. Семантика в WWW Люди интуитивно чувствуют концепты Человек Человек
  • 16. Семантика в WWW Человек Комп ?Машины не знают концепты естественного языка ?
  • 17. Что делать? • Подход NLP — научить машину понимать синтаксис и семантику естественного языка Решение задачи в общем виде сопоставимо по сложности с созданием искусственного интеллекта • Подход Semantic Web — описать информацию на языке понятному машине Два подхода:
  • 18. Семантика в Semantic Web Человек Комп OWL-онтология определяет концепты
  • 19. Архитектура Semantic Web • RDF — язык, позволяющий записать утверждения • RDFs и OWL — языки описания онтологий Онтология определяют концепты из некоторой предметной области, с помощью чего машина и понимает семантику • SPARQL — язык запросов Технологии:
  • 20. Онтология • Базовые понятия • Сложные понятия на основе простых • Аксиомы Онтология описывает понятия предметной области и связи между ними Человек, Мужчина, Женщина, супруг, ребенок Мать одиночка = женщина ∩ не имеет супруга ∩ имеет > 3 детей Мужчина и Женщина не пересекаются Аксиомы позволяют проводить логический вывод племянник = брат ○ ребенок потомок — транзитивное свойство