2. Содержание курса
I. Введение в семантику и Semantic Web
II. Формат представления данных RDF
III. Формальные онтологии
IV. Язык описания онтологий OWL
V. Язык запросов SPARQL
VI. Semantic Web в дикой природе:
популярные ресурсы, онтологии и сервисы
3. World Wide Web
• Крупнейшее в мире хранилище информации
• Мгновенный доступ, мощный поиск по ключевым словам
IDC, 2008:
Объем информации в интернете составляет 5444 петабайт.
Для сравнения: объем информации во всех книгах, изданных в истории
человечества, составляет только 200 петабайт, т.е. почти в 30 раз меньше.
Яндекс, «Контент Рунета», 2009:
Объем Рунета (6% мировой паутины) соответствует 35 миллионам книг.
Решение: Semantic Web
Но:
• Информация понятна людям, но непонятна машинам
• Компьютеры обрабатывают документы как набор символов,
но не понимают их смысл
4. Semantic Web
• Семантический поиск
• Объединение данных
• Логический вывод
• Агенты
Semantic Web (≈ Linked Data, Linking Open Data, Web of Data) —
надстройка над WWW, позволяющая сделать информацию в
Web понятной не только людям, но и машинам
Возможности:
5. Семантический поиск
Семантический поиск — поиск не по ключевым словам,
а по смыслу
Ноутбуки с объемом памяти > 8GB по цене до $1000
10 самых длинных рек России
Какие американские президенты родились в Техасе?
Насколько подорожала стоимость тарифа электроэнергии за 2014 год?
Сколько мужей было у Аллы Пугачевой?
6. Объединение данных
Объединение данных помогает находить ответы на вопросы,
которых нет ни в одном источнике по отдельности, но есть в
их совокупности
Какие побочные эффекты у лекарства от туберкулёза?
Источники: , Diseasome, Sider
Какие конгрессмены голосовали против закона о защите окружающей среды, и,
при этом, представляют округа с самым высоким уровнем вредных выбросов?
Источники: , GeoNames, US Census
7. Логический вывод
Логический вывод — вычисление новых знаний из
уже имеющихся
Найти российские университеты:
КФУ находится в Казани, Казань находится в России → КФУ — российский универ
Найти праправнуков королевы Виктории:
Виктория — мать Эдуарда VII, Эдуард VII — отец Георга V, Георг V — отец Георга VI,
Георг VI — отец Елизаветы II → Елизавета II — праправнучка Виктории
8. Агенты
Интеллектуальный агент — программа, способная
автономно выполнять указанное человеком задание по
поиску и обработке информации
Пример задания:
Siri, закажи мне столик в лучшем итальянском ресторане в Пало-Альто.
См.: Adam Cheyer, Tom Gruber. Siri: A virtual personal assistant for iphone, an ontology-driven application for the masses // Open, International, Virtual
Community of Practice on Ontology, Ontological Engineering and Semantic Technology, 2010
В настоящее время широкое распространение агентов — только мечты.
Пока основное предназначение Semantic Web — поиск и интеграция данных.
Что же такое семантика?
9. Семантика
• Цель коммуникации — передать от отправителя получателю информацию
об объекте реального мира или ситуации
• Однако передать информацию напрямую («прямо в мозг») невозможно
• Поэтому, информация записывается на некотором языке с определенным
синтаксисом в виде последовательности знаков (напр., знаков или букв)
• Последовательность символов можно легко передать (в виде речи, письма)
• Получатель восстанавливает исходную информацию с помощью семантики
«Земля вращается вокруг Солнца» «Земля вращается вокруг Солнца»
Семантика
10. Денотат
• Семантика языка — это способ соотнесения знака с объектом реального
мира или ситуацией из некоторой предметной области (домена)
• Денотат — объект или ситуация, которые соотносятся со знаком
«Белый кролик»
Знак
Семантика
Денотат
Домен
(предметная область)
11. Концепт
• Знак соотносится с объектом благодаря наличию у знака концепта
• Концепт (≈ понятие, десигнат, интенсионал, смысл) — это некоторый набор
условий, которые должен удовлетворять объект или ситуация, чтобы
соотноситься со знаком
• Т.о. если объект если ситуация удовлетворяют условиям концепта, то они
соотносятся с его знаком, т.е. становятся денотатом
«Белый кролик»
Знак ДенотатКонцепт
Цвет: белый,
Вид: кролик…
Не во всех языках концепты явно и формально определены
12. Неявная семантика
Языки с неявной семантикой — концепты знаков
не определены
Естественный язык
Язык танца:
Знак: движения Концепт Денотат: эмоция
?
Люди понимают эти языки благодаря тому, что интуитивно «чувствуют» их концепты
(но не всегда могут объяснить их машинам).
13. Явная неформальная семантика
Языки с явной семантикой — концепты знаков явно
определены
Язык дорожных знаков
Языки программирования и разметки
«for(i=0;i<10;i++)»
Спецификация
ЯП
Машины могут понимать эти языки.
Но понимание каждого концепта надо программировать вручную.
Браузер понимает HTML.
Но: если появится новый тег в HTML → браузер надо перепрограммировать.
Беспилотные автомобили Google понимают язык дорожных знаков.
Но: появится новый знак в ПДД → беспилотники надо перепрограммировать.
14. Формальная семантика
Языки с формальной семантикой — концепты знаков явно
определены на метаязыке с явной семантикой
Язык логики и математики
«A = B∩C»
Язык логики и математики
«y = x2+b»
Машины могут самостоятельно прочитать и понять определение концептов.
Что же происходит с семантикой в World Wide Web?
17. Что делать?
• Подход NLP — научить машину понимать синтаксис и
семантику естественного языка
Решение задачи в общем виде сопоставимо по сложности с созданием
искусственного интеллекта
• Подход Semantic Web — описать информацию на языке
понятному машине
Два подхода:
19. Архитектура Semantic Web
• RDF — язык, позволяющий записать утверждения
• RDFs и OWL — языки описания онтологий
Онтология определяют концепты из некоторой предметной области, с
помощью чего машина и понимает семантику
• SPARQL — язык запросов
Технологии:
20. Онтология
• Базовые понятия
• Сложные понятия на основе простых
• Аксиомы
Онтология описывает понятия предметной области и связи
между ними
Человек, Мужчина, Женщина, супруг, ребенок
Мать одиночка = женщина ∩ не имеет супруга ∩ имеет > 3 детей
Мужчина и Женщина не пересекаются
Аксиомы позволяют проводить логический вывод
племянник = брат ○ ребенок
потомок — транзитивное свойство