ݺߣ

ݺߣShare a Scribd company logo
Дипломная работа на тему:
«Система автоматизированного
извлечения контактной информации об
организации из неструктурированных
данных о филиалах»
Руководитель: Горский К.П.
Дипломник группы 08-606: Карпова В.А.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ
БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ
АВИАЦИОННЫЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)» (МАИ)
Москва, 2015 г.
1
Актуальность системы
• Организации нужны всё время
2
Поиск контактной информации о банках в течение недели
Основная цель
• Показывать актуальную контактную информацию
об организации в заголовке письма
3
По какому адресу банка поменять старую карту на новую?
Основная цель
• Показывать актуальную контактную информацию
об организации во входящем письме
4
Из Справочника Организаций Из Поиска
5
Входные данные
6
Входные данные
Ограничения сервисов
• Справочник: Нельзя изменять информацию об
организациях
• Почта: Отображать одну строку между
заголовком и телом письма
7
Корректность данных
• «Простейший»
алгоритм выбора
56 %
44 %
Всего доменов с одной и более проблемами
Доменов без проблем
8
Анализ классификационных
признаков
9
Результаты анализа
признаков
10
MaxEnt-классификатор
• Классификация по формуле:
• Максимизация функции правдоподобия:
11
Оценка качества
классификатора
• Точность:
• Полнота:
• F-мера
12
Применение
классификатора при выборе
контактной информации по
домену организации
13
Телефон
14
Название
15
13
Адрес
16
Сравнение абсолютных
значений параметров (до/после)
17
Адреса
Телефоны
Названия
ИТОГО
0 550000 1100000 1650000 2200000
До применения новой схемы выбора
После применения классификатора и схем выбора
Черные списки
• Не все данные из Справочника Организаций -
корректные
• Не все организации хотят, чтобы видели их
контактную информацию в почте
• Агрегаторы
• Почтовые рассылки
18
Административный
интерфейс
19
Административный
интерфейс
20
Технологии
21
Результаты
22
• API для Почтового интерфейса
• Формирование Черных Списков, импорт новых
данных и экспорт статического API происходит
без участия разработчиков и администраторов.
• Контактная информация об организациях
отображается в заголовке письма веб-
интерфейса Яндекс.Почты.
• Система внедрена в промышленную
эксплуатацию
23
API для Почтового
интерфейса
Система автоматизированного извлечения контактной информации об организации из неструктурированных данных о филиалах
Система автоматизированного извлечения контактной информации об организации из неструктурированных данных о филиалах
Система автоматизированного извлечения контактной информации об организации из неструктурированных данных о филиалах

More Related Content

Система автоматизированного извлечения контактной информации об организации из неструктурированных данных о филиалах