4. Нецелевые обращения | Плохая обработка
Самое время использовать речевые технологии!
4
5. Кейс Repka.UA
Голосовой интерфейс приобретения товаров в интернет магазине.
VoiceKey.PLATFORM
Платформа мультимодальной биометрической аутентификации
пользователей в каналах дистанционного обслуживания.
Callscoring.ru
Независимый аудитор эффективности работы рекламных агентств.
Интересное применение в мире речевых технологий
5
6. • RWTH ASR - Aachen University Speech Recognition System
• Julius - open source Large Vocabulary CSR Engine
• iATROS - Pattern Recognition and Human Language Technology
• Simon - open source speech recognition program
• SHoUt - large vocabulary continuous speech recognition
• HTK - the Hidden Markov Model Toolkit
Хотите попробовать написать свою? ☺
6
14. • На идеальной фонограмме – действительно отличные результаты
• Распознавание “real time”
• Хорошая работа даже с сложным словарём слов (редких слов)
• Простота работы API
• Стоимость (совсем недорого!)
Сначала результаты поражают!
16. • Проблемы распознавания при диалоге 2-х человек (мешают говорить
друг другу)
• Система сходит с ума теряясь в интонациях
• Шум и помехи!
Существует много подводных камней
18. 18
Шёл бы ты лучше делом
заниматься!
Вероятность корректного распознавания для
фонограммы “tolstoi_1908.mp3”: 23%
_
20. Итоги экспериментов:
• ДА! Цифры 84-94% могут быть правдой при
определенных умелом (хитром) управлении
• ДА! Мы взяли эти технологии на
вооружение!
• ДА! Мы хотим продолжить эти
эксперименты вместе с вами!
21. ЗВОНКИ ЧАЩЕ СТАНОВЯТСЯ ПРОДАЖАМИ, ЕСЛИ ИХ
КОНТРОЛИРОВАТЬ.
Кирилл Писцов,
Исполнительный директор
+7 (495) 981-96-00 #140
kirill.pistsov@calltracking.ru
facebook.com/calltracking.ru
Editor's Notes
#2: Вступление (1, 0:30)
В этом докладе мы расскажем, какие интересные продукты работают на базе речевых технологий. Как даже небольшие команды могут создавать очень интересные продукты, которые внедряются и масштабируется для смежных проектов (несколько кейсов).
Как даже маленький проект может улучшить результаты анализа речи, стоя на плечах гигантов речевых технологий.
На примере фонограмм покажем, как мы экспериментировали с разнообразными системами распознавания речи.
#3: Как мы начали заниматься речевыми технологиями (1-2, 1:00)
Наше увлечение речевыми технологиями совпало с прорывными достижениями в этих технологиях. Сначала для коллтрекинга CallTracking.ru, где мы только начинали экспериментировать. Пользовались речевыми технологиями для определения целевых/нецелевых звонков, вылавливая релевантные слова.
#6: А что есть сейчас интересного в мире речевых технологий? (1-2, 1:00)
Краткий обзор интересных продуктов появившихся на базе речевых технологий с момента появления речевых API. Продукты от небольших команд, использовавших открытые API распознавания речи.
Кейс Repka.UA. Голосовой интерфейс приобретения товаров в интернет магазине.
VoiceKey.PLATFORM. Платформа мультимодальной биометрической аутентификации пользователей в каналах дистанционного обслуживания.
Вывод: строить продукты на базе речевых технологий уже могут даже небольшие смелые команды.
#7: Краткое упоминание независимых open source решений для речевого распознавание. RWTH ASR, Julius, iATROS, Simon, SHoUt, HTK.
#8: Краткое упоминание независимых open source решений для речевого распознавание. RWTH ASR, Julius, iATROS, Simon, SHoUt, HTK.
#9: Как эти небольшие компании достигли таких крутых результатов со столь сложной технологией? (4-5, 2:00)
Открытые API для работы с распознаванием речи: кратко об особенностях и отличиях API речевых технологий Яндекса, Google, Microsoft, Amazon, Nuance, ЦРТ.
Краткое упоминание независимых open source решений для речевого распознавание. RWTH ASR, Julius, iATROS, Simon, SHoUt, HTK.
#10: Насколько эти технологии хороши? Можем ли мы на них положиться? (2-3, 1:30)
Разбор, какие цифры по качеству распознавания заявляют сервисы Яндекс, Google, Microsoft, Amazon.
Демонстрация примеров, какие результаты по качеству распознавания показали системы с нашей выборкой фонограмм. Примеры распознавания на базе 50 тыс. отслушанных коммерческих звонков. С какими типами фонограмм, в каких отраслях и в какой тематике лучше работает та или иная система. На чем они спотыкаются.
Итоги нашего исследования по качеству распознавания речи.
#11: Есть ли «достаточный уровень» качества распознавания? Действительно ли важно распознавать все, если даже человеческое ухо распознает в среднем 96% речи?(2, 2:00)
Примеры метрик качества распознавания. Примеры специфичных метрик по отраслям. Методы: как создать метрику для конкретной отрасли и задачи.
Речевые технологии отлично применимы для простых сервисных операций, но пока что сложно применимы для консультативных сценариев взаимодействия с пользователем.
#14: По началу всё кажется идеально… Распознавание зашкаливает за 96%