Обзорный доклад по вопросу декомпозиции звукового сигнала. Например каким образом можно разделить аудиозапись, где одновременно говорят два человека, на два отдельных трека по каждому из них. Или как можно удалять фоновые звуки из аудиозаписей без искажения полезного звука.
2. Обработка звука
● фильтрация шумов
● цифровая обработка
● идентификация по голосу
● поиск музыки алгоритмами Shazam и др.
● распознавание речи
● синтез речи
● ???
2
5. Что даёт решение такой проблемы?
● фильтрация шумов нового уровня
● выделение нужного сигнала из смеси, например,
речевого
● распознавание голосов в толпе
● система описывающая то, что слышит
● новые эффективные алгоритмы сжатия звука
● искусственное ухо для робота
5
7. Попытки решения
1. Очень много микрофонов и формирование лучей
направленности (Beamforming) - MIT
2. Построение физически сложного микрофона (унив.
Дюка)
3. Статистические методы анализа сигналов (ICA)
4. Глубинное обучение
5. Комбинация подходов
7
10. Попытки решения
1. Очень много микрофонов и формирование лучей
направленности (Beamforming) - MIT
2. Построение физически сложного микрофона (унив.
Дюка)
3. Статистические методы анализа сигналов (ICA)
4. Глубинное обучение
5. Комбинация подходов
10
11. Два разных подхода
● Слепое разделение сигнала, т.е. ничего не известно о
микрофонах, окружении и источниках - статистические
методы
● Использование данных о расположении микрофонов и
их конфигурации
11
12. Анализ независимых компонент (ICA)
N источников сигнала sn
(t)
M приемников сигнала xm
(t)
S = [s1
,s2
,..,sn
], X = [x1
,x2
,..,xm
]
X = A[S]+ε
U = W[X]=W[A[S]+ε] ≈ S
A*W ≈ I, где A, W - линейные операторы
12
13. Beamforming
L - расстояние м/у
микрофонами
t - задержка
с - скорость звука
λ = t * c
θ - угол направления
фронта волны
13
14. Запись с двух микрофонов
● 2 разных USB микрофона
● Программное композитное устройство
● Запись речи и чистой музыки(без слов)
Проблемы:
● аддитивный шум
● реверберация
● сигналы не независимы
● смешивание в реальном мире не линейно
14
15. Построить свой микрофон
● Много электретных микрофонов
● Кубическая структура
Проблема:
● придется делать свой АЦП
● низкое качество каждого микрофона
● низкая частота дискретизации (10кГц) и битность(10)
15
17. Массив андроид микрофонов
● Приложение для смартфона
● Устройства отправляют звук в realtime на сервер
● Сервер анализирует звуки
Пролемы
● Как синхронизировать? (нет общего тактового генератора)
● Неизвестна конфигурация системы (расстояния между
устройствами)
17
18. Подавление фоновой музыки
Дано:
● запись речи с фоновой музыкой
● музыка известна (найдена алгоритмом Shazam)
Предположение:
● фон наложен программно и линейно без шумов
Задача:
● вычесть известный фон из записи
18
19. Синхронизация двух дорожек
● Смещение отсчетов S1
(t) = S2
(t + d), где d - смещение
● Разный масштаб S1
(t) = S2
(t) * w
● Комбинация S1
(t) = S2
(t+d) * w
● Искажения сигнала - растягивание.
19
20. Оконное смещение на синтетических
данных
ICA + Коэффициент эксцесса окнами по 15 секунд
20
22. Моделирование распространения звука
● Возможность изменять свойства пространства
○ шумы
○ реверберация
○ затухание
○ форма волны
● Возможность произвольно расставлять микрофоны и источники
звука
● Визуализация распространения волны
● Интеграция алгоритма определения направления звука для
визуализации
22
23. Литература
● Nicolas Mitianoudis. Audio source separation using ICA. University of London
2004.
● Pierre Comon. Independent component analysis. A new concept? // Signal
processing. 1994. Вып. 3.
● Hyvärinen A. Oja E. Independent component analysis: algorithms and
applications. Helsinki university of technology. Neural network research
center. 2000.
23