ݺߣ

ݺߣShare a Scribd company logo
Методы декомпозиции
звукового сигнала
Сиганов Илья, ОмГУ ФКН, аспирант
руководитель: доц.,к.т.н. Лавров Д.Н.
1Омск, 24.04.2017, ОмГУ
Обработка звука
● фильтрация шумов
● цифровая обработка
● идентификация по голосу
● поиск музыки алгоритмами Shazam и др.
● распознавание речи
● синтез речи
● ???
2
Cocktail party problem
3
Разделение звука на объекты интереса
4
Что даёт решение такой проблемы?
● фильтрация шумов нового уровня
● выделение нужного сигнала из смеси, например,
речевого
● распознавание голосов в толпе
● система описывающая то, что слышит
● новые эффективные алгоритмы сжатия звука
● искусственное ухо для робота
5
Трудности?
a + b = 5
a,b - неизвестные
Чему равны a и b?
6
Попытки решения
1. Очень много микрофонов и формирование лучей
направленности (Beamforming) - MIT
2. Построение физически сложного микрофона (унив.
Дюка)
3. Статистические методы анализа сигналов (ICA)
4. Глубинное обучение
5. Комбинация подходов
7
Сложный микрофон
http://www.pnas.org/content/112/34/10595.abstract 8
1020 микрофонов
http://groups.csail.mit.edu/cag/mic-array/
9
Попытки решения
1. Очень много микрофонов и формирование лучей
направленности (Beamforming) - MIT
2. Построение физически сложного микрофона (унив.
Дюка)
3. Статистические методы анализа сигналов (ICA)
4. Глубинное обучение
5. Комбинация подходов
10
Два разных подхода
● Слепое разделение сигнала, т.е. ничего не известно о
микрофонах, окружении и источниках - статистические
методы
● Использование данных о расположении микрофонов и
их конфигурации
11
Анализ независимых компонент (ICA)
N источников сигнала sn
(t)
M приемников сигнала xm
(t)
S = [s1
,s2
,..,sn
], X = [x1
,x2
,..,xm
]
X = A[S]+ε
U = W[X]=W[A[S]+ε] ≈ S
A*W ≈ I, где A, W - линейные операторы
12
Beamforming
L - расстояние м/у
микрофонами
t - задержка
с - скорость звука
λ = t * c
θ - угол направления
фронта волны
13
Запись с двух микрофонов
● 2 разных USB микрофона
● Программное композитное устройство
● Запись речи и чистой музыки(без слов)
Проблемы:
● аддитивный шум
● реверберация
● сигналы не независимы
● смешивание в реальном мире не линейно
14
Построить свой микрофон
● Много электретных микрофонов
● Кубическая структура
Проблема:
● придется делать свой АЦП
● низкое качество каждого микрофона
● низкая частота дискретизации (10кГц) и битность(10)
15
Массив андроид микрофонов
16
Массив андроид микрофонов
● Приложение для смартфона
● Устройства отправляют звук в realtime на сервер
● Сервер анализирует звуки
Пролемы
● Как синхронизировать? (нет общего тактового генератора)
● Неизвестна конфигурация системы (расстояния между
устройствами)
17
Подавление фоновой музыки
Дано:
● запись речи с фоновой музыкой
● музыка известна (найдена алгоритмом Shazam)
Предположение:
● фон наложен программно и линейно без шумов
Задача:
● вычесть известный фон из записи
18
Синхронизация двух дорожек
● Смещение отсчетов S1
(t) = S2
(t + d), где d - смещение
● Разный масштаб S1
(t) = S2
(t) * w
● Комбинация S1
(t) = S2
(t+d) * w
● Искажения сигнала - растягивание.
19
Оконное смещение на синтетических
данных
ICA + Коэффициент эксцесса окнами по 15 секунд
20
Оконное смещение на реальных данных
21
Моделирование распространения звука
● Возможность изменять свойства пространства
○ шумы
○ реверберация
○ затухание
○ форма волны
● Возможность произвольно расставлять микрофоны и источники
звука
● Визуализация распространения волны
● Интеграция алгоритма определения направления звука для
визуализации
22
Литература
● Nicolas Mitianoudis. Audio source separation using ICA. University of London
2004.
● Pierre Comon. Independent component analysis. A new concept? // Signal
processing. 1994. Вып. 3.
● Hyvärinen A. Oja E. Independent component analysis: algorithms and
applications. Helsinki university of technology. Neural network research
center. 2000.
23

More Related Content

Методы декомпозиции звукового сигнала.

  • 1. Методы декомпозиции звукового сигнала Сиганов Илья, ОмГУ ФКН, аспирант руководитель: доц.,к.т.н. Лавров Д.Н. 1Омск, 24.04.2017, ОмГУ
  • 2. Обработка звука ● фильтрация шумов ● цифровая обработка ● идентификация по голосу ● поиск музыки алгоритмами Shazam и др. ● распознавание речи ● синтез речи ● ??? 2
  • 4. Разделение звука на объекты интереса 4
  • 5. Что даёт решение такой проблемы? ● фильтрация шумов нового уровня ● выделение нужного сигнала из смеси, например, речевого ● распознавание голосов в толпе ● система описывающая то, что слышит ● новые эффективные алгоритмы сжатия звука ● искусственное ухо для робота 5
  • 6. Трудности? a + b = 5 a,b - неизвестные Чему равны a и b? 6
  • 7. Попытки решения 1. Очень много микрофонов и формирование лучей направленности (Beamforming) - MIT 2. Построение физически сложного микрофона (унив. Дюка) 3. Статистические методы анализа сигналов (ICA) 4. Глубинное обучение 5. Комбинация подходов 7
  • 10. Попытки решения 1. Очень много микрофонов и формирование лучей направленности (Beamforming) - MIT 2. Построение физически сложного микрофона (унив. Дюка) 3. Статистические методы анализа сигналов (ICA) 4. Глубинное обучение 5. Комбинация подходов 10
  • 11. Два разных подхода ● Слепое разделение сигнала, т.е. ничего не известно о микрофонах, окружении и источниках - статистические методы ● Использование данных о расположении микрофонов и их конфигурации 11
  • 12. Анализ независимых компонент (ICA) N источников сигнала sn (t) M приемников сигнала xm (t) S = [s1 ,s2 ,..,sn ], X = [x1 ,x2 ,..,xm ] X = A[S]+ε U = W[X]=W[A[S]+ε] ≈ S A*W ≈ I, где A, W - линейные операторы 12
  • 13. Beamforming L - расстояние м/у микрофонами t - задержка с - скорость звука λ = t * c θ - угол направления фронта волны 13
  • 14. Запись с двух микрофонов ● 2 разных USB микрофона ● Программное композитное устройство ● Запись речи и чистой музыки(без слов) Проблемы: ● аддитивный шум ● реверберация ● сигналы не независимы ● смешивание в реальном мире не линейно 14
  • 15. Построить свой микрофон ● Много электретных микрофонов ● Кубическая структура Проблема: ● придется делать свой АЦП ● низкое качество каждого микрофона ● низкая частота дискретизации (10кГц) и битность(10) 15
  • 17. Массив андроид микрофонов ● Приложение для смартфона ● Устройства отправляют звук в realtime на сервер ● Сервер анализирует звуки Пролемы ● Как синхронизировать? (нет общего тактового генератора) ● Неизвестна конфигурация системы (расстояния между устройствами) 17
  • 18. Подавление фоновой музыки Дано: ● запись речи с фоновой музыкой ● музыка известна (найдена алгоритмом Shazam) Предположение: ● фон наложен программно и линейно без шумов Задача: ● вычесть известный фон из записи 18
  • 19. Синхронизация двух дорожек ● Смещение отсчетов S1 (t) = S2 (t + d), где d - смещение ● Разный масштаб S1 (t) = S2 (t) * w ● Комбинация S1 (t) = S2 (t+d) * w ● Искажения сигнала - растягивание. 19
  • 20. Оконное смещение на синтетических данных ICA + Коэффициент эксцесса окнами по 15 секунд 20
  • 21. Оконное смещение на реальных данных 21
  • 22. Моделирование распространения звука ● Возможность изменять свойства пространства ○ шумы ○ реверберация ○ затухание ○ форма волны ● Возможность произвольно расставлять микрофоны и источники звука ● Визуализация распространения волны ● Интеграция алгоритма определения направления звука для визуализации 22
  • 23. Литература ● Nicolas Mitianoudis. Audio source separation using ICA. University of London 2004. ● Pierre Comon. Independent component analysis. A new concept? // Signal processing. 1994. Вып. 3. ● Hyvärinen A. Oja E. Independent component analysis: algorithms and applications. Helsinki university of technology. Neural network research center. 2000. 23