ݺߣ

ݺߣShare a Scribd company logo
논문분석
SEGMENTATION‑BASEDLYRICS‑AUDIOALIGNMENT
USINGDYNAMICPROGRAMMING
1
개요
2008년에발표한SEGMENTATION‑BASEDLYRICS‑AUDIO
ALIGNMENTUSINGDYNAMIC
PROGRAMMING라는논문을분석후간략히내용을정리한다.
2
Abstract
자동화된가사TextSync를보여줌
주어진오디오시그널에서구조적segmentation을첫째로수행하고유
사한세그먼트를세그먼트pair간거리를구해label한다.
DynamicProgramming을통해2개의문자열간최적의alignment를찾
고문단간의세그먼트sync를얻는다.
제안한알고리즘이다양한음원에서수행되는것을보여줌
3
Introduction#1
몇몇디바이스는이미가사를보여주는것이가능함
음절단위가사sync가되면좋겠지만문단이나line으로싱크를맞추는것
만으로도모바일환경에서는충분함
이문제가최근MIR커뮤니티에서관심을얻기시작함
4
Introduction#2
Wantetal.이쓴논문을보면구조적접근으로문제해결을시도하였음
문제를2가지는세부task로나눔
오디오에서highlevelstructualinformation(Measure,
Chorus,SingingVoiceSection)을획득함
동시에가사는분석되어미리정의된sectiontype중하나로
label됨
프로세싱단계에서각섹션과line의길이를예측함
한계점은songstructure및rhythmicstructre에대한fix된
assumption
5
Introduction#3
Chenetal.은lowlevelacousticfeature만을사용하여문제해결을시
도함
그들의알고리즘은2개의컴포넌트로구성됨
vocal/non‑vocaldetector
multilevelacousticmodel을통해sync를시도
각컴포넌트는아래의일을수행함
vocaldetector는SingingVoiceSection후보군을발견함
lyrics로부터grammarnet을생성하여미리만들어놓은
acousticmodel과의MLElinearregression을시도함
smallChineseSong에서phraselevel로81.5%의정확도를기록
함
내가생각하는한계점은데이터셋자체가너무국소적이다는점이
다.즉,모델의일반화가어려울수있을듯하다. 6
Introduction#4
Fujiharaetal.은sub‑problem으로문제를나누었다.
sub‑problem
SingingVoiceSeparation
SingingVoiceDetection
Viterbi‑basedmatchingtechnique을이용한분리된보컬시
그널과가사의sync
마지막alignment단계에서오직모음과단어간shortpuase,
sentence/phraseboundary를이용하여languagemodel을만듦
특정가수에대한phonemodel을도입하여performance를향상시
킴
10곡의J‑POP곡에8곡에대해90%이상의정확도를기록함
내생각에이또한데이터양이너무작고특정가수에치중된모델이
라일반화가어려울듯하다. 7
Introduction#5
이논문에서는좀더단순하고기본적인문제를다룬다:segment‑to‑
paragraphlevel에서의가사sync문제를다룬다.
segmentlevelalignment는lowlevelalignment를위한intialsolution
이될수있고line/wordlevelalignment에도움이될것으로기대한다.
필자의생각에는segmentlevlealignment의접근방법이꼭line/word
alignment에도움이되리라고생각치는않는다.왜냐면performance를
올리기위해전제할수있는사항이달라서쓸수있는Trick이나방법론이
달라질수있다고생각하기때문이다.
8
Method
논문의시스템은paragraph‑to‑segmentlevelsync를구현하는것이다.
segmentstructure를audio와가사에서찾는다.
(예를들어verse/chorus섹션을각각서로의정보없이찾는다)
만약전체곡을적절한segment로나눌수있으면가사에서도적절한
paragraph를찾을수있을것을가정한다.
paragraph‑to‑segmentlevelalignment가word/syllablelevel
alignment보다훨씬쉽기때문에이부분에집중한다.
필자가생각하는한계점은Audio를Segment단위로만나눠해결하려는
점이다.
9
Method:StructuralSegmentation#1
StructuralSegmentation은MIR분야의주요주제중하나로이논문에
서는이문제를풀려고하지않음
대부분의클래식음악은의미적변화나반복에의해구조가정형화되어있
음
예를들어{intro‑verse‑chrous‑verse‑chorus‑bridge‑solo‑
chorus‑outro}같은식임
논문에서는음원으로부터얻어진lowlevelfeature의self‑similarity
matrix를통해segment를구성
음원은spectralanalysis를통해2차원featureframe을뽑아낸뒤
similaritymatrixS를구성해featureframepair의cosine유사도를얻
어낸다.
10
Method:StructuralSegmentation#2
이유사도를다시kernelcorrelation을통해1차원noveltyscore로만든
다.이점수의peak들은음원이크게변화하는것을의미한다.
마지막segment경계는휴리스틱한임계치값이상의peak으로정한다.
이후비슷한segment끼리클러스터링한다.
필자생각엔이방법에휴리스탁임계치를쓰는것은한계점일듯하다.
또한클러스터링이후labeling도사람이직접해줘야한다.
11
Method:Paragraph‑to‑SegmentAlignment
이미수작업한가사paragraph가있다고가정한다.
(paragraph의종류포함)
논문에서는하나혹은그이상의chorussection이음원의어느위치에존
재하는지알고있으니이를통해가사를sync할수있다고말한다.
음원에서얻어진chorus갯수와lyrics의chorus갯수가다를수있는데
lyrics에서의연속된chorus를grouping하는것으로해결한다.
다만chorus간의sync를맞추더라도다양한경우의수로세부segment
는sync가안맞을여지가있다.
필자생각엔chorus만우선sync를맞춘다는것자체가음원의근원적구
조상좋은시도이지만세부sync맞추는게경우의수가많을듯하다.
12
Method:DynamicProgramming#1
DP알고리즘에서최적화문제를작은문제로나눔
논문에서는2개의문자열을가지고있음
음원에서얻어낸문자열
가사의구조로추측한문자열
DP를이용하여ErrorMatrix를정의해distance가최소화되게끔DP를
돌림
13
Method:DynamicProgramming#2
ErrorMatrix는아래와같이정의함
14
Method:DynamicProgramming#3
15
Experiments
성능을더끌어올리기위해다른논문을참조하여AudioSegment의
Vocal/NonVocalDetection을수행하여NonVocalSeg를제거
이를통해성능을향상시킴
16
Conclusion
다양한어플레케이션에서이기술이의미가있을것으로확신함
audioseg를찾아내고여기서nonvocalseg를제거하여alignment를
수행함
실험은다양한장르의노래에서sync를시도해성공적인성능을보여줌
이논문을divideandconquer방법으로Hierarchal하게이용하면word
levelsync에도도움이될것으로논문에서는예상함
vocaldetectionclassifier성능이향상되면sync성능도향상될것임
17
비평
Pros
이분야에대한Context를잘설명해주어좋았음
DP로Alignment를시도한것이재밌었음
Vocal/NonDetection을통한VocalSeg제거가인상적임
Cons
segment기반alignment라는한계점
segment선정에휴리스틱한임계치가존재
가사도handlabeled임
생각보다수작업이많음
실험데이터가15곡에불과함
18

More Related Content

[논문분석] Segmentation based lyrics-audio alignment using dynamic programming