際際滷

際際滷Share a Scribd company logo
Taldata i digital humaniora
Jens Edlund
KTH Tal, Musik och H旦rsel
SWE-CLARIN
Om mig
Bakgrund inom lingvistik, fonetik, datorligvistik
 MA Lingvistik->Docent Talteknologi & kommunikation
 Talforskning sedan 1996
- Mestadels p奪 KTH Tal, Musik och H旦rsel
Om KTH Tal, Musik och H旦rsel
Grundades 1951 av Gunnar Fant
versikt
 Om tal i SWE-CLARIN
 Om tal (och skrift)
 Om talforskning och talteknologi
 Om talteknologi och digital humaniora
KTHs uppdrag i SWE-CLARIN
 Information- och kunskapsspridning
- Kontakt: Jens Edlund, edlund@speech.kth.se
 Uvidgat arbete
 Projektintern talgrupp
- KTH
- Spr奪kr奪det
- Digisam
 Inventera resurser
 Aktivt inspirera forskningssamarbeten
versikt
 Om tal i SWE-CLARIN
 Om tal (och skrift)
 Om talforskning och talteknologi
 Om talteknologi och digital humaniora
 Fr奪ga g辰rna!
r talat spr奪k ett s辰rfall av skiftspr奪k?
 Inom lingvistiken: ja (奪tminstone traditionellt)
 Men
- Tal kom f旦re skrift
- Tal 辰r den vanligast f旦rekommande spr奪kformen
(samtal, till och med)
- Skrift ett specialfall av tal?
 I praktiken finns stora 旦verlapp, men kanske lika stora
skillnader
Tal Skrift
N奪gra markanta skillnader
 Tal 辰r momentant!
- Finns bara i nuet
- G辰ller 辰ven vid inspelning
 Tal 辰r interaktivt, eller emergent
- Skapas och redigeras dynamiskt
- G辰ller 辰ven l辰st tal
versikt
 Om tal i SWE-CLARIN
 Om tal (och skrift)
 Om talforskning och talteknologi
 Om talteknologi och digital humaniora
Grundforskning och till辰mpad
forskning
 Till辰mpad forskning
- Talsvar
- SIRI, Google Now, Cortana
- Taligenk辰nning
- Talsyntes
- Och mycket annat
 Till辰mpningsomr奪den
- Tillg辰nglighet
- M辰nniska-maskininteraktion
- Underh奪llning
- 
- Forskning: spr奪klig analys (OBS  iterativt!)
 ,
Grundforskning och till辰mpad
forskning II
 Grundforskning
- Modeller av m辰nskligt spr奪kbruk
- Test av hypoteser genom generering
- Statistikbaserad forskning: hur p奪verkar X Y?
 Omr奪den
- Lingvisik
- Fonetik
- Soiologi
- Pskologi
- Kognitionsvetenskap
-
Talteknologins f旦ruts辰ttningar
 Idag till stor del datadriven
 Grundteknologi f旦r standarduppgifter ett l旦st
problem
- Taligenk辰nning fungerar
- Talsyntes fungerar
 Utanf旦r standarduppgifterna: tidigt i utvecklingen
- Uppgiftsspecifika l旦sningar kr辰vs n辰stan alltid
 Ett av problemen: brist p奪 data
Talteknologiska resurser
 Inte bara tal!
 Texter anv辰nds p奪 en rad s辰tt
- Spr奪kmodeller: d旦rren hade g奪tt i ???
- Vokabul辰rer  mer f旦r辰nderliga 辰n man tror
- Bokstavsmodeller
- Dom辰nberoende modeller
- Etc
 Andra modaliteter (fr奪ga inte!)
- Video
- Undertexter
- Fysiologiska data
 Olika kanaler
versikt
 Om tal (och skrift)
 Om tal i SWE-CLARIN
 Om talforskning och talteknologi
 Om talteknologi och digital humaniora
V奪ra roller
 Resurs辰gare
- Sitter p奪 en spr奪klig resurs
 Behovs辰gare
- Skulle kunna dra nytta av att analysera en spr奪klig resurs
 Talteknolog (spr奪kteknolog)
- Vet hur en spr奪klig resurs kan utnyttjas och vad som
kr辰vs
 M奪nga av oss passar i mer 辰n en roll
Behovs辰gare Resurs辰gareTalteknologi
Exempel p奪 vad vi kan g旦ra
 Annoteringsst旦d
- Segmentering transkription
 Segmentering och urval
- Vem talar?
- Hur talar man?
 Cocktail!
- S旦kning
- Beskrivning
- Experiment
Praktiska l旦sningar
 R辰ttigheter och integritet
- Inga generella l旦sningar
(Fast lyssna g辰rna p奪 Jussi  )
- Derivat
 Spr奪kbanken f旦r tal: Talbanken
- Starka str旦mningar
- Regering, PTS, Vetenskapsr奪det, VINNOVA
 Inlkudering i processer
Kontakta mig
 Mingel eller edlund@speech.kth.se
 Workshop 16e november p奪 KTH
 Resurser
 Forskningsideer
 Allm辰nna fr奪gor
Tack!
Fr奪gor?

More Related Content

Jens Edlund "Taldata" KB 9 oktober 2015

  • 1. Taldata i digital humaniora Jens Edlund KTH Tal, Musik och H旦rsel SWE-CLARIN
  • 2. Om mig Bakgrund inom lingvistik, fonetik, datorligvistik MA Lingvistik->Docent Talteknologi & kommunikation Talforskning sedan 1996 - Mestadels p奪 KTH Tal, Musik och H旦rsel
  • 3. Om KTH Tal, Musik och H旦rsel Grundades 1951 av Gunnar Fant
  • 4. versikt Om tal i SWE-CLARIN Om tal (och skrift) Om talforskning och talteknologi Om talteknologi och digital humaniora
  • 5. KTHs uppdrag i SWE-CLARIN Information- och kunskapsspridning - Kontakt: Jens Edlund, edlund@speech.kth.se Uvidgat arbete Projektintern talgrupp - KTH - Spr奪kr奪det - Digisam Inventera resurser Aktivt inspirera forskningssamarbeten
  • 6. versikt Om tal i SWE-CLARIN Om tal (och skrift) Om talforskning och talteknologi Om talteknologi och digital humaniora Fr奪ga g辰rna!
  • 7. r talat spr奪k ett s辰rfall av skiftspr奪k? Inom lingvistiken: ja (奪tminstone traditionellt) Men - Tal kom f旦re skrift - Tal 辰r den vanligast f旦rekommande spr奪kformen (samtal, till och med) - Skrift ett specialfall av tal? I praktiken finns stora 旦verlapp, men kanske lika stora skillnader Tal Skrift
  • 8. N奪gra markanta skillnader Tal 辰r momentant! - Finns bara i nuet - G辰ller 辰ven vid inspelning Tal 辰r interaktivt, eller emergent - Skapas och redigeras dynamiskt - G辰ller 辰ven l辰st tal
  • 9. versikt Om tal i SWE-CLARIN Om tal (och skrift) Om talforskning och talteknologi Om talteknologi och digital humaniora
  • 10. Grundforskning och till辰mpad forskning Till辰mpad forskning - Talsvar - SIRI, Google Now, Cortana - Taligenk辰nning - Talsyntes - Och mycket annat Till辰mpningsomr奪den - Tillg辰nglighet - M辰nniska-maskininteraktion - Underh奪llning - - Forskning: spr奪klig analys (OBS iterativt!) ,
  • 11. Grundforskning och till辰mpad forskning II Grundforskning - Modeller av m辰nskligt spr奪kbruk - Test av hypoteser genom generering - Statistikbaserad forskning: hur p奪verkar X Y? Omr奪den - Lingvisik - Fonetik - Soiologi - Pskologi - Kognitionsvetenskap -
  • 12. Talteknologins f旦ruts辰ttningar Idag till stor del datadriven Grundteknologi f旦r standarduppgifter ett l旦st problem - Taligenk辰nning fungerar - Talsyntes fungerar Utanf旦r standarduppgifterna: tidigt i utvecklingen - Uppgiftsspecifika l旦sningar kr辰vs n辰stan alltid Ett av problemen: brist p奪 data
  • 13. Talteknologiska resurser Inte bara tal! Texter anv辰nds p奪 en rad s辰tt - Spr奪kmodeller: d旦rren hade g奪tt i ??? - Vokabul辰rer mer f旦r辰nderliga 辰n man tror - Bokstavsmodeller - Dom辰nberoende modeller - Etc Andra modaliteter (fr奪ga inte!) - Video - Undertexter - Fysiologiska data Olika kanaler
  • 14. versikt Om tal (och skrift) Om tal i SWE-CLARIN Om talforskning och talteknologi Om talteknologi och digital humaniora
  • 15. V奪ra roller Resurs辰gare - Sitter p奪 en spr奪klig resurs Behovs辰gare - Skulle kunna dra nytta av att analysera en spr奪klig resurs Talteknolog (spr奪kteknolog) - Vet hur en spr奪klig resurs kan utnyttjas och vad som kr辰vs M奪nga av oss passar i mer 辰n en roll Behovs辰gare Resurs辰gareTalteknologi
  • 16. Exempel p奪 vad vi kan g旦ra Annoteringsst旦d - Segmentering transkription Segmentering och urval - Vem talar? - Hur talar man? Cocktail! - S旦kning - Beskrivning - Experiment
  • 17. Praktiska l旦sningar R辰ttigheter och integritet - Inga generella l旦sningar (Fast lyssna g辰rna p奪 Jussi ) - Derivat Spr奪kbanken f旦r tal: Talbanken - Starka str旦mningar - Regering, PTS, Vetenskapsr奪det, VINNOVA Inlkudering i processer
  • 18. Kontakta mig Mingel eller edlund@speech.kth.se Workshop 16e november p奪 KTH Resurser Forskningsideer Allm辰nna fr奪gor