Advances in Computers Volume 92 1st Edition Ali Hurson (Eds.)mcaxhdc5827
油
The Keys to Effective Schools Educational Reform as Continuous Improvement 2n...xkedklr8745
油
Time and Decision Economic and Psychological Perspectives of Intertemporal Ch...gjbdnmt4858
油
Ad
Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie
2. organisatoren?
Digitaal Archief Vlaanderen, meemoo, UGent en VRT
waarom?
delen van recente ontwikkelingen en innovatieve projecten op vlak van digitale
preservering delen en samen problemen oplossen
deelnemers?
wetenschappers, studenten, onderzoekers, archivarissen, bibliothecarissen,
dienstverleners en andere deskundigen
iPRES 2024
4. Van experiment naar structurele oplossing:
gezichtsherkenning in functie van metadatacreatie
David Chambaere, Matthias Priem & Rony Vissers (meemoo)
6. Metadata
Uitdaging
beschrijvende metadata ontbreekt of is heel beknopt
Cre谷ren en verrijken van metadata is tijdsintensief > dus duur
herkennen van afgebeelde personen vereist veel kennis;
vaak omvangrijke collecties die niet tot kerncollectie van organisatie behoren en
dus geen prioriteit zijn;
aard van materiaal zorgt voor extra drempels:
om afgebeelde personen manueel te beschrijven, moeten videos afgespeeld
worden - wat zeer tijdsintensief is;
zolang ze niet gedigitaliseerd zijn, zijn videos niet of moeilijk afspeelbaar,
waardoor het onmogelijk is om hun inhoud te beschrijven
7. Metadata
Geautomatiseerde metadatacreatie of - verrijking m.b.v. artifici谷le
intelligentie?
Speech-to-Text
Named Entity Recognition en Named Entity Linking
Computer Vision
Optical Character Recognition
Face Detection en Face Recognition
...
9. Gezichtsherkenning
FAME (FAce MEtadata):
operationalisering van
metadata-gedreven
gezichtsherkenning in de
registratiepraktijk
10. FAME
Culturele organisaties slagen er onvoldoende in om omvangrijke
collecties fotos en videos van goede metadata te voorzien. Dit tekort
belemmert de online toegang en bevraging, alsook het hergebruik van
digitale fotos en videos.
Dit project ontwikkelt best practices om personen op die fotos en
videos te identificeren via (semi-)geautomatiseerde
gezichtsherkenning.
Daarnaast onderzoekt dit project ook hoe bestaande metadata de
accuraatheid van de gezichtsherkenning kunnen verbeteren.
11. FAME: partners
Projectco旦rdinator: meemoo
Technische partner: IDLab UGent
Contentpartners:
ADVN | archief voor nationale bewegingen
archief van het Vlaams Parlement
KOERS, museum van de wielersport
Kunstenpunt
Looptijd: maart 2021- september 2022
13. FAME: terminologie
Gezichtsdetectie: het lokaliseren van gezichten op een foto of in een
video
Gezichtsherkenning: het toekennen van een naam aan een gezicht
Referentieset: portretfotos waarvan we door metadata weten wie er
op staat
Onderzoeksset: portretfotos, groepsfotos en allerhande andere fotos
waarvan we willen weten wie erop staat
14. Onderzoeksset: fotos en videos
In totaal: 154.287 foto's en 9 video's:
podiumkunstenaars:
19.576 foto's en 2 videos van Kunstenpunt;
wielrenners:
123.911 fotos van KOERS;
politici:
5.587 foto's en 3 videos van ADVN;
5.213 fotos en en 4 videos van archief van Vlaams Parlement;
in totaal: 10.800 fotos en 7 videos.
Oorspronkelijk meer videomateriaal in onderzoeksset voorzien:
tijdsgebrek
opstart luik gezichtsherkenning in GIVE-metadataproject
15. Onderzoeksset: videos
Videos omgezet in reeks van stilstaande beelden > doorlopen nadien dezelfde
workflow als fotos
Videos bestaan vaak uit 25 stilstaande beelden (frames) per seconde > 1 uur video =
90.000 frames of fotos
Volstaat om beperkt aantal frames te analyseren uit shot dat persoon afbeeldt!
Willen weten van welk moment tot welk ander moment persoon in beeld komt
Shots gezocht in videos: shot detection m.b.v. PySceneDetect
Uit ieder shot 3 willekeurige frames gekozen waarop gezichtherkenningsworkflow
toegepast werd
Voorbeeld: video van 103.500 frames (72 min) > 714 frames of stilstaande beelden
16. Referentieset
Gezichtsherkenning werkt op basis van vergelijking van gezichten >
referentieset
In totaal 54.540 portretfotos van in totaal 6.075 verschillende personen
aangelegd
podiumkunstenaars:
2.393 podiumkunstenaars in referentieset (37.172 referentiefotos);
richtgetal: 3.982 te herkennen personen;
wielrenners:
2.791 wielrenners in referentieset (15.323 referentiefotos);
geen richtgetal voor te herkennen personen;
politici:
891 politici in referentieset (2.045 referentiefotos)
geen richtgetal voor te herkennen personen.
17. Samenstelling referentieset: metadata
Samenstelling van referentiesets is waar mogelijk gebaseerd op beschikbaarheid van
bestaande metadata.
Podiumkunstenaars:
ontleden pad- en bestandsnamen Kunstenpunt > naam podiumkunstenproducties > ophalen
van namen van betrokken podiumkunstenaars uit Wikidata
vereiste dataschoning en reconciliatie
Wikidata: enkel data vanaf 1990
Politici:
aanspreken Vlaams Parlement Open Data endpoint: data alle huidige en gewezen
vertegenwoordigers, plus detailinformatie over vergaderingen en commissies
ADVN: authority-databank over de personen in het archief nog in ontwikkeling
Wielrenners:
waar mogelijk gebruik gemaakt van gegevens van gespecialiseerde websites over
wielersport
18. Samenstelling referentieset: metadata
Identifiers overgenomen uit Wikidata voor personen die we willen herkennen >
personen ondubbelzinnig ge誰dentificeerd
Maar ook:
podiumkunstenaars: identifiers voor personen uit Kunstenpuntdatabank 辿n IMDb;
politici: identificatiecodes van Vlaams Parlement 辿n Belgische Senaat voor personen;
wielrenners: identifiers van De Wielersite en ProCyclingStats voor personen.
Afkomst referentiefotos:
collectiebeherende projectpartners;
enkele andere archieven (o.a. Amsab-ISG, KADOC, Liberas);
Wikimedia Commons;
world wide web.
19. Werkwijze
In alle fotos en videos uit referentie- en onderzoeksset automatisch gezichten gedetecteerd en
gelokaliseerd met behulp van software > die gezichten gekopieerd en apart opgeslagen.
Kenmerken van ieder gezicht omgezet naar wiskundig element, een vector.
Alle vectoren met elkaar vergeleken > gezichten met gelijkaardige vector werden in cluster
samengevoegd: die gezichten beelden eenzelfde persoon af.
Per cluster gekeken welke gezichten afkomstig waren uit referentiesets > hun metadata bevat
al naam.
Naam van persoon wiens vectorprofiel cluster dichtst benaderde, toegekend aan alle
gezichten in die cluster.
21. Manuele validatie
Doel: bekomen van zo betrouwbaar mogelijke gezichtsherkenningsresultaten.
Medewerkers van collectiebeherende organisaties konden automatisch bekomen
resultaten valideren met behulp van online tool.
Toekennen validatielabels aan herkende gezichten: geaccepteerd, geweigerd of
ongeschikt.
Ongeschikt: geen gezicht afgebeeld, of foto te onduidelijk om gezicht te herkennen.
Aantal te labelen gezichten beperkt > filtering (op basis van similariteitsscore)
Iedere collectiebeherende organisaties valideerde resultaten eigen collectie.
Niet alle aangeboden resultaten gevalideerd, wel zeer groot aantal.
Mate van validatie niet bij alle collectiebeherende organisaties dezelfde.
22. Similariteitsscore
In FAME gewerkt met
similariteitsscore.
Duidt mate van gelijkenis van
gezicht en met andere gezichten in
cluster automatisch aan >
probabliteit.
In combinatie met gebruik van
validatietool berekend in hoeverre
resultaten met similariteitscore van
0,5 als betrouwbaar werden
beschouwd door medewerkers van
collectiebeherende organisaties.
23. Betrouwbaarheid
Vaststelling: automatisch herkende gezichten met similariteitsscore van
minstens 0,5 zijn gemiddeld 93,6 % betrouwbaar:
Kunstenpunten: idem > 93,6%;
KOERS en ADVN: hoger > respectievelijk 94,8% en 99,8%;
Archief van Vlaams Parlement: lager > 82,7%.
24. Relevantie similariteitsscore
Indien collectiebeherende instellingen zeer kleine
foutenmarge aanvaarden, kunnen ze al deze resultaten
opnemen in hun beheersystemen, zonder dat ze zelf
(alles) moeten valideren > verhoudingsgewijs vooral
grote winst voor Kunstenpunt doordat zij relatief weinig
resultaten hebben gevalideerd met similariteitsscore van
minstens 0,5.
Toekomstige projecten organisaties die manuele en
tijdsintensieve validatie willen vermijden kunnen
similaiteitsscore van 0,5 of hoger hanteren als drempel
voor automatisch aanvaarden van resultaten >
zekerheid van resultaten met zeer grote mate van
betrouwbaarheid hebben, zonder manuele validatie.
25. Bruikbare eindresultaten 1
Indien enkel rekening gehouden met resultaten van manuele validatie
door medewerkers van collectiebeherende instellingen: 78.440
herkende gezichten van 1.693 unieke publieke personen (= 27,9% van
personen uit aangelegde referentieset):
2.818 herkende gezichten van 125 unieke podiumkunstenaars;
63.397 herkende gezichten van 953 unieke wielrenners;
12.225 herkende gezichten van 616 unieke politici.
26. Bruikbare eindresultaten 2
Indien Kunstenpunt tevreden met betrouwbaarheid van 93,6% >
toevoeging van groot aantal herkende gezichten en unieke
podiumkunstenaars mogelijk
Nieuwe eindresultaat: 81.144 gezichten van 2.578 unieke publieke
personen (= 42,4% van personen uit door ons aangelegde referentieset).
Maar: kans dat klein aantal gezichten van podiumkunstenaars en
unieke podiumkunstenaars foutief automatisch zijn herkend.
27. Juridische aspecten
Auteursrecht
auteursrechtelijk beschermde fotos en videos;
beroep op de onderwijs- en onderzoeksexceptie.
Recht op afbeelding
toelating nodig voor maken en gebruiken van
afbeelding van persoon, en ook voor iedere
reproductie en publicatie daarvan;
keuze voor publieke personen: toestemming
vermoed, op voorwaarde dat afbeeldingen zijn
gemaakt tijdens uitoefening van publieke activiteit.
28. Juridische aspecten
Algemene Verordening Gegevensbescherming (AVG of GDPR)
maken, opslaan en gebruiken fotos met personen is verwerking van
(persoons)gegevens > strikt gereglementeerd: verwerking van
biometrische gegevens met het oog op identificatie enkel mogelijk
mits uitzondering;
verwerking is noodzakelijk voor vervulling van decretale opdracht;
versoepeld regime met oog op archivering in algemeen belang.
Terms of Service sociale mediaplatformen
29. Ethische aspecten
Samenstelling referentiesets
keuze voor publieke figuren beperkt impact op priv辿-
personen;
afweging uiteindelijke doel tegenover eventuele
negatieve gevolgen voor afgebeelde personen;
delen van referentiesets? effici谷ntiewinst, maar ook
gevaar op verlies aan controle > nood aan beroepsethiek.
Vooringenomenheid (bias) in algoritmes
zorgvuldig gecre谷erde referentiesets;
controle van gebruikte algoritme op bias aan hand van
manuele steekproef: worden alle mensen even goed
herkend worden, ongeacht hun fysieke eigenschappen of
kledij?
30. Ethische aspecten
Automatisering als bedreiging voor jobs
focus: automatisering van werk dat vandaag wegens tijdgebrek / personeelstekort niet
gebeurt;
samenwerking tussen mens en algoritme blijft cruciaal.
Werkomstandigheden van data labellers
we weten wie door ons gebruikte toolbox Insightface heeft ontwikkeld, maar niet met
welk doel en in welke omstandigheden dat is gebeurd;
aandachtspunt: manier waarop cultureelerfgoedorganisaties manuele validatie van
matchingresultaten aanpakken.
Impact op het milieu
vergt veel rekenkracht en energie;
energie mogelijk niet afkomstig uit hernieuwbare bronnen;
aandachtspunten: terugdringen van nefaste effecten (bv. door energie-effici谷ntere
workflows en algoritmes) en transparantie.
31. Lessons learned
Bottlenecks:
samenstelling van namenlijsten en referentiesets >
tijdsintensief
manuele validatie > tijdsintensief
Beschikbare informatiebeheersystemen zijn vandaag vaak niet
voorzien op wegschrijven van dergelijke (complexe)
beschrijvende metadata
Juridische en ethische aspecten blijven belangrijke
aandachtspunten
33. GiVE Metadata - Scope
Spraakherkenning (Speech-To-Text of STT)
- Input: audio (uit zowel audio als video files)
- Output: transcripties
Entiteitsherkenning (Named Entity Recognition of NER)
- Input: transcripties
- Output: metadata updates met semantiek en links naar
authentieke bronnen (bvb. wikidata)
Gezichtsdetectie & Herkenning
- Input: video
- Output: metadata updates met herkende personen
Over alles
heen:
1/ uniforme
metadata
2/ gelinkt
aan externe
authorities
(bvb.
wikidata)
34. Schaal
126 contentpartners betrokken
Per activiteit
Spraakherkenning en Entiteit Herkenning :
130.000 gearchiveerde stuks of 160.000 uur
media
Gezichtsdetectie en -herkenning :
100.000 gearchiveerde stuks of 120.000 uur
media
Dit is 5500 keer
meer data dan
in FAME
35. Schaalvergroting: uitdagingen
Oplossing die werkt op grote schaal, voor veel partners
Communicatie en samenwerking
Juridische en ethische vraagstukken
Technische uitdagingen
software : zo ontworpen dat het snel geschaald kan worden
hardware : cloud gebaseerd, snel uitbreiden en inkrimpen
Kwalitatieve aspect
Manuele validatie is niet langer mogelijk
Grondige parametrisering, vertrouwen en goed gekozen
thresholds worden cruciaal
36. Veel partners
We werken met materiaal van heel
veel partners
Vaak ook nieuwe uitdagingen /
inzichten
Informatie via communicatieplan
Betrokkenheid via werkgroep
krijgen meer in-depth informatie
bepalen mee wat we doen en niet doen
parametrisering gezichtsherkenning
beheer referentieset gezichten
workshops rond ethiek
feedback op functionaliteit
feedback op wireframes
Brede oproep naar alle 120 partners,
uiteindelijk +/- 10 partners
vertegenwoordigd.
37. Juridische aspecten
AI toepassen: het kan volgens GDPR (archivering in het
algemeen belang)
Maar DPIA is nodig want:
Grootschalige verwerking
Aantal betrokkenen
Volume van de gegevens
Duur van de activiteit
Creatie van nieuwe metadata kan linken leggen tussen
personen en lidmaatschap vakbond/etniciteit/politieke
voorkeur
Verwerking van bijzondere categorie谷n
persoonsgegevens
38. Data Protection Impact Assessment
Deel 1 : omschrijf wat je wil doen
Algemene beschrijving beoogde verwerking
Beschrijving type persoonsgegevens
Doel van de verwerking
Bronnen van de persoonsgegevens
Betrokkenen
Deel 2 : Risico analyse
Wat zijn de taken in het project?
Welke risico's zijn hieraan verbonden?
Hoe gaan we deze minimaliseren?
Checklist voor privacy aspecten binnen project
39. Ethische aspecten
ism. Kenniscentrum data &
maatschappij
Meerdere workshops, focus op
gezichtsherkenning
breng alle stakeholders samen
archivarissen, personen die
herkend zullen worden, technici
Probeer tot een principes document
te komen of gedeeld inzicht / proces
Bvb. referentielijst
Ethische / juridische conclusies worden samengevat & gedeeld
40. Technische aspecten - kopen of bouwen?
Spraakherkenning (Speech-To-Text of STT)
- Mature tooling op de markt
- Kosteneffici谷nte oplossing, makkelijk te integreren
Entiteitsherkenning (Named Entity Recognition of NER)
- Mature tooling op de markt
- Kosteneffici谷nte oplossing, makkelijk te integreren
Gezichtsdetectie & Herkenning (Face detection and recognition)
- Deels beschikbaar op de markt
- Hoge kost per uur
- Reeds kennis opgedaan via FAME
KOPEN
KOPEN
BOUWEN
41. Gezichtsdetectie
identificeer een stuk van een beeld als 'gezicht' en stop in een cluster voor een persoon
Gezichtsherkenning
ga na of er een match is tussen de persoon en iemand in de referentieset
Vaak voorkomende 'onbekenden'
Kunnen we veel voorkomende, niet gematchte gezichten aanbieden aan de archivaris (om
toe te voegen aan de referentieset)
Daarnaast: beheer van de referentieset
hergebruik van de bestaande set uit FAMe
kunnen we komen tot gedeeld beheer?
Gezichtsherkenning - Wat willen we?
42. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Matching
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset obv
kwaliteit
43. Gezichtsherkenning - parameters
Gezichtskwaliteit
Box-grootte
Pose (landmarks)
Belichting
Blurriness
Confidence
Schermtijd
Duur van gezicht binnen 1 shot (tracker)
Aantal keer dat gezicht terugkomt (aantal trackers per persoon)
Totale schermtijd van 1 persoon in video
44. Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage);
gezichten in de achtergrond leveren vaak geen metadata op omdat ze te
klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
45. Gezichtsherkenning - werken op schaal
Verwerking opgedeeld in kleine (micro)services
doen 1 bepaalde taak en geven resultaat door
kan geparallelliseerd worden
Effectieve processing in de cloud
Snelle opschaling en ook downscaling
120k uur verwerkt op 10 weken
Tijdens verwerking ingezien dat het te lang zou duren:
dubbel zoveel hardware ingezet
verwerkingstijd kunnen halveren
Alle machine
learning algoritmes
die we gebruikten
zijn open source,
voorgetrainde
modellen.
Geen specifieke
training nodig.
46. Gezichtsherkenning - tussentijdse resultaten
- Gezichtsdetectie
- Loopt 1x om alle gezichten te detecteren op alle archieven
- heel rekenintensief, tientallen nodes actief om verwerking te doen
- verwerking alle videos afgelopen (10 weken)
- 3,3 mio personen gedetecteerd (~ 27 per video)
- Gezichtsherkenning (matching)
- Referentie set (+ referentieset beheer)
- Loopt herhaaldelijk (vergelijking van alle video vs refset duurt +/- 2 uur)
- extra persoon aan de referentieset toegevoegd mogelijk nieuwe matches.
- 208.000 personen gelinkt aan 2500 personen uit de huidige referentieset
47. Referentieset
Essentie
Een lijst van personen + foto's + links naar wikidata + authorities CP's
Gedeeld beheer, steunen op elkaars kennis (bvb. Koers / Huis van Alijn)
Transparantie rond aanpassingen (wie, wat, wanneer)
Cruciale schakel
Referentieset maakt de brug tussen detectie en matching
Ethisch: iemand in de referentieset steken betekent die persoon herkennen
Belangrijk dat het een mens is die dit uitvoert
54. Dit project kadert binnen het relanceplan Vlaamse Veerkracht en wordt
gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.
56. Toekomst en andere projecten
SHARED AI
Oktober 2023 - Dec 2024
GiVE project, maar voor regionale media + VRT
Visual Name Authority
2023 - 2026 (3 fases, 3 jaar)
Project waarin we overkoepelende namenlijst en gedeelde referentieset breder
inzetbaar willen maken
Processen, juridisch, ethische kwesties
Maar ook de bouw van een tool