ݺߣ

ݺߣShare a Scribd company logo
CLiC
Centre de Llenguatges i Computació

Aprenentatge Automàtic 
pel 
Processament del Llenguatge Natural
Classificació 
d'Entitats amb Nom

Jordi Duran i Cals
Desembre del 2006
CLiC
Centre de Llenguatges i Computació

Aprenentatge Automàtic pel 
Processament del Llenguatge Natural
 Índex
–

Introducció

–

Aprenentatge Automàtic

–

Aplicació de l’Aprenentatge Automàtic en el 
Processament del Llenguatge Natural  
(Classificació d'Entitats amb Nom)

 

 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

El per què d’aprendre
 Situacions complexes:
–
–

Capacitats humanes que no som capaços d’explicar 
(speech recognition)
Experiències humanes que no hem tingut (exploració 
d’altres planetes) és dificultós i es necessita temps

 Tenim dades en grans quantitats i barates, per altra 

banda el coneixement és car i escàs
–

Crear sistemes manualment és dificultós i es necessita 
temps
 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprendre a aprendre
La  didàctica és la branca de la pedagogia que s’ocupa d’estudiar com ha de 
funcionar l’aprenentatge en els éssers humans de manera òptima, és a dir, 
quina és la millor manera d’ensenyar uns determinats continguts o habilitats.
L’estratègia d’aprenentatge basada 
  Estratègies d’aprenentatge
en la imitació, és sens dubte un dels 
– Anàlisi i discussió de casos
procediments més naturals 
– Imitació de models
d’enfrontar­se a les coses... Els nens 
petits, i no tant petits..., fan servir els 
– Procediments d'interrogació
models més propers com a pauta 
d’acció ­ reflexió...

Com es veurà es vol simular el comportament humà
 
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge
 Adquirir coneixement des d’exemples concrets

Dades

Observar
Adquirir

Coneixement
(model)

– El coneixement adquirit (model) és una bona aproximació de 
les dades observades?
Es pot avaluar
 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)


ML s’engloba dins de la Intel∙ligència Artificial (IA)



S’aplica en molts altres camps d’investigació



Fer que els ordinadors adquireixin automàticament algun 
tipus de coneixement a partir de l’observació d’un determinat 
conjunt de dades



Els ordinadors són el mitjà (suport)



Els algoritmes (programari) donen la funcionalitat de 
l’aprenentatge automàtic
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)


Obtenir una descripció d’un concepte en algun camp del 
processament del llenguatge natural que ens permeti mostrar 
observacions i ajudi a predir noves instàncies d’aquesta distribució

Dades

Observar
Adquirir

Coneixement
(model)

Noves 
dades

Aplicar

– L’estadística ens servirà per inferir a través de les mostres
– La computació  ens permetrà crear algoritmes eficients per:
resoldre problemes d’optimització
Representar i avaluar els models

 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)
 Tipus de ML
–

–

Paradigmes de ML

Aprenentatge Supervisat:
Volem aprendre una relació 
entre unes i altres dades

– Arbres de decisió

Aprenentatge no Supervisat:
Tenim només unes úniques 
dades i volem trobar­hi 
regularitats entre elles

– Inducció Lògica

– Llistes de decisió
– Clustering
– Algoritmes genètics
– Xarxes neuronals
– Maquines de Vectors 
de Suport
– etc..
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Tasques de NLP











Speech Recognition
Spelling Correction
Part­of­speech tagging
Word­sense disambiguation
Parsing (full/shallow)
Information retrieval
Information extraction
Machine Translation
NE Classification
I un llarg etc.

Paradigmes de ML
– Arbres de decisió
– Llistes de decisió
– Clustering
– Inducció Lògica
– Algoritmes genètics
– Xarxes neuronals
– Maquines de Vectors de 
Suport
– etc..
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Interacció entre ML i NLP
De ML a NLP
–

Trobar la solució més apropiada per cada tipus de problema

De NLP a ML
–

Problemes que plantegen reptes interessants ja que contenen 
característiques com ara: conjunts d’entrenament 
extremadament grans (o petits), alta dimensionalitat, atributs 
dependents, soroll en les dades, no només problemes de 
classificació, etc.    
 

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

ML per NLP


Formalització del problema
–

Representació
Cadenes de caràcters

Dades

Dades

R

Vectors de característiques
Tipus d’estructures

E

Etc. (camp molt obert)
–

Entrenament
Aplicar paradigma de ML

–

Objectiu

Coneixement
(model)

O

Classificar
Reconèixer
Detecció
Etc.

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

ML per NLP
 El Model
Representa la informació apresa 
en funció del paradigma utilitzat
–

Regles

–

Exemples d’una classe

–

Etc.
A?
B?
D?
 

y

C?
E?

z

x

z
 z

x
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)
Dades



Extracció de 
característiques

Dades

            E

Coneixement
(model)

Etiquetatge manual



R

Forma Lema Forma[n­1..n] Forma[n­2..n] Forma[n­3..n] TextWithoutAlphabetic
TextWithoutNumber isAllCap isAllCapOrDots isAllDigits isAllDigitsOrDotsComm
isInitialCap PoS BIO

 

 

O
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)

...
Creu
Roja
ha
...

eu
ja
ha

reu
Creu
oja
Roja
__nill__

__nill__
__nill__
__nill__

Creu N
Roja N
__nill__

N
N
ha

a

a

__nill__

__nill__

__nill__

__nill__

106,52

106,52

52

,52

6,52

euros euro

es

nes

enes

__nill__

per

er

per

__nill__

__nill__

co

esco

per

N
N
N

N
N
N

Y
Y
N

NCFS000
AQ0FS0
N
N

B­ORGANIZATION
I­ORGANIZATION
VAIP3S0
O

a

N

N

N

N

N

SPS00 O

N

Z

B­MONEY

106,52

,

N

N

Y

Y

euros N

N

N

N

N

NP00000

N

N

N

N

N

SPS00 O

UNESCO

Y

Y

N

N

per

I­MONEY

...
UNESCO

unesco

B­ORGANIZATION
...

sco

__nill__

 

 

Y

NP00000
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)

Dades

Representats 

Inferir Cat.

Etiquetades

Representats 

Classificar

de cada

de cada

Categoria

categoria

 

Finals

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)
Dades



R

Dades

Definició de regles llavor
Extracció de característiques

Coneixement
(model)

            E

Llista de decisió
Text (New_York)  Lloc
Text (Barcelona)  Lloc

–

Tipus de Sintagma

–

Conté

Conté (Corporació)  Organització

–

Trigger Word

TotesMajúscules (si)  Organitzaciö

–

Tipus de context (aposició, SP)
 

...

Conté (Sr.)  Persona

 

O
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)




Aprenentatge automàtic no supervisat (Collins, 1999)

Regles 

Regles 

Regles

Llavor

 aplicades

Dades

Regles 
Inferides

Inferides

Finals

Etiqueta Dades
Inferir Regles
 

 
CLiC
Centre de Llenguatges i Computació

Bibliografia


Machine Learning; Mitchell, 1997



Machine Learning in Speech and Language Technologies; Roth, Fung, 
2005



Machine Learning Approaches for Natural Language Processing; Collins, 
2003



Projects in Machine Learning; Alpaydin, 2004



Unsupervised Models for Named Entity Classification; Collins et al, 1999



Low­cost Named Entity Classification for Catalan; Màrquez et al, 2005



Mètodes Empírics pel processament del llenguatge natural; Doctorat en 
Intel∙ligència Artificial (UPC), Ll. Màrquez
 

 

More Related Content

Aprenentatge Automàtic pel Processament del Llenguatge Natural