SEOMantica: PLSA (Probabilistic Latent Semantic Analysis). Ecco cos’è!
Bene, vedo che non demordi.. quindi proseguiamo il nostro viaggio nella SEOMantica, in particolare oggi vedremo il modello matematico della PLSA (Probabilistic Latente Semantic Analysis = Analisi probabilistica della semantica con variabili latenti).
PLSA (Probabilistic Latent Semantic Analysis). Ecco cos’è! (Slide 42-45)
Prima di passare a schemi matematici e formule, vediamo in sintesi di cosa si tratta in 3 punti/informazioni che reputo importanti:
-
Tecnica statistica utilizzata per l’analisi di due metodologie e co-occorrenze di dati, quindi mette a confronto più dati di input
-
E’ un miglioramento della LSA apportando un calcolo probabilistico ai risultati. Infatti è basata su una decomposizione miscelata da un modello di classe latente (come la LSA che ha puramente calcoli basati su variabili non osservabili), questo permette appunto un approccio più probabilistico e quindi più saldo statisticamente (perchè “viene ridotto il rumore estremo” derivante dai calcoli sulle variabili nascoste).
-
E’ stata introdotta nel 1999 da Jan Puzicha e Thomas Hofmann, quindi gli studi a riguardo sono molto molto recenti, soprattutto legati all’Information Retrieval.
Vediamo la schematizzazione del concetto (tratto da Amit Gruber, 08 agosto 2007 – GoogleTechTalks)
- Selezionare 1 documento “d” con probabilità → P(d)
- Scegliere una classe latente “Z” con probabilità → θd(Z) = P(Z|d)
- Generare una parola “W” con probabilità → Φz(W) = P(W|Z)
LEGENDA
D → numero dei documenti
Nd → numero delle parole nel documento (d)
K → numero di argomenti latenti
θd → distribuzione di argomenti nel documento “d”
Z → argomento latente (topic)
W → parola osservata
Φk → distribuzione delle parole generate dall’argomento latente “Z”
LIMITAZIONI e SVANTAGGI dell’analisi PLSA
Elevata generazione di “RUMORE CASUALE” (detto anche Overfitting)!
Occorre quindi, affinare i risultati per poterli applicare allo scopo di identificazione del significato della frase e della relativa parola chiave lo riassume…
Qui le slide:
Un abbraccio,
Michele