Wordle2.png
  • Luhr Løvdahl
Speciale, Kandidatuddannelsen
I denne opgave undersøges hvordan latent semantisk analyse (LSA) som søgemodel, kan spille sammen med en XML struktureret database, nærmere bestemt INEX 2005. LSA er funderet i vektorrumsmodellen, og er en metode til at knytte data sammen på tværs af termer og dokumenter via en reduktion i antallet af dimensioner i vektorrummet. Matematikken bag LSA er matrixfaktoriseringen singular value decomposition (SVD) der benyttes til dimensionsreduktionen.

En række forskellige XML elementer udvælges på baggrund af deres forskellige funktioner og position i XML-strukturen, og de deles ind i tre grupper som henholdsvis "frontmatter", "full cover" og "local". For hvert element beregnes en række semantiske rum. For at kunne undersøge hvordan antallet af dimensioner influerer på søgeresultaterne, benyttes en række forskellige antal dimensioner mellem 2 og 1024. INEX-databasen omfatter 29 topics – i.e. formulerede informationsbehov – med tilhørende relevansvurderinger. Titel-elementet benyttes som søgestreng til at teste metodens retrieval performance for hvert af de semantiske rum.

Resultaterne viser at mængden af tekst i elementerne er den vigtigste faktor for retrieval performance i de semantiske rum beregnet vha. LSA. Der findes ingen sammenhæng mellem element-type og den optimale dimensionsreduktion for semantiske rum.
SprogEngelsk
Udgivelsesdato1 okt. 2010
Antal sider62

    Emneord

  • LSA, Latent Semantic Analysis, Latent Semantisk Analyse, XML, Information Retrieval, Vector Space Model, Vektorrumsmodellen, Singular Value Decomposition, SVD, INEX