• Zoe Skovgaard Asta
Speciale, Kandidatuddannelsen
Utraditionelt databaseindhold såsom lyde og billeder mangler ofte det effektive niveau af metadata som findes i de fleste traditionelle tekstbaserede samlinger. Denne undersøgelse bruger en samling af digitaliserede danske radioudsendelser som case og undersøger brugerdefinerede tags som en måde at generere metadata for disse materialer på. Specialet fokuserer på både potentialet for dansk sprogteknologi at forberede og bearbejde brugerdefinerede tags til brug i query expansion, og på effekten query expansion ved brug af DanNet, den danske version af Princeton WordNet, har på information retrieval. Taggene anvendt i denne undersøgelse blev indsamlet ved brug af en skræddersyet hjemmeside hvor 23 testpersoner tilføjede 1.808 tags efter have lyttet til 22 separate lydsekvenser som indeholdt 'environmental sounds', dvs. ikke-musik, ikke-tale-lyde. Adskillige sprogteknologiske værktøjer blev testet på de indsamlede tags og en empirisk vurdering af deres evner til lave en hensigtsmæssigt fortolkning af taggene og bearbejde dem for efterfølgende behandling blev foretaget. Information retrieval-eksperimenter blev udført for at afgøre effekten af query expansion baseret på en manuel, idealiseret forberedelse af taggene. Resultaterne viste at alle de undersøgte sprogteknologiske værktøjer gav resultater inden for den acceptable fejlprocent etableret af værktøjernes ophavsmænd på Center for Sprogteknologi på Københavns Universitet, dog lå PoS-taggeren i den lave ende af spektrummet. Query expansion-eksperimenterne viste et forventet fald i precision ved tilføjelsen af synonymer og underbegreber til de originale tags. Information retrieval-eksperimenterne peger på de mest effektive kombinationer af sprogteknologiske værktøjer i forhold til recall og precision. Det kan anbefales at udføre videre eksperimenter på større skalaer med en større tagmængde og mere brugerinvolvering i forhold til informationsbehov og relevansbedømmelser.
SprogDansk
Udgivelsesdato1 mar. 2011
Antal sider75
Udgivende institutionDet Informationsvidenskabelige Akademi - København

    Emneord

  • information retrieval, sprogteknologi, lyd, folksonomier, tagging