• Susanne Nylander
Master Uddannelsen, Master Uddannelsen
Ud fra en hypotese om at automatisk emnekategorisering med fordel kan anvendes på Folketingets dokumenter, gennemføres en evaluering af statistisk kategorisering af § 20 spørgsmål i en taksonomi for Social- og Sundhedsudvalgene. Evalueringen gennemføres som en pilot med udgangspunkt i den systemorienterede tilgang til IR evaluering. Motivationen er at opstille anbefalinger for automatisk kategorisering på Folketingets hjemmeside. Perspektivet for undersøgelsen er holistisk, og undersøgelsesdesignet afspejler en sociokognitiv forståelse af det vidensorganiserende system. På baggrund af den statistiske kategoriserings metode og empiriske undersøgelser på området udvikles et undersøgelsesdesign, som anvender det vidensorganiserende system som kunstigt træningssæt, semi-automatisk frekvensanalyse og Support Vector Machine algoritmen til den statistiske kategorisering. Evalueringen sker i forhold til en manuel præklassifikation, og performance måles med precision og recall. Evalueringen identificerer fire afgørende faktorer for den statistiske kategoriserings effektivitet, men bekræfter som et hele hypotesen for undersøgelsen.
SprogDansk
Udgivelsesdato2010
Antal sider36
Udgivende institutionFolketingets Bibliotek

Emneord

  • statistisk kategorisering