Dansk forskning skal lære computeren at kende forskel på homonymer

Ord som ‘kode’ og ‘servere’ kan være en stor udfordring for søgemaskiner, som skal forsøge at kategorisere en tekst. Kode kan både være en kode til en lås eller blandt Version2-læsere et populært udsagnsord for at programmere. Tilsvarende kan servere både være dem, der står i datacenteret og handlingen at servere en kold øl.

Det er som regel let for et menneske at udlede betydningen af et såkaldt homonym ud fra den sammenhæng, det indgår i, men for software er det vanskeligere.

Et nyafsluttet ph.d.-projekt fved Center for Sprogteknologi ved Københavns Universitet har netop set nærmere på problemet med at få eksempelvis en søgemaskine til at skelne mellem betydningen af ord, der staves ens, ved at analysere sammenhængen.

»Det er jo den samme måde, vi mennesker lærer sproget på, altså ved at få forståelse af, hvad forskellige ord betyder i forskellige sammenhænge. At ordet glas i én sammen kan betyde den fysiske beholder, mens samme ord i en anden sammenhæng kan betyde indholdet, altså det at man fik tre glas her til aften,« udtaler ph.d. Héctor Martinez ifølge en pressemeddelelse.

Læs også: Sådan får danske Issuu serveren til at kende forskel på tilbudsaviser og erotik

Metoden til at få computersystemer til at forstå, hvilken betydning der er tale om, bygger på analyse af enorme tekstmængder med milliarder af ord, som bruges til at opstille en statistisk model, der kan finde den mest sandsynlige betydning af et ord.

I forbindelse med sit ph.d.-projekt har Héctor Martinez blandt andet arbejdet med tekster fra den danske mediedatabase Infomedia, hvor han specifikt skulle konstruere en liste over forskellige betydninger af navne.

Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>