Dansk datalog får 14 millioner EU-kroner til forskning i søgninger


Rasmus Pagh, professor på IT-Universitetet

En Google-søgning er efterhånden blevet ret kvik og kan gennemskue, hvad du mener med din måske ret uklare søgning.

Men der er stadig store begrænsninger, når en søgealgoritme skal prøve at finde data, der minder om noget andet – for eksempel finde websider om samme emne eller billeder af samme motiv.

Det skal et nyt forskningsprojekt nu rette op på, med den danske professor Rasmus Pagh fra IT-Universitetet i spidsen. Han modtog for nyligt 14,3 millioner kroner fra EU’s forskningsråd ERC, som én ud af bare seks forskere i Danmark, der fik støtte til et projekt.

I de næste fem år skal Rasmus Pagh og hans hjælpere derfor forske til bunds i, hvordan man kan forbedre disse såkaldte bløde søgninger, så man også teoretisk kan bevise, at metoden virker.

»Med de nuværende metoder er teorien ikke på plads. Det står ikke klart, hvordan det virker, eller hvornår det virker. Så mange metoder til bløde søgninger har en svaghed. Enten fungerer de ikke med store datamængder, eller også har man ingen garantier for, at søgningen faktisk virker,« siger Rasmus Pagh til Version2.

Udfordringen er blandt andet at organisere data på en ny måde, der tager hensyn til, at søgningerne ikke er så firkantede. Den unge professor sammenligner det med en god gammeldags telefonbog, som alle kan finde ud af at slå op i, så længe de har et navn at lede efter.

»Telefonbogen bruger en algoritmisk metode, som alle har lært i skolen, nemlig alfabetisk sortering. Hvis du slår op, der hvor navnet burde stå, kan du med sikkerhed se, om navnet er med eller ej. Men det kan du ikke, hvis du skal lede efter et navn, som indeholder ø og z, og personen måske bor i Malmø. Det er en stor udfordring at sortere data, så man kan lave den slags søgninger, uden at gøre noget naivt, nemlig at gå alle data igennem,« siger Rasmus Pagh.

High risk og high gain

Forskningsprojektet skal – om alt går vel – lægge det teoretiske fundament på området, så det er ikke fordi, forskerne har en metode klar, de bare skal have finpudset.

»Vi har nogle ideer om, hvordan man kan komme videre, men det er et område, hvor der er langt igen. Det er et ’high risk, high gain’-projekt, hvor der er stor risiko for, at vi ikke kan nå vores mål på fem år. Men jeg tror, der er en god chance, og effekten vil være meget stor, hvis vi gør,« siger Rasmus Pagh, der har en baggrund som datalog.

Bløde søgninger i store datamængder er ikke noget nyt, og som forskningsfelt begyndte det for alvor, da søgemaskinen Altavista, som var meget populær i slutningen af 1990’erne, fik flere og flere data at forholde sig til.

»Altavista brugte bløde søgninger for at undgå at returnere resultater, der lignede hinanden for meget. Men da der kom flere websider til, gik den ikke længere. Med ti gange flere websider får man 100 gange flere par af websider. De måtte sortere deres database, så der kun var én udgave med. Det blev starten på hele det her felt – men det var en relativ let opgave, fordi de næsten identiske sider lignede hinanden så meget,« forklarer Rasmus Pagh.

Skal tæt på forbandelsen som Indiana Jones

Skal en algoritme kunne finde frem til sider, der minder om hinanden, men kun har halvdelen af ordene til fælles, er opgaven langt mere kompliceret. Og kompleksiteten stiger kun, når man ikke har tekst som datagrundlag, men for eksempel billeder, der skal sammenlignes.

Netop problemet med at søge i store mængder data er det, som Rasmus Pagh frygter mest under de næste fem års forskning.

»Man taler om ’the curse of dimensionality’, altså forbandelsen ved høj dimension. Hvis man for eksempel skal finde personer, der ligner hinanden, men hvor de kan ligne hinanden på mange forskellige måder, giver det en eksplosion af kompleksitet,« forklarer professoren.

Og undervejs i forskningsprojektet handler det om at komme så tæt på den forbandelse som muligt.

»Vi vil ligesom Indiana Jones prøve at gå tæt på forbandelsen, uden at blive ramt af den. Men ingen ved præcist, hvor langt den strækker sig. Vi har nogle måder, vi tror vi kan snige os forbi den på, men jeg frygter, at den er mere vidtstrakt, end vi tror,« siger Rasmus Pagh med en filmreference.

En anden udfordring, forskerne vil stå over for, er at få fordelt søgeopgaven ud på mange computere. Det bliver nemlig måske nødvendigt med massiv maskinkraft fra for eksempel Amazons sky, hvis bløde søgninger med store datamængder skal lykkes.

»Det er oplagt at se på, om man kan hakke opgaven op i flere dele. Men hvis man er mange kokke, er faren, at man bruger al tiden på at snakke, i stedet for at lave mad. Så vi skal få tusind kokke til at skrælle hver sin gulerod, men det er ofte lettere sagt end gjort, når der er mange afhængigheder mellem det, der sker. Det er noget af det, vi skal se på i projektet: Hvor lidt koordinering kan man nøjes med, hvis computere skal hjælpes ad med at løse problemet? Det bliver hurtigt en flaskehals,« forklarer Rasmus Pagh.

Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>