Från Blind Hönas arkiv

Sökning är svårt, till och med för Google

  • Du söker på "ships" (båtar) och får träffar på sidor där det står "this product ships in two weeks..."
  • Du söker efter info om staden York i England och drunknar i träffar om "New York".
  • Du söker på "Wallenberg", men har inget emot att få träffar också på "Wallenbergs". Men om du söker på "window" för att du vill sätta in ett fönster är du inte särskilt hjälpt om sökmotorn ger dig alla träffar på "Windows"...
Hur bra sökmotorer som Google än är, har de svårt att lösa sådana problem.

Thorsten Brants från Google har prövat om metoder för så kallad Natural Language Processing (NLP) kan förbättra resultat vid informationssökningar. På ett seminarium i Stockholm igår berättade han om en del av försöken.

Natural Language Processing är, grovt uttryckt, en uppsättning tekniker för att på maskinell väg få ut mer av meningen med och strukturen i en text.

Till exempel kan man låta maskinen försöka bestämma ordklasser eller satsdelar i en text. Om sökmotorns index vet att "ships" är ett substantiv i texten "many viking ships" men ett verb i "this product ships..." skulle man kanske kunna öka träffsäkerheten?

Eller kanske sökmaskinen ska indexera par av ord i stället? Då skulle den kunna skilja förekomster av "bara" gamla York från alla "New York".

Man har försökt applicera ett antal sådana tekniker på sökning. Men som regel ger de mycket måttliga förbättringar i precision. Däremot kostar de ofta mycket (i datakraft eller framför allt i lagringsutrymme) att använda.

Någon föreslog att Google skulle kunna låta en ange om man sökte på "can" som substantiv (burk) men inte "can" som verb (kan). Eller visa en sida som ber sökaren förtydliga: menar du på det eller det? Planerar Google några sådana lösningar?

Thorsten Brants log bara åt frågorna om konkreta projekt inom Google, och rekommenderade den som hade ett förslag på tjänst att skriva till produktchefen. Fast ytterligare ett problem med att skilja på olika "can" och "can" är att man måste veta vilket språk det är fråga om. Engelska can? Eller turkiska? Katalanska?

Dessvärre skapar också försök att lösa något visst problem ofta sämre resultat för andra fall.

En sökmotor antar till exempel att om du skriver in två ord och båda har stor bokstav - till exempel "Povel Ramel" - att det är fråga om ett egennamn. Den söker då automatiskt på hela frasen, så du får varken träffar på andra Povlar eller andra Ramlar. Det verkar vettigt, tills sökaren söker på "Nato Kosovo" - och inte får träff på några dokument trots att det finns många som innehåller båda orden (men de står inte i precis efter varandra).

En del av de problem som användarna upplever kan lösas på andra sätt. Till exempel har Google har ett formulär för "avancerad sökning", där man kan ange varianter som "sök på alla dessa ord, den exakta frasen, något av dessa ord", eller "utan dessa ord".

Jag frågade Thorsten om han kunde berätta hur stor andel av sökarna som använde det "anavcerade" formuläret (det borde inte vara hemligt). Han visste inte, men trodde att det säkert var "a very small fraction". Han kunde inte heller säga om andelen ökade (man kanske kunde gissa att användarna blir duktigare och duktigare).

Nej, sökning fortsätter att vara svårt. I alla fall om man tror att maskinerna på något mer automatiskt sätt ska förstå vad vi är ute efter.

I och för sig är "sökning" ett mycket brett begrepp. Det kanske finns vissa speciella typer av sökning, där NLP-tekniker kan visa sig nyttiga, menade Thorsten.

Men fortfarande gäller nog den slutsats som Sue Dumais la fram för ett par år sedan:

“The improvements in performance gained through usable interface design are 3 or 4 times larger than those gained through designing better search algorithms.”
(Sue Dumais, Microsoft Invited presentation to IU’s Computer Science Horizon Day, March 2000).


Permalänk | Andra som länkat hit (0)


  Avdelare mellan text och datering  
18 nov 2003

Kommentarer

Skriv din kommentar här:

Namn:


Mejl-adress:


URL:




Kommentarer:


Låt Blind Höna komma ihåg dina personuppgifter



  På kornet  |  Korn av sanning  |  Guldkorn  |  Blind höna  |  Skrot och korn  |  Väderkorn

 

 



Bloggtoppen.se