Från Blind Hönas arkiv

Amazon letar fram "osannolika fraser" i böcker

Amazon.com hittar på allt fler sätt att få oss att utforska bokrymden, och hitta fler böcker som vi inte visste att vi ville ha (för tidigare sätt, se Kornet-artikeln " Bra informationsarkitektur väcker upptäckarlusten).

Det här är en knappp månad gammalt eller så, men rätt kul.

amazon_sips.jpgFör ett antal böcker anger nu amazon så kallade "SIPs", vilket uttyds Statistically Improbable Phrases.

Amazon läser ju numera in och lagrar innehållet i böcker, så det kan sökas (t.ex. via amazons sökmotor A9). I varje inscannad bok söker man fram fraser som är mycket vanligare i just den boken, än i hela mängden av alla böcker. Dessa fraser är "statistiskt osannolika". Vi får alltså ett filter som i princip tar bort alla vanliga begrepp, men vaskar fram dem som är karaktäristiska för just den här boken - "nya" kombinationer av ord (och därmed förhoppningsvis nya eller originella tankar).

Boken "Love is the killer app" har till exempel två SIPs: "insert points" och "social currency".

Nu kommer det fina i kråksången: SIP-fraserna är i sin tur länkar, och visar vilka andra böcker som innehåller samma SIP. Så vi kan se att "social currency" också används (när detta skrivs) i ett tjugotal andra böcker - till exempel "When Old Technologies Were New: Thinking About Electric Communication in the Late Nineteenth Century", en bok jag inte kände till men snabbt blev intresserad av. (We've got blog är en annan bok där uttrycket används.)

Upgifterna om exakt hur matchning och sållning går till är inte så utförliga på amazons sajt, men principen är ju lätt att förstå. Och intressant.

Om man nu tillåts dra ut det här en bit kan man ju fundera på om antalet SIPs i en bok skulle kunna fungera som mått på bokens originalitet. "Love is the killer app" har bara två SIPs - "When Old Technologies Were New" har ett tjog. Å andra sidan kan många SIPs förstås lika gärna betyda att författaren har valt nya krångliga uttryck för sker det finns utmärkta ord för redan...

Men roligt är det: jag får direkt impulsen att kolla SIPs för Russel Hobans dystopiska efter kriget-roman "Riddley Walker", utan tvekan en av de mest originella böckerna som givits ut på engelska (läs mer i notisen "Efter atomkriget. Den har som sig bör en lång rad SIPs som ger en god bild av det speciella förvrängda (skrift)språk som Hoban skapade för sin bok, och dessutom klingar som renaste poesi:
"cud feal, yellerboy stoan, chard coal, wernt nothing, putcha putcha, divvy roof, roun the circel, stoan trees, wer thinking, yeller eyes, girt big thing, unner neath, some kynd, woal thing, ben jus, arga warga, you cud, blue smoak, owt strecht, broakin stoans, hard clof, littl kids, woal lot, aint ben, dogs wer..."
Uppdatering: Självklart har den gode Håkan Kjellerstrand hunnit före med en notis om SIPs redan under gårdagen! Note to self: kolla alltid hakank.blogg innan du skriver något om statistik och amazon ... :-)

PS: Det verkar också som amazon just i natt gjort en ändring av layouten på sina bosidor... de såg inte ut så här under gårdagen.


Permalänk |


  Avdelare mellan text och datering  
15 apr 2005

Kommentarer

Skriv din kommentar här:

Namn:


Mejl-adress:


URL:




Kommentarer:


Låt Blind Höna komma ihåg dina personuppgifter



  På kornet  |  Korn av sanning  |  Guldkorn  |  Blind höna  |  Skrot och korn  |  Väderkorn

 

 



Bloggtoppen.se