Sigfrid
Lundberg´s
Stuff

Om sökmaskiner och spindlar

Sigfrid Lundberg's Stuff 2015-05-17

Bookmark and Share

L1010913_v1
L1010913_v1 by Sigfrid Lundberg, on Flickr

Ett engelskt begrepp för indexering av Internet är Spidering. Roboten liknades vid en spindel i nätet.

År 1995 är ett märkesår för mig. Det är då jag bestämmer mig för att byta karriär till Internet och programmering. Jag gick från akademisk forskning till Lunds universitetsbiblioteks forsknings- och utvecklingsavdelning som kallade sig NetLab. Mitt specialområde blev snabbt metadata, sökmaskiner och Internethöstning.

Vid den tidpunkten kunde man inte söka på "ål AND öl" i Lycos eller Webcrawler, som var de enda sökmaskinerna där ute. Europeiska bokstäver fungerade helt enkelt inte i de Nordamerikanskt inskränkta sökmaskinerna. l: too short for searching

1996 släppte vi en public service sökrobot. NWI -- En nordisk söktjänst för World Wide Web (läs vår press release från det året).

Vi beräknar att den svensk WWW omfattar nästan 600 000 dokument. I skrivande stund (den 9 maj 1996) innehåller vår svenska databas 427 901 "länkar", av vilka 268 170 är indexerade, dvs vi vet vad nästan hälften av alla WWW-sidor i Sverige handlar om och känner till nästan tre fjärdedelar av dem. Antalet kända servrar är 4 387. NWIs robot arbetar för närvarande kontinuerligt med att kartlägga svensk WWW, för att hinna bli färdig innan den färdiga tjänsten skall presenteras senare i sommar. Roboten kopierar dokument över nätverket, läser igenom dem och söker upp och sparar nyckelinformation i texten. Programmet klarar i dag av att hantera ungefär 15 000 dokument per dygn. Siffran är dock normalt lägre på grund av väntetider på nätet, maskinbelasting och dylikt.

Jag misstänker att jag grovt underskattade den svenska webbens storlek, kanske med en faktor två, men nog inte en faktor tio.

Det blev dock inte NWI som blev först med att klara av europeiska tecken, utan Digital Equipment's sökmaskin AltaVista som kom bara några veckor före vår. Vi var dock nästan två år före Google. Under de två åren hade vi åtminstone till att börja ett visst försprång genom att vi inderexade lokala servrar djupare än just AltaVista.

Ett intressant sammanträffande. Anders Ardö och jag själv publicerade våra erfarenheter i ett paper i 7th International Worldwide Web Conference: A regional distributed WWW search and indexing service.

Vid samma konferens publicerar Sergey Brin och Lawrence Page The Anatomy of a Large-Scale Hypertextual Web Search Engine.

Det är enda gången jag var i samma volym som Google. I efterhand känns det som ödets ironi. Vi slutade med web indexing eftersom vi inte hade varken hade budget för fler hårddiskar eller kunde undvara personal för mer centrala uppgifter för biblioteket. Vi fortsatte några projekt ytterligare en tid, Safari och Studera.nu för högskoleverket.

Vad vi kanske inte förstod förrän efteråt var att vi hade testat idén att driva reklamfri Internetsökning som public service i regi av ett konsortium av bibliotek. Det föreföll vara logiskt. Biblioteken skall förse medborgarna med information. I praktiken fanns det ingen bärande affärsmodell.

blog comments powered by Disqus

Home

Subscribe to Stuff from Sigfrid LundbergSubscribe to my stuff
Subscribe to Stuff from Sigfrid LundbergSubscribe to discussion feed

stuff by category || year

NB

My name is Sigfrid Lundberg. The stuff I publish here may, or may not, be of interest for anyone else.

On this site there is material on photography, music, literature and other stuff I enjoy in life. However, most of it is related to my profession as an Internet programmer and software developer within the area of digital libraries at the Royal Library, Copenhagen (Denmark) and, before that, Lund university (Sweden).

The content here does not reflect the views of my past or present employers

Creative Commons License
This entry (Om sökmaskiner och spindlar) within Sigfrid Lundberg's Stuff, by Sigfrid Lundberg is licensed under a Creative Commons Attribution-ShareAlike 3.0 Unported License.