Søgemaskiner

 

Hvad er en søgemaskine?

Søgemaskiner spiller en stor rolle i den moderne verden. De hjælper med at skaffe informationer, finde rutevejledninger, shoppe på nettet og meget mere.

Definitionen på en søgemaskine er et program der hjælper os med at finde, hvad vi leder efter i et organiseret system. Dette kan både være en søgemaskine der finder filer og data på en computer, eller en søgemaskine der finder hjemmesider på internettet. Sidstnævnte kaldes en websøgemaskine, og det er den slags, som denne artikel vil omhandle.

Med en websøgemaskine kan man foretage søgninger efter hjemmesider på World Wide Web (bemærk, at World Wide Web og internettet ikke er det samme – World Wide Web er et hypertekst-system der formidles via internettet). Blandt de mest populære søgemaskiner er Google og Bing, som de fleste computerbrugere kender til. Google sidder i dag på 86,9% af den samlede markedsandel for søgemaskiner i verden og er derfor uden tvivl den mest populære søgemaskine.

I dag findes der næsten 2 milliarder tilgængelige hjemmesider på internettet, men blot 200 millioner af dem er aktive. Der er så mange hjemmesider, at det vil være umuligt for det enkelte menneske at kende hver eneste side og hvad den indeholder. Derfor er søgemaskiner et nyttigt værktøj når man vil navigere rundt mellem dem.

Når du åbner din browser for at finde noget specifikt på nettet, så kan du søge efter hjemmesidens URL i browserens søgefelt, f.eks. https://www.facebook.com/ eller https://www.wikipedia.org/. Hvis du derimod ikke ved præcist, hvilken hjemmeside du skal besøge eller gerne vil forenkle søgningsprocessen, så kan du bruge søgemaskinen til at søge efter vilkårlige ord eller sætninger om det du leder efter, f.eks. “kat”, “facebook” eller “hvad er kulhydrater”. Søgemaskinen vil fremskaffe en masse resultater over de hjemmesider, billeder, videoer og filer på internettet, hvis indhold passer bedst til søgeordet, og præsentere dem for brugeren. Disse søgeresultater er præsenteret i en lang liste, som er indekseret på den måde at de resultater, som er mest relevante i forhold til søgefrasen, bliver vist øverst, mens mindre relevante resultater bliver vist længere nede på listen.

Markedsandel søgemaskiner 2020
Markedsandel for søgemaskiner på verdensplan i juni 2020

Søgemaskinens formål er derfor at samle indhold på nettet, organisere indholdet i systemer, og hente det rigtige indhold ned, som bliver søgt efter. For at gøre dette, bruger søgemaskinen en algoritme. Algoritmens evne til at samle, organisere og vise indhold er meget afgørende for, hvor effektiv en søgemaskine er.

Søgemaskiner er så populære, at mange mennesker bruger dem som startside, dvs. den side der bliver åbnet ved opstart af browseren. Indhold på nettet, som ikke er tilgængeligt gennem almindelige søgemaskiner bliver beskrevet som deep web (det dybe net). Hvis du ønsker at bruge end søgemaskine til at surfe rundt på deep web, så kan du bl.a. bruge Torch eller Ahmia. For at bruge disse skal du dog også downloade en Tor browser.

 

Historien bag

I begyndelsen af 1990’erne, før søgemaskiner blev introduceret, brugte man i stedet hjemmesider med kataloger over andre forskellige hjemmesider. Disse kataloger blev opdelt i relevante kategorier som f.eks. “Kunst”, “Elektronik” og “Sundhed”, som hver fremviste en masse forskellige links til hjemmesider, hvis indhold afspejlede kategorien. På den måde kunne man finde den hjemmeside man ledte efter ved at kigge i en specifik kategori. Den mest populære af denne slags hjemmesider hed Jerry and David’s Guide to the World Wide Web, som sidenhen er blevet en rigtig søgemaskine og omdøbt til Yahoo!.

I takt med at der kom flere og flere hjemmesider på internettet, blev det alt for uoverskueligt at opdele hjemmesiderne i kategorier. Derfor blev rigtige søgemaskiner udviklet og blandt de tidligste eksempler er JumpStation fra 1993 og WebCrawler fra 1994 (sidstnævnte eksisterer stadig i dag). De tidligere søgemaskiners algoritmer som afgjorde, hvilke resultater der blev vist først, var meget simple. Oftest rangerede de blot søgeresultaterne efter de hjemmesider, hvor søgeordet blev benyttet flest gange. Hvis man søgte på “hund”, så ville den hjemmeside, hvor der står “hund” på flest gange, blive vist som det første resultat. Dette system kunne hjemmesideudviklere udnytte, ved at skrive populære søgeord gentagne gange på deres hjemmeside, og derfor var det langt fra et optimalt system.

Google, som i dag er den mest populære søgemaskine, blev lanceret i 1998 af Larry Page og Sergey Brin. Googles algoritme, der hedder PageRank, som bestemte hvordan søgeresultaterne blev rangordnet, var meget banebrydende og derfor skilte denne søgemaskine sig ud fra de andre på daværende tidspunkt. Google rangerede søgeresultater alt efter sidens popularitet, som blev bestemt af en algoritme der kalkulerede det ud fra, hvor mange andre sider der linkede til den (backlinks), og omvendt, hvor mange sider den linkede til. Sider som er meget informative og nyttige bliver derfor linket til fra andre hjemmesider, hvilket betyder at de kommer op i toppen af søgeresultaterne. Samtidig skilte Google sig også ud ved ikke bare at indeksere hvert ord på hjemmesiderne, men også kombinationer af ord (f.eks. forfattere og titlerne på deres bøger).

I nyere tid er der kommet meget fokus på anonymitet når man søger på nettet. Dette er ikke noget de store søgemaskiner som Google og Bing lægger meget vægt på. Søgemaskinen DuckDuckGo lægger derimod meget fokus på ikke at gemme brugerens oplysninger når de surfer rundt på nettet, og derfor har de fundet en plads på markedet for søgemaskiner.

 

Hvordan virker søgemaskiner?

Nutildags holder søgemaskiner sig hele tiden løbende opdateret. Derfor kan man allerede finde sider i søgeresultaterne, som kun er få minutter gamle. For at holde søgeresultaterne løbende opdateret med nye sider hele tiden gennemgår de tre specifikke processer:

  1. Webcrawling: Et program kravler rundt på internettet for at indsamle data til søgemaskinen.
  2. Indeksering: Søgemaskinen opbevarer og organiserer den fundne data.
  3. Søgeresultater: Brugeren bliver forsynet med de mest relevante søgeresultater.

Disse processer vil blive gennemgået i dybden i dette afsnit.

 

Webcrawling

Det første skridt i processen er webcrawling. En webcrawler (eller spider, som på dansk er en edderkop) er et softwareprogram, som søgemaskinerne benytter til at indsamle nyt og opdateret data på internettet. Denne data får den fra bl.a. hjemmesider, billeder, videoer og filer og den inkluderer titler, tekster, HTML-filer, CSS-filer, JavaScript-filer, metadata og meget mere. Alle sider på internettet er koblet til hinanden via hyperlinks – de links som du kan klikke på, som fører dig til en anden side. Webcrawleren benytter disse links til at hoppe fra en hjemmeside og videre til den næste.

For hver side som webcrawleren besøger findes der en standardfil, kaldet robots.txt, som er henvendt til den. Denne fil indeholder oplysninger om, hvad for noget data der skal hentes fra siden. Når webcrawleren har hentet alt det relevante data, så hopper den videre til den næste side gennem de hyperlinks der er på siden. På den måde vil processen tage form som et netværk der spreder til forskellige hjemmesider. Alt det data som webcrawleren samler bliver sendt tilbage til søgemaskinen for at indekseres.

 

Indeksering

Det næste skridt i processen er indeksering af den indsamlede data fra webcrawleren. Her bliver dataen opbevaret, kategoriseret og organiseret i en stor database, hvor der vurderes, hvad hjemmesiderne indeholder og hvilke hjemmesider der er gode nok til at fremstå i søgeresultaterne.

Hvis en hjemmeside ikke lever op til bestemte standarder sat af søgemaskinen, så bliver de filtreret fra i denne process. Formålet med indekseringen er at optimere hastigheden for at finde relevante hjemmesider. Uden indekseringen ville søgemaskinen blive nødt til at gennemgå hvert enkel side på nettet for at finde det mest relevante indhold.

 

Rangering i søgeresultater

I den sidste del af processen bliver alle siderne rangeret af søgemaskinen, hvor den kigger på hvor relevant indholdet på siden er i forhold til det der bliver søgt efter. Bestemte søgeord og sætninger bliver associeret med relevante hjemmesider – jo mere relevant, jo højere oppe vil hjemmesiden forekomme i søgeresultaterne.

Algoritmen, som bestemmer hvor relevant søgningen er, er meget kompliceret og baserer relevansen på mange forskellige faktorer. Du kan læse om hvilke faktorer Googles søgemaskine kigger efter ved at klikke her. Disse algoritmer bliver ofte opdateret for at forbedre søgekvaliteten og mange hjemmesider opdaterer ligeledes deres indhold, så det passer bedst muligt til algoritmerne så de rangerer højere i søgeresultaterne.

Et af de mest afgørende faktorer for, hvor højt hjemmesiden rangerer er, hvor mange backlinks den har, dvs. hvor mange hjemmesider der linker til den. Man kan nemlig kigge på det således, at hvis der er mange som linker til en hjemmeside, så må det være et tegn på, at indholdet er godt, og derfor kommer hjemmesiden højere op i søgeresultaterne. Derudover kigger søgemaskinerne også på, hvor hurtig hjemmesiden er, hvor mange relevante ord der er, hjemmesidens brugervenlighed, hvor ofte hjemmesiden bliver opdateret og meget mere.

 

Hvilke søgemaskiner findes der?

Stort set lige siden Google blev lanceret i 1998 har de domineret det globale marked. I dag sidder Google på 86,9 % af det samlede marked for søgemaskiner, mens markedsfølgerne, Bing og Yahoo! kun sidder på hhv. 6,43 % og 2,84 % af markedet. Den kinesisksprogede søgemaskine, Baidu, sidder på en markedsandel på 0,68 %, hvilket skyldes, at Google er blokeret i Kina, så derfor er Baidu den dominerende søgemaskine i det land. En relativ ny søgemaskine, DuckDuckGo, har endnu ikke opnået en væsentlig markedsandel på verdensplan, men er begyndt at komme meget frem i USA, på grund af deres høje fokus på anonymitet.

De fem ovennævnte søgemaskiner er ikke de eneste på markedet, men de er de mest relevante. Derfor vil de blive gennemgået her.

 

Google

Google blev skabt i 1998 og er i dag verdens mest populære søgemaskine på internettet – derudover er der også verdens mest populære hjemmeside. I starten blev søgemaskinen kaldt BackRub, men skiftede sidenhen navn til Google, som er navngivet efter en stavefejl af ordet “googol” (Nummeret 1 efterfulgt af 100 nuller).

Googles forretningsaktiviteter spænder i dag langt ud over bare deres søgemaskiner, og de tilbyder en bred række af IT- og softwareydelser. Udover selve søgemaskinen er Google også ejer af YouTube, Android, Google Earth, Google Chrome, Gmail, Google Translate og mange flere.

Google søgemaskiner startside
Googles startside

Googles succes er især takket være en effektiv søgealgoritme, som baserer søgemaskinens søgeresultater på hjemmesidernes backlinks.

 

Bing

Bing, som er ejet af Microsoft, ligger på andenpladsen over mest brugte søgemaskiner på verdensplan. Bing blev lanceret i 2009, og hed dengang MSN Search, men har sidenhen skiftet navn til Bing. Selvom Bing har en lille markedsandel på verdensplan, så har de opnået en betydelig success i USA på trods af, at markedsandelen stadig er meget lille, sammenlignet med Google.

Bing søgemaskiner startside
Bings startside

Bing tilbyder ikke nogle bemærkelsesværdige funktioner, som Google ikke allerede har, men søgemaskinen er det bedste bud på et alternativ, hvis man vil bruge noget andet end Google.

 

Yahoo!

Yahoo! blev lanceret i 1996 og er en af de første populære søgemaskiner nogensinde. Siden begyndelsen af 00’erne er markedsandelen for Yahoo! langsomt faldet og i dag ligger de på en tredjeplads efter Google og Bing.

Pga. dårligt annoncesalg eksisterer den danske version af Yahoo! ikke længere, så brugere fra Danmark bliver videreført til den internationale side. I 2017 blev størstedelen af virksomheden opkøbt af Verizon Communications.

Yahoo! søgemaskine startside
Yahoos startside

Til forskel for Google og Bing, så er hjemmesiden for Yahoo! mere interaktiv og brugerdefineret og den tilbyder bl.a. en oversigt over nyheder, vejr, sportsresultater og meget mere, som du kan se på ovenstående billede

 

Baidu

Baidu er en kinesisk søgemaskine som blev lanceret i 2000. Den er i dag den fjerde største søgemaskine i verden, hvilket hovedsageligt er pga. at Google er blokeret i Kina, hvilket betyder at befolkningen i stedet bruger Baidu. I andre lande som f.eks. Danmark er Baidu ikke særlig brugbar, da der kun er en kinesisk version af søgemaskinen.

Baidu søgemaskine startside
Baidus startside

DuckDuckGo

DuckDuckGo er en søgemaskine der blev lanceret i 2008, men som endnu ikke har en væsentlig markedsandel. Siden lægger især vægt på den individuelle brugers privatliv og derfor kan den klart anbefales, hvis man ønsker mere anonymitet når man surfer rundt på nettet.

Andre søgemaskiner, som Google og Bing, ønsker ikke at prioritere anonymisering i ligeså høj grad, da de hellere vil bruge personens oplysninger til at målrette deres søgeresultater og annoncer. Søgemaskinen tilbyder en privat søgning, hvor cookies og søgehistorik ikke bliver gemt på din computer og hvor siderne er krypterede.

DuckDuckGo søgemaskiner startside
DuckDuckGos forside

DuckDuckGo er blandt de hurtigst voksende søgemaskiner i dag.

 

Skriv et svar