Semalt Islamabad-ekspert - Hvad du skal vide om en webcrawler

En søgemaskincrawler er en automatiseret applikation, script eller program, der går over World Wide Web på en programmeret måde til at give opdaterede oplysninger til en bestemt søgemaskine. Har du nogensinde undret dig over, hvorfor du får forskellige sæt resultater, hver gang du skriver de samme nøgleord på Bing eller Google? Det skyldes, at websider uploades hvert minut. Og når de uploades, løber webcrawlere over de nye websider.

Michael Brown, en førende ekspert fra Semalt , fortæller, at webcrawlere, også kendt som automatiske indeksere og webspiders, arbejder på forskellige algoritmer til forskellige søgemaskiner. Processen med webcrawling begynder med identificeringen af nye webadresser, der skal besøges, enten fordi de netop er blevet uploadet, eller fordi nogle af deres websider har nyt indhold. Disse identificerede URL'er er kendt som frø i søgemaskinens udtryk.

Disse webadresser bliver til sidst besøgt og genbesøgt afhængigt af hvor ofte nyt indhold uploades til dem og politikkerne, der styrer edderkopperne. Under besøget identificeres alle hyperlinks på hver af websiderne og tilføjes til listen. På dette tidspunkt er det vigtigt at tydeligt sige, at forskellige søgemaskiner bruger forskellige algoritmer og politikker. Dette er grunden til, at der vil være forskelle fra Google-resultaterne og Bing-resultaterne for de samme søgeord, selvom der også vil være mange ligheder.

Webcrawlere udfører enorme job med at holde søgemaskiner opdaterede. Faktisk er deres job meget vanskelig på grund af tre grunde nedenfor.

1. Mængden af websider på internettet på hvert givet tidspunkt. Du ved, at der er flere millioner sider på nettet, og flere lanceres hver dag. Jo mere mængden af webstedet på nettet er, desto sværere er det for crawlere at være ajour.

2. Det tempo, hvorpå websteder lanceres. Har du nogen idé om, hvor mange nye websteder der lanceres hver dag?

3. Frekvensen for ændring af indholdet, selv på eksisterende websteder og tilføjelsen af dynamiske sider.

Dette er de tre spørgsmål, der gør det vanskeligt for web-edderkopper at være ajour. I stedet for at gennemgå websteder på først til mølle-basis, prioriterer mange webspiders websider og hyperlinks. Prioriteringen er baseret på kun fire generelle søgemaskine crawler-politikker.

1. Udvælgelsespolitikken bruges til at vælge, hvilke sider der først downloades til gennemsøgning.

2. Politikens politik for genbesøg bruges til at bestemme, hvornår og hvor ofte websider revideres for mulige ændringer.

3. Parallelliseringspolitikken bruges til at koordinere, hvordan crawlere distribueres for hurtig dækning af alle frøene.

4. Høflighedspolitikken bruges til at bestemme, hvordan URL'er gennemgås for at undgå overbelastning af websteder.

For hurtig og nøjagtig dækning af frø skal crawlere have en god gennemsøgningsteknik, der tillader prioritering og indsnævring af websider, og de skal også have meget optimeret arkitektur. Disse to vil gøre det lettere for dem at gennemgå og downloade hundreder af millioner af websider på få uger.

I en ideel situation trækkes hver webside fra World Wide Web og føres gennem en flertrådet downloader, hvorefter websiderne eller URL'erne står i kø, før de sendes gennem en dedikeret planlægning til prioritering. De prioriterede webadresser tages gennem multi-threaded downloader igen, så deres metadata og tekst gemmes til korrekt gennemgang.

I øjeblikket er der flere søgemaskinspiders eller crawlere. Den, der bruges af Google, er Google Crawler. Uden webspiders giver resultatsiderne i søgemaskinerne enten nulresultater eller forældet indhold, da nye websider aldrig ville blive vist på listen. Der vil faktisk ikke være noget som onlineforskning.

mass gmail