En web spider er et edb-program , der henter en webside, og derefter følger alle de links på denne side, og downloads dem så godt. Web edderkopper bruges til at gemme hjemmesider for offline læsning, eller til opbevaring af websider i databaser, som skal anvendes af en søgemaskine. Oprettelse af en web spider er en udfordrende opgave , egnet til en college-niveau programmering klasse. Disse instruktioner antager at du har solid erfaring med programmering , men ingen viden om spider arkitektur. Trinene lægge en meget specifik arkitektur for at skrive en web spider på dit valgte sprog. Ting du skal en Web browser, der reagerer på programmatiske kommandoer
Programmeringssprog med læse-skrive disk adgang og database funktioner
Vis Flere Instruktioner
1
Initialiser din program med det oprindelige webside, du ønsker at downloade. Tilføj URL til denne side til en ny database tabel over webadresser.
2
Send en kommando til webbrowseren instruere den til at hente denne webside , og gemme den til en disk . Flyt databasen markøren fremad et skridt forbi den webadresse, du lige har downloadet , som nu vil pege på slutningen af tabellen .
3
Læs websiden ind i programmet , og parse den til links til yderligere websider . Dette gøres typisk ved at søge efter tekststrengen "http://" og opfange teksten mellem denne streng og en afslutning karakter ( såsom " ", " . " Eller ">" ) . Tilføj disse links til URL- database tabellen , databasen pointer bør forblive på toppen af denne nye liste
4
Test posterne i databasen tabellen til egenart og fjerne eventuelle webadresser, der forekommer mere end én gang. .
5 p Hvis du ønsker at anvende en URL -filter (for eksempel for at forhindre downloading sider fra websteder på forskellige domæner ), gælder det nu for at URL database tabellen og fjern webadresser, du ikke ønsker at hente.
6
Opsæt en programmatisk løkke , så din edderkop vender tilbage til trin 2 ovenfor. Dette vil rekursivt hente alle de webadresser din edderkop støder . Fjernelse af dobbeltfunktioner URL'er sikrer, at edderkoppen ordentligt vil opsige , når den når den sidste unikke webadresse.