Søgemaskiner som Google eller Yahoo! , træk websider i deres søgeresultater ved hjælp af web- bots ( også nogle gange kaldet edderkopper eller webcrawlere ) , der er programmer , der scanner internettet og indeksere hjemmesider i en database . Web bots kan gøres ved hjælp fleste programmeringssprog , herunder C , Perl , Python, og PHP , som alle giver softwareingeniører til at skrive scripts , der udfører proceduremæssige opgaver , såsom web scanning og indeksering. Instruktioner
1
Åbn en almindelig tekst redigering program, som Notesblok , som er inkluderet med Microsoft Windows eller Mac OS Xs TextEdit , hvor du vil forfatteren Python web bot ansøgning.
< Br > 2.
Indled Python-script ved at inkludere følgende linjer kode og erstatte det eksempel URL'en med webadressen på det websted , du ønsker at scanne og navnet på den eksempeldatabase med den database, der skal lagre resultaterne: < br >
import urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3
Medtag følgende linjer kode til definere rækkefølgen af operationer at Web bot vil følge : Hej
def uniq ( seq ) : sæt = {} kortet ( set.__setitem__ Seq, []) tilbagevenden set.keys ()
< br > 4.
Anskaf webadresser i hjemmesidens struktur ved hjælp af følgende kodelinjer :
def geturls (URL): emner = [ ] request = urllib2.Request ( url) request.add.header ( 'Bruger ', ' Bot_name ;) ") content = urllib2.urlopen (anmodning). læse ( ) genstande = re.findall ( ' href =" http://. ? '" , indhold ) URL'er = [ ] afkast webadresser
5
Definer den database, web bot vil bruge og angive, hvilke oplysninger den skal opbevare for at fuldføre gøre Web bot : Hej
db = open ( db_name , 'a' ) allurls = uniq ( geturls ( enter_point ) )
6
Gem tekstdokument og uploade den til en server eller computer med en internetforbindelse , hvor du kan udføre scriptet , og begynde at scanne websider.