| Hjem | Hardware | Netværk | Programmering | software | Fejlfinding | systemer | 
Programmering  
  • C /C + + Programming
  • Computer Programmeringssprog
  • Delphi programmering
  • Java programmering
  • JavaScript Programmering
  • PHP /MySQL programmering
  • Perl programmering
  • Python Programming
  • Ruby Programming
  • Visual Basics Programmering
  •  
    Computer Viden >> Programmering >> Computer Programmeringssprog >> Content
    Sådan oprettes en Web Spider
    En web spider er et edb-program , der henter en webside, og derefter følger alle de links på denne side, og downloads dem så godt. Web edderkopper bruges til at gemme hjemmesider for offline læsning, eller til opbevaring af websider i databaser, som skal anvendes af en søgemaskine. Oprettelse af en web spider er en udfordrende opgave , egnet til en college-niveau programmering klasse. Disse instruktioner antager at du har solid erfaring med programmering , men ingen viden om spider arkitektur. Trinene lægge en meget specifik arkitektur for at skrive en web spider på dit valgte sprog. Ting du skal en Web browser, der reagerer på programmatiske kommandoer
    Programmeringssprog med læse-skrive disk adgang og database funktioner
    Vis Flere Instruktioner
    1

    Initialiser din program med det oprindelige webside, du ønsker at downloade. Tilføj URL til denne side til en ny database tabel over webadresser.
    2

    Send en kommando til webbrowseren instruere den til at hente denne webside , og gemme den til en disk . Flyt databasen markøren fremad et skridt forbi den webadresse, du lige har downloadet , som nu vil pege på slutningen af ​​tabellen .
    3

    Læs websiden ind i programmet , og parse den til links til yderligere websider . Dette gøres typisk ved at søge efter tekststrengen "http://" og opfange teksten mellem denne streng og en afslutning karakter ( såsom " ", " . " Eller ">" ) . Tilføj disse links til URL- database tabellen , databasen pointer bør forblive på toppen af ​​denne nye liste
    4

    Test posterne i databasen tabellen til egenart og fjerne eventuelle webadresser, der forekommer mere end én gang. .
    5 p Hvis du ønsker at anvende en URL -filter (for eksempel for at forhindre downloading sider fra websteder på forskellige domæner ), gælder det nu for at URL database tabellen og fjern webadresser, du ikke ønsker at hente.
    6

    Opsæt en programmatisk løkke , så din edderkop vender tilbage til trin 2 ovenfor. Dette vil rekursivt hente alle de webadresser din edderkop støder . Fjernelse af dobbeltfunktioner URL'er sikrer, at edderkoppen ordentligt vil opsige , når den når den sidste unikke webadresse.

    Forrige :

    næste :
      Relaterede artikler
    ·PLC programmering Instruktioner 
    ·Sådan Split Matlab Jet Color Table til RGB 
    ·Hvordan man skriver Oracle SQL-kode , som vil skabe Med…
    ·Hvor stor er en Byte 
    ·Begynder SQL Træning 
    ·Sådan Load Files I et PowerShell Session 
    ·Sådan bruges Xcopy at klone et Disk 
    ·Antal elementer på Matlab 
    ·Sådan oprettes en ResultSet Fra Execute på en Linked …
    ·Office Communicator protokoller 
      Anbefalede Artikler
    ·Sådan tilføjes Lines til en Combo Box 
    ·Sådan Afsætte Pointers 
    ·Sådan Erstat symboler med Regex 
    ·Sådan tilføjes rækker i JTable 
    ·Sådan kontrolleres , om Input er en streng i Java 
    ·Sådan bruges en Roter Gennem Carry Bit Shift 
    ·Sådan Indsæt en VBA tekstboks 
    ·Sådan gendannes spool filer 
    ·Sådan Gør Loops i Python 
    ·Hvordan man laver en ugentlig Payroll om Visual Basic 
    Copyright © Computer Viden http://www.computerdk.com