Skrabning og parsing er to nært beslægtede website data - mining praksis. Den mere generelle , parsing , henviser til at nedbryde data i sine bestanddele. Når din middle- school engelsk lærer bad dig om at diagram sætninger , var du parsing ord disse straffe for deres dele af talen . Skrabning mere specifikt refererer til parsing websider for bestemte typer af data , i dette tilfælde , adresser. Programmeringssproget Python og " BeautifulSoup " udvidelse tillader brugeren at skrabe og parse hjemmesider i et par linjer kode. Ting du skal
Python 2.6 eller højere
BeautifulSoup 3,2
Vis Flere Instruktioner
1
Installer BeautifulSoup ved at downloade den nyeste version fra mærkværdige software og untar /unzip filen. Åbn et terminalvindue og skriv følgende kommando: My- iMac: ~ mig $ python Downloads/BeautifulSoup-3.2.0/python setup.py installere
Dette fortæller Python tolk til at køre BeautifulSoup install script , der kan findes i BeautfulSoup mappe , hvilket er i mappen Downloads
2
Type Python ved prompten , tast retur og import BeautifulSoup : . My- iMac: ~ mig $ python >>> import BeautifulSoup
3
Kør følgende script til at åbne en webside og udskrive Universal Resource Locators ( web-adresser ), som du kan finde i en side : >>> import urllib2 >> ; > page = urllib2.urlopen ( " http://www.THE URL DU VIL at skrabe HERE" ) >>> suppe = BeautifulSoup (side ) >>> soup.findAll ( 'a ' ) >>> print soup.strip () >>> printThis script vil åbne en webside, parse html , søge efter tagget hvor webadresser er indlejret , fjerne tags og lade teksten.