programmeringssproget Python kan understøtte HTML 5 web sites benytter bibliotekets Html5lib '. Dette bibliotek tillader dig at skrive Python scripts, fortolkningsfejl HTML 5 sider ved hjælp af en træstruktur . Træstrukturer er hierarkiske visninger af webside elementer . Adgang webside elementer opnås ved hjælp af et træ rollator . Træet walker " gåture " langs tilslutninger af træet noder, og kan krydse hele træet . Du kan bruge Python med " Html5lib 'for at åbne , se og udskrive en HTML 5 web site. Ting du skal
Python 3.2 programmeringssprog med Html5lib modul
Vis Flere Instruktioner
1
Åbn klar tekst editor i Programmer ( eller applikationer til Macintosh) i Python bibliotek. En tom kildekode filen åbnes
2
Importer " Html5lib "-modulet ved at skrive følgende udsagn i toppen af kildekoden fil: .
Import html5lib
< p > fra html5lib import treebuilders , treewalkers , serializer
import urllib2
3
Opret en ny HTML 5 parser , som du vil bruge til at læse en HTML hjemmeside. At gøre et nyt parser ved at skrive følgende:
parser = html5lib.HTMLParser ()
4
Åbn en hjemmeside ved at passere sit navn i urllib2.urlopen funktion. For eksempel, hvis du ønsker at åbne " www.website_adddress.com , " skriver følgende: .
URL = urllib2.urlopen ( " http://www.website_address.com " ) read () < br >
5
Pass hjemmesiden i HTML 5 parser til at modtage et træ repræsentation. Gem denne repræsentation i en variabel med navnet " træ" ved at skrive følgende erklæring : Hej
tree = parser.parse (URL)
6
Opret et træ walker som dette : Hej
treeWalker = treewalkers.getTreeWalker ( " Dom" )
7
Gå gennem træet ved hjælp af træ rollator . Træet rollator vil returnere en strøm af oplysninger, som den opdager i HTML 5-webstedet . At gå gennem træet, skriver følgende : Hej
stream = treeWalker ( træ)
8
Serialisere åen , så du nemt kan sende det til konsollen. Du kan serialisere åen ved hjælp af følgende to udsagn :
serielle = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
output = serial.serialize ( stream)
9
gentage gennem føljeton output stream som dette : Hej
for element i output:
10
indrykning linjen umiddelbart efter den forrige opgørelse og skrive et print -funktion, ligesom dette : Hej
print ( element )
11
Udfør programmet ved at trykke F5 . Scriptet vil åbne , og derefter parse en HTML 5 web-side. Scriptet derefter serialiserer træstrukturen af siden og sender det til konsollen. Udgangen vil variere afhængigt af nettet valgte side , men kan se noget som dette : Hej
< /head > < br >
Velkommen til en webside !
< /body >
< /html >
< br >