Parsing XML er en udfordring for de vordende tekst analysator grund XML s udvidelsesmuligheder . XML formatering konventioner hierarkiske i naturen, hvilket betyder nogle tags dominere andre tags. Regulære udtryk ( regexes ) at identificere XML tekstmønstre - En regex til at matche XML-mærker vil matche alt inde xml tags < >, men vil ikke vise den hierarkiske organisering af disse tags. Det er muligt at adskille dette tag strukturen fra teksten ved hjælp af programmeringssproget Python og Natural Language Toolkit pakke, som integrerer regulære udtryk og tekst manipulation og kan vise XML-koderne og deres organisation . Instruktioner
1
Åbn en terminal vindue og skriv kommandoen " python- v" ved prompten for at kontrollere tilstedeværelse og versionen af Python på din computer. Gå til NLTK hjemmeside og hente NLTK installationspakken passer til dit operativsystem. Kontroller at NLTK er korrekt installeret ved at indtaste kommandoen " >>> import nltk " ved Python prompt .
2
Type " >>> nltk.download ( )" til åbne et vindue . Vælg rækken mærket " alle" og klik på download -knappen. Dette vil hente en række tekster til NLTK at arbejde med, blandt dem Shakespeares " Købmanden i Venedig" formateret med særlige XML-mærker til teaterforestillinger .
3
Importer Købmanden i Venedig tagget i XML med følgende kommando ved Python prompt : Hej
>>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml )
Tildel filen et variabel, så du kan manipulere den med Python kommandoer: .
>>> rå = åben ( merchant_file ) read ()
p Bare for at sikre, at det er der , skal du indtaste følgende kommando for at få vist de første 168 karakterer : .
>>> print raw [ 0:168 ]
Du vil se de XML header tags , og de særlige XML play tags < br >
4
Indtast følgende kommando ved Python prompt : Hej
>>> fra nltk.etree.ElementTree import ElementTree
og trykke på " Return ", derefter skrive følgende på Python prompt: .
>>> købmand = ElementTree () parse ( merchant_file )
parse kommandoen tillader brugeren at se XML-koderne og deres indhold . At opbygge en hierarkisk visning af korrekt indlejret XML-tags , skal du indtaste følgende kommando ved Python prompt : Hej
>>> merchant.getchildren ()
Dette vil vise alle de særlige XML spille tags i deres hierarkiske orden. Produktionen af denne kommando skal se sådan ud : Hej
[ , , , , < , Element ACT 22cc0f8 > , , , ]
< br >