| Hjem | Hardware | Netværk | Programmering | software | Fejlfinding | systemer | 
Programmering  
  • C /C + + Programming
  • Computer Programmeringssprog
  • Delphi programmering
  • Java programmering
  • JavaScript Programmering
  • PHP /MySQL programmering
  • Perl programmering
  • Python Programming
  • Ruby Programming
  • Visual Basics Programmering
  •  
    Computer Viden >> Programmering >> Python Programming >> Content
    Sådan : regex til at parse XML
    Parsing XML er en udfordring for de vordende tekst analysator grund XML s udvidelsesmuligheder . XML formatering konventioner hierarkiske i naturen, hvilket betyder nogle tags dominere andre tags. Regulære udtryk ( regexes ) at identificere XML tekstmønstre - En regex til at matche XML-mærker vil matche alt inde xml tags < >, men vil ikke vise den hierarkiske organisering af disse tags. Det er muligt at adskille dette tag strukturen fra teksten ved hjælp af programmeringssproget Python og Natural Language Toolkit pakke, som integrerer regulære udtryk og tekst manipulation og kan vise XML-koderne og deres organisation . Instruktioner
    1

    Åbn en terminal vindue og skriv kommandoen " python- v" ved prompten for at kontrollere tilstedeværelse og versionen af ​​Python på din computer. Gå til NLTK hjemmeside og hente NLTK installationspakken passer til dit operativsystem. Kontroller at NLTK er korrekt installeret ved at indtaste kommandoen " >>> import nltk " ved Python prompt .
    2

    Type " >>> nltk.download ( )" til åbne et vindue . Vælg rækken mærket " alle" og klik på download -knappen. Dette vil hente en række tekster til NLTK at arbejde med, blandt dem Shakespeares " Købmanden i Venedig" formateret med særlige XML-mærker til teaterforestillinger .
    3

    Importer Købmanden i Venedig tagget i XML med følgende kommando ved Python prompt : Hej

    >>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml )

    Tildel filen et variabel, så du kan manipulere den med Python kommandoer: .

    >>> rå = åben ( merchant_file ) read ()
    p Bare for at sikre, at det er der , skal du indtaste følgende kommando for at få vist de første 168 karakterer : .

    >>> print raw [ 0:168 ]

    Du vil se de XML header tags , og de særlige XML play tags < br >
    4

    Indtast følgende kommando ved Python prompt : Hej

    >>> fra nltk.etree.ElementTree import ElementTree

    og trykke på " Return ", derefter skrive følgende på Python prompt: .

    >>> købmand = ElementTree () parse ( merchant_file )

    parse kommandoen tillader brugeren at se XML-koderne og deres indhold . At opbygge en hierarkisk visning af korrekt indlejret XML-tags , skal du indtaste følgende kommando ved Python prompt : Hej

    >>> merchant.getchildren ()

    Dette vil vise alle de særlige XML spille tags i deres hierarkiske orden. Produktionen af ​​denne kommando skal se sådan ud : Hej

    [ , , , , < , Element ACT 22cc0f8 > , , , ]
    < br >

    Forrige :

    næste :
      Relaterede artikler
    ·Sådan oprettes en liste over fire elementer i Python 
    ·Sådan oprettes en if-sætning i Python 
    ·Sådan Udfør en Python fil som EXE Med Python 3 
    ·Sådan fjerner flere Delstrenge fra en streng 
    ·Sådan Pakke Python Scripts 
    ·Hvordan at finde gennemsnittet af en liste i Python 
    ·Sådan oprettes en while-løkke i Python 
    ·Python Tutorial for Mac 
    ·Funktioner på Python 
    ·Sådan Skriv en mail Miner for Python 
      Anbefalede Artikler
    ·Sådan installeres Python til Windows 
    ·Sådan Lær CNC Makroer Programmering 
    ·Sådan fjernes Microsoft Visual C + + Messages 
    ·Sådan konfigureres en Apache -server til at tjene Java…
    ·Sådan oprettes en menu i Android Programmering 
    ·Sådan ændre indholdet af en iFrame Med JavaScript 
    ·Sådan Execute SSIS Fra Stored Procedures 
    ·Sådan oprettes en resolution Uafhængig Ramme i VB.NET…
    ·Definition af data Abstraction i C + + 
    ·Sådan tilføjes til en C # String Array 
    Copyright © Computer Viden http://www.computerdk.com