Afsløring substantiver i Python kræver færdigheder i en programmør og en sprogforsker . Det engelske sprog i sig selv lægger fælder for den frygtløse beregningsmæssige lingvist med sin rige morfologiske tvetydighed. For eksempel kunne ordet " kors " være et pluralistisk substantiv eller en tredje -persons nuværende spændte verbum. Heldigvis har skaberne af Natural Language Toolkit Python modul udviklet en del - af -tale tagger , der tegner sig for disse vanskeligheder og kan mærke ord engelske sætninger med deres respektive dele af talen , herunder substantiver . Ting du skal
Python 2.4, 2.5 eller 2.6
Natural Language Toolkit Python modul
Vis Flere Instruktioner
1
downloade og installere Pythonmodul Natural Language Toolkit fra ntlk.org projektets hjemmeside . Du kan være nødt til at installere ekstra moduler til at understøtte NLTK .
2
Åbn et terminalvindue og begynde en Python session ved at skrive Python på kommandolinjen . Når Python er oppe og køre , påberåbe sig NLTK modulet med kommandoen import NLTK . Anvisningerne, og kommandoer ligner dette på Mac OS X : Hej
My- MacBook -Pro : ~ pna1 $ python
Python 2.6.1 ( r261 : 67515 , 24 juni 2010 , 21:47 : 49)
[ GCC 4.2.1 ( Apple Inc. build 5646 ) ] på darwin
Type " hjælp ", " ophavsret " , "kreditter" eller " licens " for mere information.
>>> import nltk
>>>
3
Invoke den del af talen tagger og indtast sætning i som du vil opdage navneord ved at skrive følgende kommandoer og data på Python prompt : Hej
>>> text = nltk.word_tokenize ( " manden krydser gaden for at sælge kors. " ) < br >
>>> nltk.pos_tag (tekst)
4
Tryk på Enter-tasten efter >>> nltk.pos_tag (tekst)
[ ,"( 'The ', ' DT ' ) , ( 'man ', ' NN ' ) , ( ' kors ', ' VBZ «) ( ' de ' , ' DT ' ) , ( ' gade ',' NN ' ) , ( 'til' , 'TO «) ( ' sælge ',' VB «) ( ' kors ', ' NNS «) ( '. ' , '. ' ) ]
>> >
NLTK har korrekt mærkede hvert ord i sætningen . I særdeleshed har det opdaget substantiver og mærkede dem som enkeltstående substantiver med NN ( mand, street) og flertal substantiver med NNS ( krydser) , og har mærket korrekt den første forekomst af kors som et verbum med tagget VBZ .
< br >