Xml Parsing Of A Cdata Element

Question

I want to parse xml which contains a CDATA element in the following format

Solution 1:

This shouldn't be any problem - e.g. with lxml:

from lxml import etree

input = '<showtimes><![CDATA[6:50 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=18:50&perfd=03012011,9:40 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=21:40&perfd=03012011]]> </showtimes>'

f = etree.fromstring(input)
for s in f.xpath("//showtimes"):
    print s.text

... prints:

6:50 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=18:50&perfd=03012011,9:40 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=21:40&perfd=03012011

Solution 2:

I'm not sure what you are looking for. Here is an answer based on some wild assumptions.

PS: This solution needs lxml.

Baca Juga

>>> s = """<showtimes><![CDATA[6:50 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=18:50&perfd=03012011,9:40 PM,https://www.movietickets.com/purchase.asp?afid=rgncom&house_id=6446&language=2&movie_id=87050&perft=21:40&perfd=03012011]]> </showtimes>""">>> from lxml import etree
>>> import urlparse
>>> doc = etree.fromstring(s)
>>> _time, url = doc.text.split(',', 1)
>>> _time # Not sure if you want this'6:50 PM'>>> for key, value in urlparse.parse_qs(urlparse.urlsplit(url).query).items():
    print key, value


perfd ['03012011,9:40 PM,https://www.movietickets.com/purchase.asp?afid=rgncom', '03012011 ']
movie_id ['87050', '87050']
language ['2', '2']
perft ['18:50', '21:40']
afid ['rgncom']
house_id ['6446', '6446']
>>>

Solution 3:

as far is I know the standard python SAX parser handles CDATA correctly. You will be able to parse it.

lacucinadiadine

Xml Parsing Of A Cdata Element

Solution 1:

Solution 2:

Solution 3:

Post a Comment for "Xml Parsing Of A Cdata Element"

Widget HTML #3