Как найти слово в XML-файле и распечатать его на Python

Question

Как найти слово в XML-файле и распечатать его на Python

Я хочу найти определенное слово (которое вводится пользователем) в XML-файле. Это мой XML-файл.

<?xml version="1.0" encoding="UTF-8"?>
<words>
<entry>
<word>John</word>
<pron>()</pron>
<gram>[Noun]</gram>
<poem></poem>
<meanings>
<meaning>name</meaning>
</meanings>
</entry>
</words>

вот мой код

import nltk
from nltk.tokenize import word_tokenize
import os
import xml.etree.ElementTree as etree


sen = input("Enter Your sentence - ")

print(sen)
print("\n")
print(word_tokenize(sen)[0])

tree = etree.parse('roman.xml')
node=etree.fromstring(tree)

#node=etree.fromstring('<a><word>waya</word><gram>[Noun]</gram> 
<meaning>talking</meaning></a>')
s = node.findtext(word_tokenize(sen)[0])
print(s)

Я перепробовал все, но все равно дает мне ошибку

требуется байтовоподобный объект, а не ElementTree

Я действительно не знаю, как решить это.

1

python xml nlp nltk tokenize

Источник

user9114047 20 окт '18 в 18:46

1 ответ

Другие вопросы по тегам python xml nlp nltk tokenize

user8098705 20 окт '18 в 19:07 2018-10-20 19:07 · Answer 1 · 2018-10-20 19:07

Ошибка возникает из-за того, что вы передаете объект elementtree в методы fromstring (). Делай так:

>>> import os
>>> import xml.etree.ElementTree as etree
>>> a = etree.parse('a.xml')
>>> a
<xml.etree.ElementTree.ElementTree object at 0x10fcabeb8>
>>> b = a.getroot()
>>> b
<Element 'words' at 0x10fb21f48>
>>> b[0][0].text
'John'

Используйте методы find() и findall() для поиска.

для получения дополнительной информации, проверьте lib: https://docs.python.org/3/library/xml.etree.elementtree.html

Простой пример:

test.xml

<?xml version="1.0" encoding="UTF-8"?>
<words>
  <word value="John"></word>
  <word value="Mike"></word>
  <word value="Scott"></word>
</words>

example.py

root = ET.parse("test.xml")
>>> search = root.findall(".//word/.[@value='John']")
>>> search
[<Element 'word' at 0x10be9c868>]
>>> search[0].attrib
{'value': 'John'}
>>> search[0].tag
'word'