Как извлечь функцию в задании по устранению неоднозначности хинди Word Sense
Я использую следующий набор данных для хинди WSD,
एक बार वीरगढ़ राज्य की महारानी का हार कहीं खो गया। महारानी को हार बहुत प्रिय था। उन्होंने हार ढूंढने की बहुत कोशिश की पर वह नहीं मिला। हो के लिए महारानी को परेशान देखकर राजा घोषणा करवा करवा करवा हो हो हो हो हो हो हो हो हो हो हो दे दे दे दे।।।।।।। यह संयोग था कि हार एक संन्यासी को मिला था । था मन में हार के प्रति कोई आकर्षण था, था फिर उसने यह सोचकर रख कि कोई ढूंढता हुआ हुआ आएगा दे दे दे। सुनी अगले दिन राजा की घोषणा सुनी, पर वह हार देने नहीं गया । वह अपनी साधना में लीन रहा । तीन दिन बीत गए । चौथे दिन संन्यासी हार लेकर राजा के पास पहुंचा । था को जब पता चला कि तीन दिनों से उसके पास था, तो उसने क्रोधित पूछा पूछा, '' मेरी घोषणा 'सुनी'? थी ने जवाब दिया 'सुनी थी, पर यदि मैं कल हार लौटाने आ जाता तो कहते कि एक संन्यासी होकर होकर होकर भयभीत हो हो।' पूछा पर राजा ने पूछा, 'तो आज चौथे दिन क्यों लाए?' कहा पर संन्यासी ने कहा, मुझे मौत का भय नहीं है । पर मैं किसी दूसरे की संपत्ति को अपने पास रखना पाप समझता हूं । हार जैसी तुच्छ चीज से मुझे कोई लगाव नहीं । ' यह उत्तर सुनकर राजा लज्जित हो गया। महारानी को भी अपनी गलती का अहसास हुआ। उसने हार बेचकर वह राशि गरीबों में बंटवा दी।
न्यूयॉर्क। हीरे का हार पहनी एक बार्बी गुडिया न्यूयॉर्क में रेकॉर्ड में में नीलाम हुई है । अपनी तरह की ये अकेली बार्बी काला काला लिबास हुई है है उसके गले गले कैरेट का का चौकोर हीरे हीरे हार।। ये गुडिया में बनाया गया था और तबसे लेकर तक इसका इसका कई बार बार है।। सबसे बडी नीलामी का रेकॉर्ड बनाने वाली बार्बी गुडिया ऑस्ट्रेलिया के के गहनों के के स्टीफानो कैन्टुरी ने बनाया है ।
и мой вопрос заключается в том, как извлечь элемент из этого примера набора данных, используя "Локальный контекст и контекст коллокации"... Здесь неоднозначное слово हार (ожерелье). Как получить два слова слева и два слова справа от неоднозначного...В хинди есть 2 смысла слова हार ... Я использую среду Anaconda python --jupyter..
Мой код здесь
#****************Word Sense Disambiguation in Hindi Language**********************
#*****************Tokenization and Stop Word removal******************************
import nltk
filename = "C:/Users/Lubna Khan/My-WSD/हार/ContextSenses002.txt"
file = open(filename, "r+", encoding="utf-16")
DisplayTextF = file.read()
#print(DisplayTextF)
tokens = nltk.word_tokenize(DisplayTextF)
#print(tokens)
token = [w for w in tokens]
#reading stop-word file which is in hindi text (Devnaagri script)
filename = "C:/Users/Lubna Khan/My-WSD/HindiStopWords.txt"
file = open(filename, "r+", encoding="utf-16")
sw = file.read()
sw_token = nltk.word_tokenize(sw)
stop_words = [w for w in sw_token]
filtered_sentence = []
for w in token :
if w not in stop_words :
filtered_sentence.append(w)
print(filtered_sentence)
#*************Feature Extraction***************
Пожалуйста, помогите мне.. Спасибо заранее