Как заменить слова их синонимами word-net?

Я хочу сделать увеличение данных для задачи анализа настроений, заменив слова синонимами из wordnet, но замена происходит случайным образом. Я хочу перебрать синонимы и заменить слово всеми синонимами по одному, чтобы увеличить размер данных.

for index , r in pos_df.iterrows():
  output = ""
  # Identify the parts of speech
  tagged = nltk.pos_tag(words)

  for i in range(0,len(words)):
      replacements = []

      # Only replace nouns with nouns, vowels with vowels etc.
      for syn in wordnet.synsets(words[i]):    
           # Do not attempt to replace proper nouns or determiners
          if tagged[i][1] == 'NNP' or tagged[i][1] == 'DT':

          # The tokenizer returns strings like NNP, VBP etc
          # but the wordnet synonyms has tags like .n.
          # So we extract the first character from NNP ie n
          # then we check if the dictionary word has a .n. or not 
          word_type = tagged[i][1][0]

          if syn.name().find("."+word_type+"."):
              # extract the word only
              r = syn.name()[0:syn.name().find(".")]

      if len(replacements) > 0:
          # Choose a random replacement
          replacement = replacements[randint(0,len(replacements)-1)]
          output = output + " " + replacement
          # If no replacement could be found, then just use the
          # original word
          output = output + " " + words[i]


0 ответов

Даже я работаю с аналогичным проектом, генерируя новые предложения из заданного ввода, но без изменения контекста из входного текста. Наткнувшись на это, я нашел метод увеличения данных. Что, кажется, хорошо работает в части увеличения. EDA(Easy Data Augmentation) - это статья [https://github.com/jasonwei20/eda_nlp].

Надеюсь, это тебе поможет.

Другие вопросы по тегам