Структура данных для алгоритма Soundex?

Question

Структура данных для алгоритма Soundex?

Может кто-нибудь предложить мне, какую структуру данных использовать для программы алгоритма Soundex? Используемый язык - Java. Если кто-то работал над этим раньше в Java. Программа должна иметь следующие функции: уметь читать около 50000 слов, уметь читать слово и возвращать связанные слова, имеющие одинаковый soundex.

Я не хочу, чтобы в реализации программы было несколько советов о том, какую структуру данных использовать.

3

java data-structures soundex

Источник

user35307 06 ноя '08 в 23:28

6 ответов

Другие вопросы по тегам java data-structures soundex

user19307 06 ноя '08 в 23:34 2008-11-06 23:34 · Answer 1 · 2008-11-06 23:34

СОВЕТ: Если вы используете SQL в качестве пакета данных, вы можете позволить SQL обрабатывать его с помощью двух функций sql SOUNDEX и DIFFERENCE.

Может быть, не то, что вы хотели, но многие люди не знают, что MSsql имеет эти две функции.

3

Источник

user19307 06 ноя '08 в 23:34

user34707 06 ноя '08 в 23:35 2008-11-06 23:35 · Answer 2 · 2008-11-06 23:35

Ну, soundex может быть реализован простым проходом по строке, так что для этого не требуется ничего особенного.

После этого 4-символьный код можно рассматривать как целочисленный ключ.

Затем просто создайте словарь, в котором хранятся наборы слов, проиндексированные этим целочисленным ключом. 50000 слов должны легко поместиться в память, поэтому ничего особенного не требуется.

Затем пройдитесь по словарю, и каждое ведро представляет собой группу похожих звучащих слов.

Собственно, вот и вся программа на Perl:

#!/usr/bin/perl
use Text::Soundex;
use Data::Dumper;
open(DICT,"</usr/share/dict/linux.words");
my %dictionary = ();
while (<DICT>) {
        chomp();
        chomp();
        push @{$dictionary{soundex($_)}},$_;
}
close(DICT);
while (<>) {
        my @words = split / +/;
        foreach (@words) {
            print Dumper $dictionary{soundex($_)};
        }
}

user3474 07 ноя '08 в 00:13 2008-11-07 00:13 · Answer 3 · 2008-11-07 00:13

class SpellChecker
{

  interface Hash {
    String hash(String);
  }

  private final Hash hash;

  private final Map<String, Set<String>> collisions;

  SpellChecker(Hash hash) {
    this.hash = hash;
    collisions = new TreeSet<String, Set<String>>();
  }

  boolean addWord(String word) {
    String key = hash.hash(word);
    Set<String> similar = collisions.get(key);
    if (similar == null)
      collisions.put(key, similar = new TreeSet<String>());
    return similar.add(word);
  }

  Set<String> similar(String word) {
    Set<String> similar = collisions.get(hash.hash(word));
    if (similar == null)
      return Collections.emptySet();
    else
      return Collections.unmodifiableSet(similar);
  }

}

Хэш-стратегией может быть Soundex, Metaphone или что-то еще. Некоторые стратегии могут быть настраиваемыми (сколько символов он выводит и т. Д.)

user22656 06 ноя '08 в 23:34 2008-11-06 23:34 · Answer 4 · 2008-11-06 23:34

Я считаю, что вам просто нужно преобразовать исходные строки в ключи soundex в хеш-таблицу; значение для каждой записи в таблице будет представлять собой коллекцию исходных строк, сопоставляемых с этим soundex.

Интерфейс коллекции MultiMap (и его реализации) в Коллекциях Google был бы вам полезен.

user13744 01 янв '09 в 15:48 2009-01-01 15:48 · Answer 5 · 2009-01-01 15:48

Вы хотите 4-байтовое целое число.

Алгоритм soundex всегда возвращает 4-символьный код, если вы используете входные данные ANSI, вы получите обратно 4 байта (представленные в виде 4 букв).

Поэтому храните коды, возвращенные в хеш-таблице, преобразуйте свое слово в код и найдите его в хеш-таблице. Это действительно так просто.

user4418 06 ноя '08 в 23:35 2008-11-06 23:35 · Answer 6 · 2008-11-06 23:35

Поскольку soundex - это хеш, я бы использовал хеш-таблицу с soundex в качестве ключа.

0

Источник

user4418 06 ноя '08 в 23:35