Анализ данных для нахождения кратчайшего пути между двумя строками
Я создаю программу, которая возьмет список слов из 5 000 строк и найдет кратчайший путь от одной строки к другой. Например, abc -> bac может вывести "abc, bbc, bac".
Я почти уверен в том, что я хочу сделать, единственное, в чем я не совсем уверен, это то, что структура данных должна представлять мой список слов. Цель состоит в том, чтобы поиск (BFS) выполнялся как можно быстрее, поэтому пожертвовать некоторым пространством - не проблема. Я думаю о BST или списке смежности, но так как я не эксперт в сложности времени datastrutcutres, я хочу быть уверен, прежде чем я начну корректировать свой код. Кто-нибудь может порекомендовать одну из структур над другой? Или я, возможно, пропустил структуру данных, которая является очевидной альтернативой для этого?
1 ответ
Похоже, что вы ищете расстояние Левенштейна, вот реализация кода Розетты, вы должны иметь возможность изменить его в соответствии с вашими потребностями:
public class Levenshtein {
public static int distance(String a, String b) {
a = a.toLowerCase();
b = b.toLowerCase();
// i == 0
int [] costs = new int [b.length() + 1];
for (int j = 0; j < costs.length; j++)
costs[j] = j;
for (int i = 1; i <= a.length(); i++) {
// j == 0; nw = lev(i - 1, j)
costs[0] = i;
int nw = i - 1;
for (int j = 1; j <= b.length(); j++) {
int cj = Math.min(1 + Math.min(costs[j], costs[j - 1]), a.charAt(i - 1) == b.charAt(j - 1) ? nw : nw + 1);
nw = costs[j];
costs[j] = cj;
}
}
return costs[b.length()];
}
public static void main(String [] args) {
String [] data = { "kitten", "sitting", "saturday", "sunday", "rosettacode", "raisethysword" };
for (int i = 0; i < data.length; i += 2)
System.out.println("distance(" + data[i] + ", " + data[i+1] + ") = " + distance(data[i], data[i+1]));
}
}