Пример данных или корпуса для тестирования функций обработки текста?
Мне интересно, есть ли в Интернете образцы текстов, которые можно использовать для тестирования алгоритмов. Например, я использую простую функцию токенизации и хочу убедиться, что она работает для особых случаев, таких как знаки препинания в середине слова ("не", "О'Брайен"), тире (для моих целей "Саксвилл" -Баггинсы "должны быть одним токеном), международные символы и т. Д.
Точно так же было бы неплохо при создании других алгоритмов иметь под рукой документы, которые идеально подходят для их тестирования, вместо того, чтобы просто подыскивать или искать хорошие образцы текстов в Гутенберге.
Также полезным будет текст, который можно использовать для проверки таких вещей, как орфография, грамматика и т. Д.
1 ответ
Есть несколько текстовых корпусов, перечисленных в этой записи в Википедии. Кроме того, в списке корпораций НЛТК есть несколько хороших указателей. И вы можете проверить наборы данных Google Ngram.