Пример данных или корпуса для тестирования функций обработки текста?

Мне интересно, есть ли в Интернете образцы текстов, которые можно использовать для тестирования алгоритмов. Например, я использую простую функцию токенизации и хочу убедиться, что она работает для особых случаев, таких как знаки препинания в середине слова ("не", "О'Брайен"), тире (для моих целей "Саксвилл" -Баггинсы "должны быть одним токеном), международные символы и т. Д.

Точно так же было бы неплохо при создании других алгоритмов иметь под рукой документы, которые идеально подходят для их тестирования, вместо того, чтобы просто подыскивать или искать хорошие образцы текстов в Гутенберге.

Также полезным будет текст, который можно использовать для проверки таких вещей, как орфография, грамматика и т. Д.

1 ответ

Есть несколько текстовых корпусов, перечисленных в этой записи в Википедии. Кроме того, в списке корпораций НЛТК есть несколько хороших указателей. И вы можете проверить наборы данных Google Ngram.

Другие вопросы по тегам