Можно ли заставить анализ границы локали-буста разделить на апострофы?

Question

Можно ли заставить анализ границы локали-буста разделить на апострофы?

Например, рассмотрим следующий код:

using namespace boost::locale::boundary;
boost::locale::generator gen;
std::string text = "L'homme qu'on aimait trop.";
ssegment_index map(word, text.begin(), text.end(), gen("fr_FR.UTF-8"));
for (ssegment_index::iterator it = map.begin(), e = map.end(); it != e; ++it)
    std::cout << "\"" << *it << "\", ";
std::cout << std::endl;

Это выводит:

"L'homme", " ", "qu'on", " ", "aimait", " ", "trop", ".",

Можно ли настроить анализ границ, чтобы он вместо этого выводил:

"L", "'", "homme", " ", "qu", "'", "on", " ", "aimait", " ", "trop", ".",

Я прочитал http://www.boost.org/doc/libs/1_56_0/libs/locale/doc/html/boundary_analysys.html и искал переполнение стека и Google, но пока ничего не нашел.

1

c++ boost nlp icu boost-locale

Источник

user1900954 27 фев '15 в 10:41

1 ответ

Решение

Другие вопросы по тегам c++ boost nlp icu boost-locale

user1900954 17 мар '15 в 16:33 2015-03-17 16:33 · Accepted Answer · 2015-03-17 16:33

Я не нашел способ сделать это с boost::locale::border, но можно сделать это с помощью ICU напрямую, создав индивидуальные RuleBasedBreakIteratorвместо того, чтобы использовать предоставленный createWordInstance,

Locale locale("fr_FR");
UErrorCode statusError = U_ZERO_ERROR;
UParseError parseError = { 0 };

// get rules from a default rbbi (these should be in a word.txt file somewhere)
RuleBasedBreakIterator *default_rbbi = dynamic_cast<RuleBasedBreakIterator *>(RuleBasedBreakIterator::createWordInstance(locale, statusError));
UnicodeString rules = default_rbbi->getRules();
delete default_rbbi;

// create custom rbbi with updated rules
rules.findAndReplace("[\\p{Word_Break = MidNumLet}]", "[[\\p{Word_Break = MidNumLet}] - [\\u0027 \\u2018 \\u2019 \\uff07]]");
RuleBasedBreakIterator custom_rbbi(rules, parseError, statusError);

// tokenize text
UnicodeString text = "L'homme qu'on aimait trop.";
custom_rbbi.setText(text);
int32_t e, p = custom_rbbi.first();
while ((e = custom_rbbi.next()) != BreakIterator::DONE) {
    std::string substring;
    text.tempSubStringBetween(p, e).toUTF8String(substring);
    std::cout << "\"" << substring << "\", ";
    p = e;
}
std::cout << std::endl;