Как получить правильную позицию списка в многобайтовой строке, используя preg_match
Я в настоящее время сопоставляю HTML, используя этот код:
preg_match('/<\/?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;/u', $html, $match, PREG_OFFSET_CAPTURE, $position)
Он идеально подходит ко всему, однако, если у меня есть многобайтовый символ, он возвращает его как 2 символа при возврате позиции.
Например возвращенный $match
массив даст что-то вроде:
array
0 =>
array
0 => string '<br />' (length=6)
1 => int 132
1 =>
array
0 => string 'br' (length=2)
1 => int 133
Реальное число для <br />
match равен 128, но в нем 4 многобайтовых символа, поэтому он дает 132. Я действительно думал, что добавление модификатора /u поможет понять, что происходит, но не повезло.
3 ответа
Я посмотрел на это предложение от @Qtax:
UTF-8 символов в preg_match_all (PHP)
И еще для справки: эта ошибка появилась при использовании этого: усекать текст, содержащий HTML, игнорируя теги
Суть изменений заключается в следующем:
$orig_utf = 'UTF-8';
$new_utf = 'UTF-32';
mb_regex_encoding( $new_utf );
$html = mb_convert_encoding( $html, $new_utf, $orig_utf );
$end_char = mb_convert_encoding( $end_char, $new_utf, $orig_utf );
mb_ereg_search_init( $html );
$pattern = '</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;';
$pattern = mb_convert_encoding( $pattern, $new_utf, $orig_utf );
while ( $printed < $limit && $tag_match = mb_ereg_search_pos( $pattern, $html ) ) {
$tag_position = $tag_match[0]/4;
$tag_length = $tag_match[1];
$tag = mb_substr( $html, $tag_position, $tag_length/4, $new_utf );
$tag_name = preg_replace( '/[\s<>\/]+/', '', $tag );
// Print text leading up to the tag.
$str = mb_substr($html, $position, $tag_position - $position, $new_utf );
.......
}
Также в отношении усеченной HTML-страницы есть и другие необходимые изменения:
$first_char = mb_substr( $tag, 0, 1, $new_utf );
if ( $first_char == mb_convert_encoding( '&', $new_utf ) ) {
...
}
Мой текстовый редактор - UTF-8, поэтому, если бы я сравнивал 32 с амперсандом моего файла, он бы не работал.
Если вам нужно быстро исправить и не беспокоиться о скорости:
$mb_pos = mb_strlen( substr($string, 0, $pos) );
Вы смотрели в http://www.php.net/manual/en/function.mb-ereg.php?