Как извлечь номер из HTML-тегов в Alteryx?
У меня есть очищенный набор данных, который содержит столбец данных, как показано ниже:
<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>
Я использую Alteryx для обработки данных, и я хочу использовать регулярные выражения для извлечения числа между тегами HTML <td>
а также </td>
, Так что в вышеупомянутом случае я должен вернуться к 1968, 185 и 1285. Я пробовал следующие регулярные выражения, но ни один не работал с этим тестером. Я считаю, что версия регулярного выражения должна быть R для Alteryx, но не уверен.
>([0-9]+)<
>[0-9]+<
Может кто-нибудь, пожалуйста, пролить свет на это? Спасибо!
1 ответ
Альтернативный подход Alteryx: используйте инструмент Формула, чтобы удалить <td>
а также запятые и пробелы, затем используйте инструмент Select для приведения того, что осталось к числовому типу по вашему выбору... он будет автоматически принимать все до первого нечислового символа.