Построение NER с использованием алгоритмов выравнивания последовательностей
Справочная информация: на странице Википедии по выравниванию последовательностей говорится, что алгоритмы выравнивания последовательностей ДНК также могут использоваться для обработки естественного языка.
Вопрос: Поскольку обе библиотеки именованных сущностей и распознавателя последовательностей ДНК выполняют Приблизительное сопоставление строк - целесообразно ли использовать библиотеку секвенирования ДНК (например, Боути) и создать свой NER?
Одна из причин НЕ использовать существующие открытые исходные коды NER, а использовать библиотеку секвенирования ДНК для создания NER, заключается в том, чтобы, надеюсь, автоматически получать "исправление ошибок" в моем NER.
Если мое предположение выше имеет смысл - есть ли какой-нибудь онлайн-инструмент для секвенирования ДНК, где я могу ввести свою базу данных имен знаменитостей, а не последовательностей ДНК, и попытаться найти ошибочный "Michale Jacksun" в инструменте "ДНК-секвенирование" в надежде, что он совпадает с "Майкл Джексон" из входной базы данных
1 ответ
В то время как ДНК-секвенирование также использует алгоритмы редактирования расстояния - те же алгоритмы, которые вы использовали бы для обнаружения неправильного написания во время NER. Но открытые источники секвенирования ДНК обычно запрограммированы на работу только с несколькими символами, которые используются для обозначения последовательностей ДНК. Они не работают в обычном диапазоне AZ 0-9 символов ASCII. Цитирование: https://groups.google.com/forum/#!category-topic/nvbio-users/how-do-i--/ITjD6KPlEsc
Поэтому, как посоветовал Вихари, лучше всего использовать какой-либо алгоритм Edit Distance. Но я очень надеюсь, что энтузиасты НЛП в ближайшие времена исследуют такие открытые источники для секвенирования ДНК и развивают их, чтобы использовать "возможности больших данных" таких открытых источников для секвенирования ДНК, чтобы донести это до нас в сообществе НЛП.