Медицинский набор данных для инструмента аннотации
Я занимаюсь разработкой инструмента аннотирования медицинских текстов на основе онтологий, и у меня возникли небольшие проблемы с поиском подходящего набора данных.
Я использую онтологию заболеваний, поэтому мне нужен медицинский набор данных, ориентированный на заболевания и их симптомы / методы лечения.
Набор данных предпочтительно должен представлять собой тексты на естественном языке (статьи, исследования и т. Д.), Но также могут быть полезны словарные и списочные.
Спасибо за любую помощь!
2 ответа
Я предвзято (как я соучредитель), все еще на tagtog.net вы найдете кучу биомедицинских корпусов. Например, корпус IDP4+ аннотирует упоминания о генетических мутациях и их последствиях (некоторые болезни тоже), а корпус V300 аннотирует вызывающие болезни вирусы.
Вы имеете в виду, что вы ищете биомедицинскую текстовую корпорацию для аннотирования? то есть. определить ключевые термины. Вы можете попробовать опубликованные тезисы - они находятся в облаке связанных открытых данных, вы можете попробовать Википедию для вещей уровня потребителей, или даже каталог веб-сайтов NIH для журналов с открытым доступом будет иметь множество открытых научных материалов для аннотирования.
Если вы еще этого не сделали - ознакомьтесь с UMLS (и его побочными проектами, такими как metamap) - он неоценим для любого биомедицинского НЛП. Если вам интересно, я думаю, что у меня есть копия файлов сопоставления между UMLS и онтологией заболевания. ( RDF UMLS, http://linkedlifedata.com/)