Имя автора

Я занимаюсь исследованием проблемы неоднозначности имени автора. Я хочу провести несколько экспериментов. Я хочу кластеризовать записи цитирования. Мне нужны данные обучения и данные тестирования, в которых доступен истинный автор каждой записи публикации. Существует много библиографических баз данных, таких как DBLP, Medline, Pubmed и т. Д. Я запутался в фазе тестирования. Является ли хорошей практикой разделять DBLP на обучение и тестирование? Добавлены ли записи цитирования DBLP вручную? Могу ли я гарантировать, что каждая запись о цитировании назначена истинному автору в DBLP? Есть ли предложения по обучению и тестированию баз данных. Примечание: в литературе я заметил, что в некоторых работах они использовали Pubmed для обучения и DBLP для тестирования, хотя первый - для медицинских публикаций, а второй - для компьютеров.

1 ответ

Ниже мои ответы на ваши вопросы:

Я запутался в фазе тестирования. Является ли хорошей практикой разделять DBLP на обучение и тестирование?

Используемая практика заключается в разделении данных для обучения и тестирования. Однако будет хорошей идеей убедиться, что для каждого тестируемого образца существуют обучающие образцы.

Добавлены ли записи цитирования DBLP вручную? Могу ли я гарантировать, что каждая запись о цитировании назначена истинному автору в DBLP?

Согласно этой статье, записи цитирования DBLP добавляются вручную. https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

Есть ли предложения по обучению и тестированию баз данных.

ANDDataset1 был использован в некоторых работах для таких задач https://sites.google.com/site/tinhuynhuit/dataset

Вы также можете попробовать KDD Cup 2013 - Проблема устранения неоднозначности авторов https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

Другие вопросы по тегам