Какая строка подходит для представления неразборчивых данных в цифровой гуманитарной транскрипции?

У меня есть цифровое гуманитарное приложение, которое я создаю, где у нас есть куча оцифрованных исторических документов, и студенты будут транскрибировать текст. Вот схема...

  create_table "documents", force: true do |t|
    t.string   "document_name"
    t.date     "date_filed"
    t.string   "grantor"
    t.string   "grantee"
    t.string   "description"
    t.string   "document_file_name"
    t.string   "document_content_type"
    t.integer  "document_file_size"
  end

  create_table "transcriptions", force: true do |t|
    t.text     "content"
    t.integer  "user_id"
    t.integer  "document_id"
  end

  create_table "users", force: true do |t|
    t.string   "email"
    t.string   "password_digest"
    t.string   "role"
  end

Приложение довольно простое. Я использую скрепку для хранения изображений на S3, и студенты создадут "транскрипцию", которая будет просто текстовым полем. Затем мы сделаем текст доступным для поиска.

Это старые документы с большим количеством неразборчивого текста. Я хочу, чтобы пользователи каким-то образом могли представлять слово, которое невозможно прочитать, в надежде на то, что оно сможет программно идентифицировать это позже. Один из вариантов использования может быть, когда другие (не исходный транскрибер) просматривают транскрипцию, они могут внести предложение (или отредактировать) в неразборчивое слово.

В качестве примера пользователь может увидеть предложение "See Jack Rzn" в документе / изображении. Таким образом, в текстовой области они могут ввести "See Jack ---", если они не могут интерпретировать слово. Или, может быть, если они думают, что знают, что это за слово, но не уверены, что могли бы сделать что-то вроде: "Смотри, Джек, беги!". Позже я мог бы искать примеры - или -! *!- чтобы определить неразборчивое текст.

Я просто плюю, но просто удивляюсь, есть ли персонажи, которые могли бы дать мне меньше горя позже, когда придет время делать "другие вещи" с этими транскрипциями.

1 ответ

Решение

После некоторых исследований на этой неделе, вот несколько мыслей.

Во-первых, у Smithsonian есть проект оцифровки с использованием краудсорсинга, и вот рекомендации, которые они рекомендуют:

If you find a word you can’t quite read

Please make a note using double brackets [[ ]] like this: [[good guess?]] or simply [[?]]. Save your work and you can continue transcribing the rest of the item.

... подробнее здесь: https://transcription.si.edu/instructions

Во-вторых, есть пара "готовых" вариантов. http://scripto.org/omeka/ который основан на инструменте Omeka DH.

Для пользователей Rails есть со страницы https://github.com/benwbrum/fromthepage. Это приложение в стиле вики, которое позволяет транскриберам работать совместно над рукописными документами.

Другие вопросы по тегам