Есть ли учебник о Гиза ++?

URL-адреса в файле readme недействительны ( http://www.fjoch.com/mkcls.html и http://www.fjoch.com/GIZA++.html). Есть хороший учебник о Гизе ++? Или есть какие-то альтернативы, которые имеют полную документацию?

5 ответов

Решение

Следующее извлечено из учебника, который я собираю для класса. (Примечание: предполагается, что вы успешно установили GIZA++-v2 в системе *nix.)


  1. Начните с двух файлов данных, содержащих параллельные предложения, которые были токенизированы, по одному предложению на строку. Например, пара параллельных англо-французских файлов может выглядеть следующим образом.

Образец 1 - train.en

I gave him the book . 
He read the book . 
He loved the book .

Образец 2 - train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
  1. Запустите эти файлы через plain2snt.out получить целевые и исходные файлы словарного запаса (*.vcb), а также файл пары предложений (*.snt).

Из каталога GIZA ++ запустите:

./plain2snt.out TEXT1 TEXT2

где TEXT1 а также TEXT2 файлы данных, описанные в шаге 1

Это производит четыре файла в том же каталоге, что и TEXT1 а также TEXT2 (при условии, что они находятся в одном каталоге):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

Вокаб-файлы содержат уникальный (целочисленный) идентификатор для каждого слова в тексте (примечание: не размечено / не лемматизировано), слово / строка и количество раз, когда эта строка встречалась. Они разделены одним пробелом.

Файлы предложений содержат цифры. Для каждой пары предложений есть три строки: первая - это количество раз, которое пара предложений встречается в корпусе, а вторая и третья - это строка (разделенных пробелами) чисел, соответствующих записям для слов в Вокаб файлы. На основе соглашения об именах для *.snt файлы, первый файл считается исходным, а второй - целевым языком. Например, в файле TEXT1_TEXT2.snt, первая строка будет подсчитывать количество раз, когда первая пара предложений встречалась в корпусе, вторая строка будет строкой чисел, соответствующих словам в TEXT1.vcb файл, а третья строка будет строкой чисел, соответствующих словам в TEXT2.vcb файл.

  1. Сейчас TEXT1.vcb, TEXT2.vcbи любой из двух *.snt файлы могут быть использованы в качестве входных данных для GIZA ++ для создания выравнивания.

Например:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

Но обратите внимание, что когда я попытался запустить это, мне пришлось переименовать TEXT1_TEXT2.snt к чему-то без подчеркивания в имени, чтобы получить какой-либо правильный вывод.

Этот учебник Powerpoint работал для меня: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

Это очень полезно: http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/

Ученые ИИТ-Б подготовили приятные и подробные презентации по настройке и использованию GIZA++ и MOSES.

Вот некоторые из них: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf

http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf

http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf

Вот дополнительное объяснение того, как форматировать входные файлы и как запускать GIZA++ здесь:

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt

Другие вопросы по тегам