Есть ли учебник о Гиза ++?
URL-адреса в файле readme недействительны ( http://www.fjoch.com/mkcls.html и http://www.fjoch.com/GIZA++.html). Есть хороший учебник о Гизе ++? Или есть какие-то альтернативы, которые имеют полную документацию?
5 ответов
Следующее извлечено из учебника, который я собираю для класса. (Примечание: предполагается, что вы успешно установили GIZA++-v2 в системе *nix.)
- Начните с двух файлов данных, содержащих параллельные предложения, которые были токенизированы, по одному предложению на строку. Например, пара параллельных англо-французских файлов может выглядеть следующим образом.
Образец 1 - train.en
I gave him the book .
He read the book .
He loved the book .
Образец 2 - train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
- Запустите эти файлы через
plain2snt.out
получить целевые и исходные файлы словарного запаса (*.vcb
), а также файл пары предложений (*.snt
).
Из каталога GIZA ++ запустите:
./plain2snt.out TEXT1 TEXT2
где TEXT1
а также TEXT2
файлы данных, описанные в шаге 1
Это производит четыре файла в том же каталоге, что и TEXT1
а также TEXT2
(при условии, что они находятся в одном каталоге):
- TEXT1_TEXT2.snt
- TEXT1.vcb
- TEXT2_TEXT1.snt
- TEXT2.vcb
Вокаб-файлы содержат уникальный (целочисленный) идентификатор для каждого слова в тексте (примечание: не размечено / не лемматизировано), слово / строка и количество раз, когда эта строка встречалась. Они разделены одним пробелом.
Файлы предложений содержат цифры. Для каждой пары предложений есть три строки: первая - это количество раз, которое пара предложений встречается в корпусе, а вторая и третья - это строка (разделенных пробелами) чисел, соответствующих записям для слов в Вокаб файлы. На основе соглашения об именах для *.snt
файлы, первый файл считается исходным, а второй - целевым языком. Например, в файле TEXT1_TEXT2.snt
, первая строка будет подсчитывать количество раз, когда первая пара предложений встречалась в корпусе, вторая строка будет строкой чисел, соответствующих словам в TEXT1.vcb
файл, а третья строка будет строкой чисел, соответствующих словам в TEXT2.vcb
файл.
- Сейчас
TEXT1.vcb
,TEXT2.vcb
и любой из двух*.snt
файлы могут быть использованы в качестве входных данных для GIZA ++ для создания выравнивания.
Например:
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
Но обратите внимание, что когда я попытался запустить это, мне пришлось переименовать TEXT1_TEXT2.snt
к чему-то без подчеркивания в имени, чтобы получить какой-либо правильный вывод.
Этот учебник Powerpoint работал для меня: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
Это очень полезно: http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/
Ученые ИИТ-Б подготовили приятные и подробные презентации по настройке и использованию GIZA++ и MOSES.
Вот некоторые из них: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf
Этот может быть?
Полный источник: http://code.google.com/p/giza-pp/issues/detail?id=8
Вот дополнительное объяснение того, как форматировать входные файлы и как запускать GIZA++ здесь:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt