Арабский помечен Корпора
Пожалуйста, кто-нибудь знает бесплатную арабскую помеченную корпорацию, потому что я работаю над грамматикой и мне она нужна.
Спасибо большое. Хани Альмусли.....
2 ответа
Вы можете попробовать связаться с Шерин Ходжа по следующему адресу.
Она вручную пометила 50000 слов арабского газетного текста основными тегами (существительное, глагол, частица). У нее также есть небольшое подмножество из них с более детальными тегами. Я понимаю, что она любезно предоставит их по запросу для исследовательских целей. Если ничего другого, она может указать вам правильное направление или подтвердить, что предметом вашего квеста является дефицитный товар...
Если это не удастся, вам, возможно, придется выкашлять несколько долларов:-( (или больше, чем несколько в некоторых случаях...) a Linguistic Data Consortium (LDC)
Арабских корпораций не так много, и ваши конкретные требования к домену или типу тегов могут еще больше сократить ваши возможности...
В Sketch Engine вы можете найти веб-корпус из 7 миллиардов слов, помеченный с помощью тега Stanford, а также несколько небольших корпусов (некоторые из которых помечены и лемматизированы как часть речи). Смотрите обзор на http://www.sketchengine.co.uk/artenten-arabic-corpus