Mecab - это токенизатор и морфологический анализатор с открытым исходным кодом для японского языка, реализованный на C++.
1 ответ

Как устранить неполадки в работе Mecab Parser

ПРЕДПОСЫЛКИ: Я создал специальную поисковую систему, которая отлично работает на английском языке, но не работает на японском языке, несмотря на подтверждение от моего хост-сервера, что я правильно выполнил установку японского синтаксического анализ…
02 дек '18 в 19:54
1 ответ

Почему 行ける разбирается в один токен, а 見られる разбивается на 2(見+られる)?

Оба представляют одну и ту же форму различных типов глаголов - не должны ли они анализировать один токен? Даже если 2 токена имеют больше смысла, они должны быть последовательными, и я думаю, что оба разбиваются на 2. Редактировать: в комментариях б…
28 июл '17 в 03:48
1 ответ

Конвертируйте японское кандзи в фуригану, используя драгоценный камень Natto (Mecab)

Используя Natto gem (MeCab), можно ли преобразовать смешанную строку катакана / хирагана / кандзи / альфа в катакана / хирагана / альфа? (т.е. преобразует кандзи). Например мне нужно конвертировать этот текст: 日本語だぜ、これが。 これはカタカナである。 こいつはEnglish alph…
17 ноя '13 в 09:29
1 ответ

Mac 10.8.3 MeCab Python Ошибка "Символ не найден"

Я установил " https://code.google.com/p/mecab/downloads/list". А также >>> import MeCab Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/test/lib/python2.7/site-packages/MeCab.py", line 26, in …
12 май '13 в 09:02
2 ответа

Pandas Series.apply не работает, состоит из строк

Кажется возможным связать проблему с японским языком, поэтому я спросил и о японском Stackru. Когда я использую строку просто объект, он работает нормально. Я пытался кодировать, но не смог найти причину этой ошибки. Не могли бы вы дать мне совет? M…
16 янв '18 в 17:04
1 ответ

Внедрение старой библиотеки Mecab в современное приложение iOS

Я пытаюсь использовать Mecab в новом приложении, над которым я работаю, но у меня возникают проблемы с корректной работой библиотеки. Первоначально я пробовал следующий репозиторий, который должен быть совместим с iOS 6: https://github.com/gumob/mec…
24 май '16 в 05:24
3 ответа

Разбор японского питона

***** РЕДАКТИРОВАНИЕ С ПОЛНЫМ КОДОМ ****** Я пытаюсь проанализировать некоторый японский код, используя Python (версия 3.5.3) и библиотеку MeCab на MacOS. У меня есть текстовый файл со следующим текстом: 石 の 上 に 三年 Я установил свои предпочтения в te…
19 июн '17 в 08:35
0 ответов

Установка MeCab

Всякий раз, когда я пытаюсь запустить MeCab, библиотеку морфологического анализа с открытым исходным кодом, я получаю следующую ошибку: File "<stdin>", line 1, in <module> File "/anaconda/lib/python3.6/site-packages/MeCab.py", line 307, …
22 окт '17 в 21:16
2 ответа

Как скомпилировать Java-файл, который вызывает MeCab - японский анализатор речи и морфологии?

Я пытаюсь использовать MeCab (http://mecab.sourceforge.net/#download) для сегментации слов в японских предложениях, а также для обозначения каждого слова частью речи. Я установил MeCab, следуя этим инструкциям http://mecab.sourceforge.net/. Поскольк…
04 май '11 в 03:30
4 ответа

Подпроцесс, многократно записывать в STDIN во время чтения из STDOUT (Windows)

Я хочу вызвать внешний процесс из Python. Процесс, который я вызываю, читает входную строку и дает токенизированный результат, и ждет другого ввода (двоичный код - это токенайзер MeCab, если это помогает). Мне нужно токенизировать тысячи строк строк…
24 мар '17 в 04:04
1 ответ

Возможен ли баланс между unidic и unidic-neologd?

С предложением "это немного сложно найти, но это хорошее место".), Используя выражение "場所は多少わか か りづらい い ん す すけ 、感 感 感。。" mecab с -d mecab-unidic-neologd первая строка вывода: 場所 バショ バショ 場所 名詞-固有名詞-人名-姓 Т.е. там написано "場所" - это фамилия человека.…
16 июл '17 в 18:07
1 ответ

Попытка заставить libmecab.dll (MeCab) работать с C#

Я пытаюсь использовать японский морфологический анализатор MeCab в программе на C# (Visual Studio 2010 Express, Windows 7), и что-то не так с кодировкой. Если мой ввод (вставлен в текстовое поле) это: 一方, 広義の「ネコ」は, ネコ類 (ネコ科動物) の一部, あるいはその全ての獣を指す包括的名…
16 июн '11 в 00:34
0 ответов

asticsearch no MeCab в ошибке java.library.pat

Я не могу использовать токенайзер mecab в asticsearch после установки asticsearch 5.2 и mecab-ko, mecab-ko-dict, analysis-mecab-ko(плагин meseb эластичного поиска), я могу создать индексный токенайзер mecab следующим образом: #!/usr/bin/env bash ES=…
06 фев '18 в 02:24
2 ответа

Python 2.7 - как записать проанализированную информацию MeCab в текстовый файл?

Я написал графический интерфейс, который позволяет японский ввод, и когда вы идете в файл> анализировать записи в текстовый файл. Этот текстовый файл затем запускается через MeCab, где между словами ставятся пробелы. После этого он должен быть снова…
25 окт '11 в 15:49
0 ответов

Не удается получить правильную кодировку символов с помощью rtweet и токенайзера RMeCab

Я пытаюсь написать свой японский твит и сталкиваюсь с, казалось бы, неразрешимыми проблемами с кодировкой символов. После майнинга твитов и установки локали с Sys.setlocale("LC_ALL", "Japanese_Japan.932") Я получаю фрейм данных, который выглядит как…
21 июн '18 в 08:26
1 ответ

MeCab неправильно анализирует

Я скачал MeCab для разбора японского текста. Чтобы проверить это, я попытался сделать то, что показали некоторые примеры в Интернете. Например, я дословно следовал советам этого парня: http://www.robfahey.co.uk/blog/japanese-text-analysis-in-python/…
16 дек '18 в 16:16
1 ответ

Пакет python не может быть импортирован, хотя pip3 show найдет его

Я обеспокоен ошибкой, сообщающей, что установленный пакет не найден: >>> import Mecab Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named 'Mecab' Я попытался установить его из запу…
31 дек '18 в 11:50
1 ответ

Что такое вывод MeCab и набор тегов?

Может кто-нибудь просветить меня о выводе по умолчанию в MeCab? какая аннотация выводит MeCab и где я могу найти набор тегов для анализатора морфо http://mecab.sourceforge.net/ Кто-нибудь может расшифровать этот вывод из MeCab? <s> ブギス・ジャンクション…
07 апр '11 в 09:19
1 ответ

Токенизация японского текста в R: токенизируется только первая строка указанного столбца

Я пытаюсь токенизировать коллекцию твитов с японским токенизатором. RMeCab конкретно функция RMeCabDF (для данных). Документация гласит следующее использование: RMeCabDF Описание RMeCabDF принимает кадры данных в качестве первого аргумента и анализи…
31 июл '18 в 07:51
1 ответ

Ctypes, вызывающий внешнюю функцию windll

Я хочу вызвать некоторые функции из внешней библиотеки DLL, используя Python3 на Windows. Библиотека и функции, которые я хочу использовать, как показано ниже; MECAB_DLL_EXTERN mecab_t* mecab_new2(const char *arg); MECAB_DLL_EXTERN const char* mecab…
18 апр '17 в 02:02