| ページ一覧 | ブログ | twitter |  書式 | 書式(表) |

MyMemoWiki

Python MeCab(日本語形態素解析)

提供: MyMemoWiki
2020年2月15日 (土) 08:05時点におけるPiroto (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

Python MeCab(日本語形態素解析)

[[Python][自然言語処理]]

インストール

janome(辞書内包/Pure Python実装の形態素解析器)

MeCab

  1. # wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz
  2. # tar -xvf http://mecab.googlecode.com/files/mecab-0.996.tar.gz
  3. # cd mecab-0.996.
  4. # ./configure --with-charset=utf8
  5. # make
  6. # make install

<blockquote>./configure で、Your compiler is not powerful enough to compile MeCab エラーとなったら、gcc-c++をインストール</blockquote>

  1. # yum install gcc-c++

辞書のインストール

  1. # wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
  2. # tar -xvf http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
  3. # cd mecab-ipadic-2.7.0-20070801
  4. # ./configure --with-charset=utf8
  5. # make
  6. # make install

Pythonバインディングのインストール

  1. # wget http://mecab.googlecode.com/files/mecab-python-0.996.tar.gz
  2. # tar -xvf mecab-python-0.996.tar.gz
  3. # cd mecab-python-0.996
  4. # python2.7 setup.py install
  • python2.7 としているのは、[CentOS6にPython2.7をインストール] [Python2.7をインストールしている]ため

ImportError: libmecab.so.2

以下のエラーがでる場合
  1. # python2.7
  2. >>> import MeCab
  3. Traceback (most recent call last):
  4. File "<stdin>", line 1, in <module>
  5. File "MeCab.py", line 26, in <module>
  6. _MeCab = swig_import_helper()
  7. File "MeCab.py", line 18, in swig_import_helper
  8. import _MeCab
  9. ImportError: libmecab.so.2: cannot open shared object file: No such file or directory
ライブラリを読み込ませるように設定
  1. # cd /etc/ld.so.conf.d
  2. # vi mecab.conf
  • 以下の内容をmecab.confに記述
  1. /usr/local/lib
  • 読み込み
  1. # ldconfig

実行してみる

  1. # python2.7
  2. >>> import MeCab
  3. >>> mecab = MeCab.Tagger('-Ochasen')
  4. >>> print mecab.parse('泣き叫ぶ鬼の串刺し。何かに憑かれた餓鬼の群れ')
  5. 泣き叫ぶ ナキサケブ 泣き叫ぶ 動詞-自立 五段・バ行 基本形
  6. オニ 名詞-一般
  7. 助詞-連体化
  8. 串刺し クシザシ 串刺し 名詞-一般
  9. 記号-句点
  10. ナニ 名詞-代名詞-一般
  11. 助詞-副助詞/並立助詞/終助詞
  12. 助詞-格助詞-一般
  13. 憑かれ ツカレ 憑かれる 動詞-自立 一段 連用形
  14. 助動詞 特殊・タ 基本形
  15. 餓鬼 ガキ 餓鬼 名詞-一般
  16. 助詞-連体化
  17. 群れ ムレ 群れ 名詞-一般
  18. EOS