2009年7月1日 (水曜日)

07:22:53 # Life mecab を使ってみる。 mecab-ipadic とか mecab-juman とかとりあえず関係のありそうなパッケージをインストールしてみました。 デフォルトの辞書の文字コードはEUC-JPで、-utf8のついたパッケージをインストールすることでUTF8版が生成される仕組みのようです。 システム全体で alternatives で選択をしていて、現在のlocaleは関係なく インストールされていれば utf8 の辞書が最優先になるようです。

$ sudo update-alternatives --display mecab-dictionary
mecab-dictionary -状態は auto。
 リンクは現在 /var/lib/mecab/dic/ipadic-utf8 を指しています
/var/lib/mecab/dic/juman - 優先度 30
/var/lib/mecab/dic/ipadic - 優先度 70
/var/lib/mecab/dic/ipadic-utf8 - 優先度 80
現在の `最適' バージョンは /var/lib/mecab/dic/ipadic-utf8 です。
$ mecab -d /var/lib/mecab/dic/juman/ -D 
filename:	/var/lib/mecab/dic/juman/sys.dic
version:	102
charset:	EUC-JP
type:	0
size:	516002
left size:	1509
right size:	1509

$ mecab -d /var/lib/mecab/dic/ipadic/ -D 
filename:	/var/lib/mecab/dic/ipadic/sys.dic
version:	102
charset:	EUC-JP
type:	0
size:	392126
left size:	1316
right size:	1316

$ mecab -d /var/lib/mecab/dic/juman/ -O wakati
わたしのなまえはなかのです。
わたし の なまえ は なか のです 。 
私の名前は中野です。
私 の 名前 は 中野 です 。 
$ mecab -d /var/lib/mecab/dic/ipadic/ -O wakati 
わたしのなまえはなかのです。
わたし の な まえ は なか の です 。 
私の名前は中野です。
私 の 名前 は 中野 です 。 
	
Junichi Uekawa

$Id: dancer-diary.el,v 1.93 2009/01/04 03:42:29 dancer Exp $