mecabでいろいろ・・・
有名な「すもももももももものうち」とか、
「にわにはにわうらにわにはにわにわとりがいる」とか。
とりあえず ipadic で解析。
root@katz:~# echo "すもももももももものうち" | mecab -d /usr/local/lib/mecab/dic/ipadic すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
ふむ、普通だ・・・。
続いて jumandic で解析。
root@katz:~# echo "すもももももももものうち" | mecab -d /var/lib/mecab/dic/juman-utf8 す 接頭辞,名詞接頭辞,*,*,す,す,* もも 名詞,普通名詞,*,*,もも,もも,代表表記:股 も 助詞,副助詞,*,*,も,も,* もも 名詞,普通名詞,*,*,もも,もも,代表表記:股 も 助詞,副助詞,*,*,も,も,* もも 名詞,普通名詞,*,*,もも,もも,代表表記:股 の 助詞,接続助詞,*,*,の,の,* うち 名詞,副詞的名詞,*,*,うち,うち,* EOS
世間で言われているようなほど差は感じられない、かな?
では次。
まずは ipadic 。
root@katz:~# echo "にわにはにわうらにわにはにわにわとりがいる" | mecab -d /usr/local/lib/mecab/dic/ipadic に 助詞,格助詞,一般,*,*,*,に,ニ,ニ わに 名詞,一般,*,*,*,*,わに,ワニ,ワニ はにわ 名詞,一般,*,*,*,*,はにわ,ハニワ,ハニワ うら 動詞,自立,*,*,五段・ラ行,未然形,うる,ウラ,ウラ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ わに 名詞,一般,*,*,*,*,わに,ワニ,ワニ はにわ 名詞,一般,*,*,*,*,はにわ,ハニワ,ハニワ にわとり 名詞,一般,*,*,*,*,にわとり,ニワトリ,ニワトリ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ いる 動詞,自立,*,*,一段,基本形,いる,イル,イル EOS
www
無理やり変換すると「に、ワニ・埴輪、裏にワニ・埴輪・ニワトリ がいる」みたいな?
文章の一部分を切り取ってきたので頭の「に」が助詞扱いされたってカンジ?
個人的には文頭で助詞って結構致命的な気がするけどw
root@katz:~# echo "にわにはにわうらにわにはにわにわとりがいる" | mecab -d /var/lib/mecab/dic/juman-utf8 にわ 名詞,普通名詞,*,*,にわ,にわ,漢字読み:訓 代表表記:庭 に 助詞,格助詞,*,*,に,に,* はにわ 名詞,普通名詞,*,*,はにわ,はにわ,代表表記:埴輪 うらにわ 名詞,普通名詞,*,*,うらにわ,うらにわ,代表表記:裏庭 に 助詞,格助詞,*,*,に,に,* はにわ 名詞,普通名詞,*,*,はにわ,はにわ,代表表記:埴輪 にわとり 名詞,普通名詞,*,*,にわとり,にわとり,漢字読み:訓 代表表記:鶏 が 助詞,格助詞,*,*,が,が,* いる 動詞,*,母音動詞,基本形,いる,いる,* EOS
wwwww
こっちも無理やり変換してみると「庭に埴輪、裏庭に埴輪・ニワトリ がいる。」かな?
「すもも」を知ってる辞書がいいか、「うらにわ」を知ってる辞書がいいかの違い?