Yahoo!の日本語形態素解析Webサービスも調べてみた

ミク語変換を作るにあたって、レンタルサーバMeCabが使えないことを想定してYahoo!デベロッパーネットワークの日本語形態素解析Webサービスについても調べてみました。


特徴

  1. アプリケーションID登録が必要
  2. 発音が返せない
  3. 入力テキストはURLエンコードの形で渡す
  4. 出力はXML形式

1.の縛りはローカルツールとかにはきつそうですね、Webサービスマッシュアップ用なのでしょう。


また読みがなは返せるものの、MeCabと違い2.の発音が返せない制限があります。これは音声化する場合に、助詞の「は」とか「へ」のような表記と発音が異なる文字が問題となります。また、たとえば「小売」と「高利」はどちらも読みがなは「コウリ」ですが発音は前者が「コウリ」、後者が「コーリ」と異なります。このために今回の目的には合わず結果的に利用を断念しました。


ということで、Yahoo!の日本語形態素解析は発音目的には向かないのかなあと思っていたら、こちらのブログでは上手に音声化させていますね。


MecabとYahoo!の形態素解析の比較 - 人生は是勉学の事

漢字混じりテキストからVSQファイルを生成するスクリプトを公開されている方で、ミク語変換にも大いに参考にさせてもらいました。


Yahoo!版のコードは不明なので想像ですが、品詞を見て「は」→「わ」、「へ」→「え」のような変換をかましているのではないかと思います。それでもやっぱり、よく聴くと「学校」はYahoo!版では「がっ・こ・う」のように読みがなに近い発音をしていますね。MeCab版では、より自然に「がっ・こー」と聞こえます。


というわけで、音声化とは違う方向で、Webサービスの部品として使う分には面白そうなので、今後何か使い道が考えついたら使ってみたい思います。