発音型日本語処理系列(案、仮名)

id:wata300 さんの日記より。ちょっと考えてみました。

”きゃ”とかの小さい文字付きの仮名を1文字として考えるシステム。”ぐぁ”とか”あ゜”とかの新しい(?)言葉も処理できるという副作用もあり。

ただ作る側にとってはちょっと考えてしまう部分も。

  • 1文字=1〜4バイト、あるいはそれ以上。漢字でさえ混乱があるっていうのに更に?
  • 既存文字コードとの共存をどうするか。
  • 変換文字テーブルの作りこみ
  • 既存の関数(例えば文字列検索関数)を一揃え用意しないといけない

興味深いテーマではありますが、本格的に取り組むには大きいですね。