発音型日本語処理系列(案、仮名)
id:wata300 さんの日記より。ちょっと考えてみました。
”きゃ”とかの小さい文字付きの仮名を1文字として考えるシステム。”ぐぁ”とか”あ゜”とかの新しい(?)言葉も処理できるという副作用もあり。
ただ作る側にとってはちょっと考えてしまう部分も。
- 1文字=1〜4バイト、あるいはそれ以上。漢字でさえ混乱があるっていうのに更に?
- 既存文字コードとの共存をどうするか。
- 変換文字テーブルの作りこみ
- 既存の関数(例えば文字列検索関数)を一揃え用意しないといけない
興味深いテーマではありますが、本格的に取り組むには大きいですね。