Yraids’ Sucla

発音型日本語処理系列（案、仮名）

id:wata300 さんの日記より。ちょっと考えてみました。

”きゃ”とかの小さい文字付きの仮名を１文字として考えるシステム。”ぐぁ”とか”あ゜”とかの新しい（？）言葉も処理できるという副作用もあり。

ただ作る側にとってはちょっと考えてしまう部分も。

１文字＝１〜４バイト、あるいはそれ以上。漢字でさえ混乱があるっていうのに更に？
既存文字コードとの共存をどうするか。
変換文字テーブルの作りこみ
既存の関数（例えば文字列検索関数）を一揃え用意しないといけない

興味深いテーマではありますが、本格的に取り組むには大きいですね。