血統の森+はてな

旧はてなダイアリーの自動インポートによるアーカイブです。

青空文庫はなぜJISX 0208に固執するのか?

誰か理由を教えてください。
すでにJISX 0213を入力、表示する環境はWindows Vistaで整ったと思うのですが、青空文庫−明日の本棚−は、対応を試みようとしたのが早すぎて、HTML版を開こうとすると、こんな風に怒られる。

HTMLファイルのヘッダ部分には、charsetという記述があります。

ブラウザの既定値以外の文字セットで表示したい場合、ここに文字セットの名前を書いておけば、ブラウザがその記述を優先して解釈してくれます。JIS X 0213の場合、shift_jisx0213と書くわけです。ここに書く名前は、IANAというところに登録することになっています。

ところが、現時点では、「shift_jisx0213」は登録されていません。従って、ヘッダにshift_jisx0213と書かれたファイルは、HTMLの記述のルールを守っていないことになります。

青空文庫では、諸般の事情を考慮し、当面は0213対応のHTML版の公開を見合わせることにしました。

登録完了の段階でお知らせし、公開しますので、いましばらくお待ち下さいますようお願いいたします。

いろいろあって当時はこれでよかったのだけれど、Unicodeにすでに加えられた以上、そろそろ文字符号化方式utf-8を使ってもいいんじゃないかとか。もしかして中の人たちがUnicode嫌いなのでしょうか。

外字に関する注記あたりは青空文庫からリンクされている文章ですが、JIS第3水準、第4水準にある文字や、アクセント記号付き記号なんかも、HTMLから見ればトリッキーな方法で記述されている。shift_jisでどうしても記述したいなら、実体参照を使えばいいのにな、と。まあ、テキスト版やほかのファイル形式を考えての処置なのかもしれませんが、それにしても古風なHTMLだよなあ、、。

というか、きっかけはimg要素のalt属性の使い方を調べることだったのに、どうしてこうなった、、。