言語タグを拡張する案に関するメモ
ソースは@_masaka氏のつぶやきより。ノリと勢いで勝手に解釈したものなので、間違いがあればどしどし指摘しちゃってください。
現在、2つの言語タグの拡張案がRFCのdraftとして提出されている模様。
- draft-falk-transliteration-tags-01 - Tags for the Identification of Transliterated Text
- draft-davis-t-langtag-ext-01 - BCP 47 Extension T
前者のものは、新橋をローマ字で音訳(Transliteration)する際、ヘボン式(Hepburn)と訓令式(Kunrei)とで音訳(Transliteration)することができる。
<dt>新橋</dt> <dd lang="ja-Latn-s-Hani-t-Hepburn">Shimbashi</dd><!--漢字表記の日本語を、ヘボン式でローマ字表記したもの--> <dd lang="ja-Latn-s-Hani-t-Kunrei">Sinbasi<dd><!--漢字表記の日本語を、訓令式でローマ字表記したもの-->
という感じか。ものすごく学術的な感じ。
後者のものは音訳とか翻字とか翻訳とかひっくるめて、
<dt lang="en">Boys, be ambitious</dt> <dd lang="ja-t-en">少年よ、大志を抱け</dd><!--和訳-->
という感じか。前者に比べ、わかりやすい?
ちなみにXML方面では
RFC 6067 - BCP 47 Extension U
とかいうのが2010年12月にRFCになっている。
UTS #35: Unicode Locale Data Markup LanguageにUnicodeコンソーシアムによる仕様書あり。
Common Locale Data Repository - Wikipediaによれば、これはoooのロケール情報などに使われるとかなんとか。
HTMLではここまで厳密なものは使わないと思います、たぶん(仕様を読む気がないともいう)。
関連するかもしれないリンク
- HTMLにおける言語コード/言語タグ メモ - 血統の森+はてな
- Unicode Transliteration Guidelines - CLDR - Unicode Common Locale Data Repository
- transliterated - 音訳
- http://ja.wikipedia.org/wiki/%E7%BF%BB%E5%AD%97
- transcribed - 転写
- http://ja.wikipedia.org/wiki/%E8%BB%A2%E5%86%99_%28%E8%A8%80%E8%AA%9E%E5%AD%A6%29
- translated - 翻訳
- http://ja.wikipedia.org/wiki/%E7%BF%BB%E8%A8%B3