血統の森+はてな

旧はてなダイアリーの自動インポートによるアーカイブです。

HTML5メモ(2) lang属性/日本語に関係する言語タグ の覚え書き

  • いつまで続くのかは不明
  • 当然間違いがあるかもしれない。もしあれば遠慮無くつっこんでくれ。

BCP 47というかIANAのレポジトリにあって、HTMLやXMLのlang属性で扱える日本語に関係するであろう言語タグについてまとめてみました。
BCP 47はXML 1.0とHTML5が参照しているRFCです。この文章が書かれた時点での最新のRFCRFC 5646です。
RFC 4646を参照しているために少し古いですが)HTMLにおける言語コード/言語タグ メモがたぶん役に立つと思われます。

language(言語)副タグ

RFC 5646が見ているのはISO 639-1、639-2、639-3、639-5。日本語に関連すると思われるのは、次の通り。

タグ IANAの説明
ja Japanese
ojp Old Japanese
jsl Japanese Sign Language
jpx Japanese (family)
ain Ainu (Japan)


jaは文字通り日本語を指す。それに対してojpは古語となる。どの歴史区分をもって、現代の日本語とそうでないものとするのかは要調査。jslは日本手話を表す。jpxは後述の琉球語を含めた日本語族を示す。ainアイヌ語


ISO 639-3によれば、詳細な沖縄の方言が言語タグとして収録されている。これは、国際SIL*1エスノローグ*2によるSILコードとISOが整合性をとった結果のため。

タグ IANAの説明 内容
ams Southern Amami-Oshima 奄美大島方言
kzg Kikai 喜界島方言
mvi Miyako 宮古諸島方言
okn Oki-No-Erabu 沖永良部島方言
rys Yaeyama 八重山諸島方言
ryn Northern Amami-Oshima 奄美大島方言
ryu Central Okinawan 沖縄島中央方言
tkn Toku-No-Shima 徳之島方言
xug Kunigami 国頭方言
yoi Yonaguni 与那国島方言
yox Yoron 与論島方言

ところで、JISX 0412-2 (ISO 639-2 MOD)には、特別な場合について提示されています。

タグ IANAの説明
mul Multiple languages
mis Uncoded languages
und Undetermined
zxx No linguistic content, Not applicable

mulはmultiple languages(複数言語)で、複数個の言語が使用されていて、該当する言語コードすべてを用いることが適当でない場合、undはundetermined(不明言語)で、言語タグを提示しなければならないが不可能な場合、misはその他の言語、zxxは言語的内容無しとされている。

script(用字)副タグ

ISO 15924で定義されている4文字。日本語に関連すると思われるのは、次の通り。

タグ IANAの説明
Jpan Japanese (alias for Han + Hiragana + Katakana)
Hani Han,Hanzi,Kanji,Hanja
Hira Hiragana
Kana Katakana
Hrkt (alias for Hiragana + Katakana)
Latn Latn

Jpanは漢字とひらがなとカタカナの集合。Hani朝鮮語や中国語の漢字をも含む。Hiraとしてひらがな、Kataとしてカタカナが用意され、さらにひらがなとカタカナの集合としてHrktが用意されている。また、Latnを使うことで、ローマ字表記を示すことができる。

region(地域)副タグ

タグ IANAの説明
JP Japan

たぶん説明はいらないと思うけど、JPは日本国。ISO 3166-1を参照しているので、ISO 3166-2:JP - Wikipediaは使えない。使わないと思いますが。

Private use(私的使用)副タグ

たとえば2ちゃんねる語とかを、ja-x-2chなどとして区別することも可能かもしれません。

使い方

lang属性として用いる場合、できるだけ短くするよう求められている。つまり、特に区別する必要がない場合Ja-JPJa-Jpanとはせず、単にjaと書くことが望ましい。以下それっぽい言語タグの用例。

<dl lang="ja">
<dt>いろは歌(ひらがな)</dt>
<dd lang="ojp-Hira">
いろはにほへと ちりぬるを
</dd>
<dt>いろは歌(万葉仮名)</dt>
<dd lang="ojp-Hani">
以呂波耳本へ止 千利奴流乎
</dd>
...
<dt>日本語</dt>
<dd>ミソサザイのお話</dd>
<dt>アイヌ語(ローマ字)</dt>
<dd lang="ain-Latn">cakcak kamuy oruspe</dd>
<dt>アイヌ語(カタカナ)</dt>
<dd lang="ain-Kana">チャ&#x31F0;チャ&#x31F0; カムイ オル&#x31F1;</dd>
...
<dt>2ちゃんねる語</dt>
<dd lang="ja-x-2ch">キタ━━━━━━(゚∀゚)━━━━━━ !!!!</dd>
<dt>ゼントラーディ語</dt>
<dd lang="mis-Kana-x-macros">ヤックデカルチャー</dd></dl>