HTML5メモ(2) lang属性/日本語に関係する言語タグ の覚え書き
- いつまで続くのかは不明
- 当然間違いがあるかもしれない。もしあれば遠慮無くつっこんでくれ。
BCP 47というかIANAのレポジトリにあって、HTMLやXMLのlang属性で扱える日本語に関係するであろう言語タグについてまとめてみました。
BCP 47はXML 1.0とHTML5が参照しているRFCです。この文章が書かれた時点での最新のRFCはRFC 5646です。
(RFC 4646を参照しているために少し古いですが)HTMLにおける言語コード/言語タグ メモがたぶん役に立つと思われます。
language(言語)副タグ
RFC 5646が見ているのはISO 639-1、639-2、639-3、639-5。日本語に関連すると思われるのは、次の通り。
タグ | IANAの説明 |
---|---|
ja | Japanese |
ojp | Old Japanese |
jsl | Japanese Sign Language |
jpx | Japanese (family) |
ain | Ainu (Japan) |
ja
は文字通り日本語を指す。それに対してojp
は古語となる。どの歴史区分をもって、現代の日本語とそうでないものとするのかは要調査。jsl
は日本手話を表す。jpx
は後述の琉球語を含めた日本語族を示す。ain
はアイヌ語。
ISO 639-3によれば、詳細な沖縄の方言が言語タグとして収録されている。これは、国際SIL*1のエスノローグ*2によるSILコードとISOが整合性をとった結果のため。
タグ | IANAの説明 | 内容 |
---|---|---|
ams | Southern Amami-Oshima | 南奄美大島方言 |
kzg | Kikai | 喜界島方言 |
mvi | Miyako | 宮古諸島方言 |
okn | Oki-No-Erabu | 沖永良部島方言 |
rys | Yaeyama | 八重山諸島方言 |
ryn | Northern Amami-Oshima | 北奄美大島方言 |
ryu | Central Okinawan | 沖縄島中央方言 |
tkn | Toku-No-Shima | 徳之島方言 |
xug | Kunigami | 国頭方言 |
yoi | Yonaguni | 与那国島方言 |
yox | Yoron | 与論島方言 |
ところで、JISX 0412-2 (ISO 639-2 MOD)には、特別な場合について提示されています。
タグ | IANAの説明 |
---|---|
mul | Multiple languages |
mis | Uncoded languages |
und | Undetermined |
zxx | No linguistic content, Not applicable |
mul
はmultiple languages(複数言語)で、複数個の言語が使用されていて、該当する言語コードすべてを用いることが適当でない場合、und
はundetermined(不明言語)で、言語タグを提示しなければならないが不可能な場合、mis
はその他の言語、zxx
は言語的内容無しとされている。
script(用字)副タグ
ISO 15924で定義されている4文字。日本語に関連すると思われるのは、次の通り。
タグ | IANAの説明 |
---|---|
Jpan | Japanese (alias for Han + Hiragana + Katakana) |
Hani | Han,Hanzi,Kanji,Hanja |
Hira | Hiragana |
Kana | Katakana |
Hrkt | (alias for Hiragana + Katakana) |
Latn | Latn |
Jpan
は漢字とひらがなとカタカナの集合。Hani
は朝鮮語や中国語の漢字をも含む。Hira
としてひらがな、Kata
としてカタカナが用意され、さらにひらがなとカタカナの集合としてHrkt
が用意されている。また、Latn
を使うことで、ローマ字表記を示すことができる。
region(地域)副タグ
タグ | IANAの説明 |
---|---|
JP | Japan |
たぶん説明はいらないと思うけど、JP
は日本国。ISO 3166-1を参照しているので、ISO 3166-2:JP - Wikipediaは使えない。使わないと思いますが。
Private use(私的使用)副タグ
たとえば2ちゃんねる語とかを、ja-x-2ch
などとして区別することも可能かもしれません。
使い方
lang
属性として用いる場合、できるだけ短くするよう求められている。つまり、特に区別する必要がない場合Ja-JP
やJa-Jpan
とはせず、単にja
と書くことが望ましい。以下それっぽい言語タグの用例。
<dl lang="ja"> <dt>いろは歌(ひらがな)</dt> <dd lang="ojp-Hira"> いろはにほへと ちりぬるを </dd> <dt>いろは歌(万葉仮名)</dt> <dd lang="ojp-Hani"> 以呂波耳本へ止 千利奴流乎 </dd> ... <dt>日本語</dt> <dd>ミソサザイのお話</dd> <dt>アイヌ語(ローマ字)</dt> <dd lang="ain-Latn">cakcak kamuy oruspe</dd> <dt>アイヌ語(カタカナ)</dt> <dd lang="ain-Kana">チャㇰチャㇰ カムイ オルㇱペ</dd> ... <dt>2ちゃんねる語</dt> <dd lang="ja-x-2ch">キタ━━━━━━(゚∀゚)━━━━━━ !!!!</dd> <dt>ゼントラーディ語</dt> <dd lang="mis-Kana-x-macros">ヤックデカルチャー</dd></dl>
参考にした文章
- 2.12 言語識別 Extensible Markup Language (XML) 1.0 (第五版)
- lang 属性 - グローバル属性 - HTML5 タグリファレンス - HTML5.JP
- RFC 5646 - Tags for Identifying Languages
- Language tags in HTML and XML
- Language Subtag Registry - IANA
- ISO 639 - Wikipedia
- 日本工業標準調査会:データベース検索-JIS検索
- 沖縄方言 - Wikipedia
- Contact Sign - Wikipedia, the free encyclopedia
- List of ISO 639-5 codes - Wikipedia, the free encyclopedia
- Tagging text with no language
- ISO 15924 - Alphabetical Code List
- いろは歌 - Wikipedia
- ミソサザイのお話・カナ文