血統の森+はてな

旧はてなダイアリーの自動インポートによるアーカイブです。

HTMLデータ形式メモ1

6.2 SGML基本形式

文書型定義は、 HTMLの要素内容や属性値のシンタクスについて、PCDATA、CDATA、NAME、ID等のSGMLトークンを用いて定める。 トークンの完全な定義は[ISO8879]を参照のこと。 鍵となる情報を以下に概説する。

  • CDATAは、文書文字集合中の任意の文字の列であり、文字実体をも含む。ユーザエージェントは、この属性値を次のように解釈する必要がある。
    • 文字実体は文字で置き換える。
    • 改行文字LFは無視する。
    • 個々の改行文字CRあるいはタブ文字は、1つの空白文字で置き換える。

    ユーザエージェントは、CDATA型属性値の、冒頭あるいは末尾の空白文字を無視してよい。 (例えば「 myval 」を「myval」として解釈してよい。) 著者は、冒頭あるいは末尾に空白文字のある属性値を宣言することを避けるべきである。

    HTML 4 のCDATA型属性値における正当な値集合について、本仕様書は、DTDでは記述されていない追加的な制約を記述している場合がある。

    STYLE要素とSCRIPT要素はCDATA型の内容モデルを持っているが、両要素について、ユーザエージェントはCDATAを以上とは異なる方法で処理する必要がある。 マーク付けと実体は生のテキストとして扱い、あるがままでアプリケーションに渡さねばならない。最初に現れる文字列「>/」(終了タグ開始区切り子)は、そこで要素の内容が終わるものとして扱う。有効な文書では、これが当該要素の終了タグとなっている筈である。

  • IDトークンとNAMEトークンは、アルファベット([A-Za-z])で開始し、任意の数のアルファベット、数字、([0-9])、ハイフン(-)、アンダースコア(_)、コロン、(:)、ピリオド(.)のみで記述する必要がある。
  • IDREF と IDREFSは、 他の属性で定義されるIDトークンへの参照である。 IDREFは単一のトークンであり、IDREFSはスペース区切りで列記したトークンのリストである。
  • NUMBERトークンの場合、1桁以上の数字([0-9])となる。

[ISO8879]
"Information Processing -- Text and Office Systems -- Standard Generalized Markup Language (SGML)"、ISO 8879:1986。 この規定に関して、より詳しくはhttp://www.iso.ch/cate/d16387.htmlを参照のこと。

HTML4仕様の参照リンクはリンク切れ。

JISとISOの対応は次の通り。
http://suika.fam.cx/~wakaba/wiki/sw/n/JIS%20X%204151

JIS名前対応国際規格
JIS X 4151‐1992文書記述言語 SGMLISO 8879‐1986 + 同 Amendment 1
JIS X 4151:1998文書記述言語 SGML (追補 1)ISO 8879:1986/Cor.1:1996
JIS X 4151:2001文書記述言語 SGML (追補 2)ISO 8879:1986/Cor.2:1999

      • -
HTMLにおけるid属性問題について、今更ながら - 徒書
http://www.akatsukinishisu.net/itazuragaki/id/id_attr_in_HTML