HTMLの規定


  1. サポート対象タグ

 入力元のHTMLに含まれるタグで、本ソフトで処理対象とするタグは、以下のとおりです。

分類 書式 説明
文字修飾タグ ※終了タグ必須 ※※文字修飾可能な箇所については、「文字の規定」を参照してください。
<U>下線を付ける文字</U>
<SUP>上付にする文字</SUP> 添字とは意味合いが異なります。
全角・倍角の上付/下付も可能です。
<SUB>下付にする文字</SUB>
<FONT SIZE=n>倍角対象文字</FONT> HTMLには倍角タグが存在しないため、このタグで代用します。オプションのnの値が6以上なら倍角とみなします。 

nは絶対値指定します。相対値指定はできません。

※XML系書類では横倍角は使用できません(無視する)。

改行
<BR>
0x0d0x0a 通常の改行コードです。本ソフトでは、特殊な扱いをします。
<PRE>~</PRE> このタグで囲んだ範囲は、[0x0d0x0a]も<BR>と同様に扱います。
イメージ
<IMG SRC="aaa.bmp">
<FIG SRC=bbb.gif>
SRCオプション必須です。

イメージファイル名中に半角空白が含まれる場合は、["]で括ります。

リンク
<A HREF="aa.pdf">明細</A>
<A HREF=aa.xml>配列</A>
HREFオプション必須です。

ファイル名中に半角空白が含まれる場合は、["]で括ります。

<A>~</A>で挟まれた部分の文字列は削除します。

※<A>~</A>の間に<U>等のタグを含まないでください。

タグで囲まれた範囲を削除するタグ ※警告無しで削除します。
<TITLE>ここは削除</TITLE> 通常、このタグで囲まれた範囲は、文書のタイトルとして使用されます。

手続上は不要な文字なので、本ソフトではこのタグで囲まれた範囲を、タグごと削除します。

<!-- ここはコメント --> [<!--]から[-->]までの間を、コメントタグとして削除します。この途中にタグがあっても、全て無視します。
存在するとエラーになるタグ
<TABLE></TABLE> 表組みのためのタグです。

単にタグを削除しただけでは、意味の分からない文書になってしまう上、文書のフォーマットも崩れるため、エラーとなります。

<SAMP></SAMP> XML→HTML変換時に、規定外のXMLタグがあった場合はこのタグで囲まれます。正常に変換が行われていないことになるため、このタグが出現したらエラーとなります。
存在すると警告になるタグ
<OL>、<UL> 箇条書きタグは、警告して削除します。
上記以外のタグ、オプション
<FONT FACE="MS 明朝">
<P>、<B>など
全てサポート対象外として無視します。

※警告無しで削除します。



  1. HTMLタグのチェック仕様

2.1 共通仕様

(1)タグの認識方法


(2)タグ記号の対応づけ

< BR > < BR < BR > あああ >
↑ ↑ ↑  ↑
OK OK ? NG確定
    ①  ②

①をタグ開始記号として認識します。

②が出現した時点で、①は終了記号なしのエラーとなります。


(3)タグ・オプションの切り分け

<□IMG■SRC□=□"AA.gif"■BorDer□=□1□>
   ↑   ↑      ↑        ↑     ↑
  タグ  オプション  オプションの値  オプション オプションの値

□:任意の半角空白(入れても入れなくてもよい)

■:必須の半角空白(必ず1バイト以上入っていること)

 上図の□■以外の位置に半角空白が入った場合、又は■の位置に半角空白がなかった場合、正しく認識できなくなります。

例)<IMG SRC=AA.gif>

    ↑   ↑     ↑

   タグ オプション オプションの値


(4)開始タグと終了タグの対応づけ

<FONT SIZE=1>小さめの文字<FONT SIZE=6>大きめ</FONT>小さめの文字</FONT>通常</FONT>
  ↑           ↑         ↑       ↑     ↑
  ②           ①         ①       ②    対応なし

内側から順に対応づけていく(ブラウザも同様)


2.2 イメージタグチェック

 イメージタグの左右に、文字又は別のイメージが入ってはいけません。

 そのため、イメージの左右に文字やイメージがあった場合、以下のような対処を行います。


2.3 改行制御

 本ソフトでは、<P><DIV><OL>などのレイアウトに関するタグをサポートしないため、ワープロ等でHTML変換した場合に、<BR>だけを改行として扱うと、文章の体裁が崩れるおそれがあります。

 この問題を回避するため、以下のような改行制御を行います。

①表示上有効な文字の後ろの改行コード(CR+LF)は、<BR>と同様に扱います。

②上記以外の改行コードは、以下のように扱います。