入力元のHTMLに含まれるタグで、本ソフトで処理対象とするタグは、以下のとおりです。
分類 | 書式 | 説明 |
---|---|---|
文字修飾タグ ※終了タグ必須 ※※文字修飾可能な箇所については、「文字の規定」を参照してください。 | ||
<U>下線を付ける文字</U> | ||
<SUP>上付にする文字</SUP> | 添字とは意味合いが異なります。
全角・倍角の上付/下付も可能です。 |
|
<SUB>下付にする文字</SUB> | ||
<FONT SIZE=n>倍角対象文字</FONT> | HTMLには倍角タグが存在しないため、このタグで代用します。オプションのnの値が6以上なら倍角とみなします。
nは絶対値指定します。相対値指定はできません。 ※XML系書類では横倍角は使用できません(無視する)。 |
|
改行 | ||
<BR> | ||
0x0d0x0a | 通常の改行コードです。本ソフトでは、特殊な扱いをします。 | |
<PRE>~</PRE> | このタグで囲んだ範囲は、[0x0d0x0a]も<BR>と同様に扱います。 | |
イメージ | ||
<IMG SRC="aaa.bmp"> <FIG SRC=bbb.gif> |
SRCオプション必須です。
イメージファイル名中に半角空白が含まれる場合は、["]で括ります。 |
|
リンク | ||
<A HREF="aa.pdf">明細</A> <A HREF=aa.xml>配列</A> |
HREFオプション必須です。
ファイル名中に半角空白が含まれる場合は、["]で括ります。 <A>~</A>で挟まれた部分の文字列は削除します。 ※<A>~</A>の間に<U>等のタグを含まないでください。 |
|
タグで囲まれた範囲を削除するタグ ※警告無しで削除します。 | ||
<TITLE>ここは削除</TITLE> | 通常、このタグで囲まれた範囲は、文書のタイトルとして使用されます。
手続上は不要な文字なので、本ソフトではこのタグで囲まれた範囲を、タグごと削除します。 |
|
<!-- ここはコメント --> | [<!--]から[-->]までの間を、コメントタグとして削除します。この途中にタグがあっても、全て無視します。 | |
存在するとエラーになるタグ | ||
<TABLE></TABLE> | 表組みのためのタグです。
単にタグを削除しただけでは、意味の分からない文書になってしまう上、文書のフォーマットも崩れるため、エラーとなります。 |
|
<SAMP></SAMP> | XML→HTML変換時に、規定外のXMLタグがあった場合はこのタグで囲まれます。正常に変換が行われていないことになるため、このタグが出現したらエラーとなります。 | |
存在すると警告になるタグ | ||
<OL>、<UL> | 箇条書きタグは、警告して削除します。 | |
上記以外のタグ、オプション | ||
<FONT FACE="MS 明朝"> <P>、<B>など |
全てサポート対象外として無視します。
※警告無しで削除します。 |
2.1 共通仕様
(1)タグの認識方法
(2)タグ記号の対応づけ
< BR > < BR < BR > あああ > ↑ ↑ ↑ ↑ OK OK ? NG確定 ① ② |
①をタグ開始記号として認識します。
②が出現した時点で、①は終了記号なしのエラーとなります。
(3)タグ・オプションの切り分け
<□IMG■SRC□=□"AA.gif"■BorDer□=□1□> ↑ ↑ ↑ ↑ ↑ タグ オプション オプションの値 オプション オプションの値 |
□:任意の半角空白(入れても入れなくてもよい)
■:必須の半角空白(必ず1バイト以上入っていること)
上図の□■以外の位置に半角空白が入った場合、又は■の位置に半角空白がなかった場合、正しく認識できなくなります。
例)<IMG SRC=AA.gif>
↑ ↑ ↑
タグ オプション オプションの値
(4)開始タグと終了タグの対応づけ
<FONT SIZE=1>小さめの文字<FONT SIZE=6>大きめ</FONT>小さめの文字</FONT>通常</FONT> ↑ ↑ ↑ ↑ ↑ ② ① ① ② 対応なし |
内側から順に対応づけていく(ブラウザも同様)
2.2 イメージタグチェック
イメージタグの左右に、文字又は別のイメージが入ってはいけません。
そのため、イメージの左右に文字やイメージがあった場合、以下のような対処を行います。
2.3 改行制御
本ソフトでは、<P><DIV><OL>などのレイアウトに関するタグをサポートしないため、ワープロ等でHTML変換した場合に、<BR>だけを改行として扱うと、文章の体裁が崩れるおそれがあります。
この問題を回避するため、以下のような改行制御を行います。
①表示上有効な文字の後ろの改行コード(CR+LF)は、<BR>と同様に扱います。
②上記以外の改行コードは、以下のように扱います。