青空文庫の XHTML 版では、作品本文を main_text とし、ファイル末の記載事項を、bibliografical_information とタグ付けしています。
テキスト版を変換するプログラムは、ここで本文が終わり、ここから記載事項が始まるという区切りの目安として、必ず記載事項の始めにくるはずの「底本:」という文字列を利用しています。
底本:「日本の名随筆 別巻31 留学」作品社
1993(平成5)年9月25日第1刷発行
底本の親本:「斎藤茂吉全集 第八巻」岩波書店
1952(昭和27)年6月発行
入力:門田裕志
校正:仙酔ゑびす
2010年5月30日作成
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。
この「底本:」がない場合、変換プログラムはファイル末の記載事項も、main_text に含めます。
青空文庫外のファイルでは、「底本:」がないことが予想されます。
そこで「底本:」のないファイルで、本文の終了を示す注記として、[#本文終わり]を設けました。
[#本文終わり]以降の記載事項を、変換プログラムは after_text とタグ付けします。
※記入例の下に、テキスト版をスクリプトで変換して得た、XHTML 版のタグを示します。
印刷本は国家を作った。インターネットの電子本は、その境を一瞬に越える。とすれば、生まれつつあるのは、地球規模の枠組みで新しい共通の価値を見いだすための触媒ではないだろうか。私たちが築きつつある新しい文書交換の枠組みの彼方に、私は一つを目指す世界の夢を見る。
[#本文終わり]
入力:富田倫生
校正:富田倫生
1997年12月6日公開
2010年3月26日修正
印刷本は国家を作った。インターネットの電子本は、その境を一瞬に越える。とすれば、生まれつつあるのは、地球規模の枠組みで新しい共通の価値を見いだすための触媒ではないだろうか。私たちが築きつつある新しい文書交換の枠組みの彼方に、私は一つを目指す世界の夢を見る。<br />
<br />
<br />
<br />
</div>
<div class="after_text">
<hr />
<br />
入力:富田倫生<br />
校正:富田倫生<br />
1997年12月6日公開<br />
2010年3月26日修正<br />
<br />
<br />
</div> <div class="notation_notes">
<hr />
<br />
●表記について<br />
<ul>
<li>このファイルは W3C 勧告 XHTML1.1 にそった形式で作成されています。</li>
</ul>
</div>
<div id="card">
<hr />
<br />
<a href="JavaScript:goLibCard();" id="goAZLibCard">●図書カード</a><script type="text/javascript" src="../../contents.js"></script>
<script type="text/javascript" src="../../golibcard.js"></script>
</div></body>
</html>
青空文庫では、ルビ用の「《》」など、いくつかの記号に特別の役割を与えています。
テキストを XHTML に変換するスクリプトや、テキスト版の表示ソフトの多くには、それらの特別な意味を解釈する機能が与えられています。
そのため、「《》」本来の、二重山括弧として使おうとすると、期待しない処理結果を生じることがあります。
例えば
研究されたので《花がたみ》という絵には
という一節を、 XHTML 変換スクリプトで処理すると、「されたので」にルビの「花がたみ」を付ける形でタグ付けされてしまいます。
研究<ruby><rb>されたので</rb><rp>(</rp><rt>花がたみ</rt><rp>)</rp></ruby>という絵には
こうした事態を避けるために、底本に「《》」が使われている際、青空文庫の入力では「≪≫ 」などの似通った記号に置き換え、ファイル末に次のように注記しています。
※底本の二重山括弧は、ルビ記号と重複するため、学術記号の「≪」(非常に小さい、2-67)と「≫」(非常に大きい、2-68)に代えて入力しました。
問題を起こす文字は、似通った他のものに置き換えるという方針は、青空文庫の入力では、今後も維持します。
ただし、青空文庫の書式が、簡易電子出版のタグ体系として、青空文庫を越えて利用される可能性を踏まえると、これらの使えない文字への対応策を、誰かが提案する必要があるのではないかと考えました。
そこで、問題を起こす可能性のある記号の代替表現を、ここで提案します。
問題を起こす可能性のある以下の記号の代替表現として、外字注記形式を適用した次の形を提唱します。
《 → ※[#始め二重山括弧、1-1-52]
》 → ※[#終わり二重山括弧、1-1-53]
[ → ※[#始め角括弧、1-1-46]
] → ※[#終わり角括弧、1-1-47]
〔 → ※[#始めきっこう(亀甲)括弧、1-1-44]
〕 → ※[#終わりきっこう(亀甲)括弧、1-1-45]
| → ※[#縦線、1-1-35]
# → ※[#井げた、1-1-84]
※ → ※[#米印、1-2-8]
名称は、JIS X 0208 規格票の「日本語通用名称」、コードポイントは、面-区-点の形で示します。
青空文庫の XHTML 変換スクリプトは、外字注記形式で表現された JIS X 0208 の文字を、外字タグに変換するようにしてあります。
<img src="../../../gaiji/1-01/1-01-52.png" alt="※(始め二重山括弧、1-1-52)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-53.png" alt="※(終わり二重山括弧、1-1-53)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-46.png" alt="※(始め角括弧、1-1-46)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-47.png" alt="※(終わり角括弧、1-1-47)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-44.png" alt="※(始めきっこう(亀甲)括弧、1-1-44)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-45.png" alt="※(終わりきっこう(亀甲)括弧、1-1-45)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-35.png" alt="※(縦線、1-1-35)" class="gaiji" /><br />
<img src="../../../gaiji/1-01/1-01-84.png" alt="※(井げた、1-1-84)" class="gaiji" /><br />
<img src="../../../gaiji/1-02/1-02-08.png" alt="※(米印、1-2-8)" class="gaiji" /><br />
その外字画像を、ブラウザーに表示させるためには、グリフを用意しておく必要があります。
上記の代替表現は、青空文庫の作業では今後も用いることはなく、公開サイトで JIS X 0208 の文字のグリフを用意する予定はありません。
ただし、一般公開する変換スクリプトのページ(「組み版案内」) では、上記の9文字のグリフを、所定のディレクトリー(gaijiの面-区フォールダー内)に置いて、表示できるようにしておきます。
また、「青空文庫早わかり」から引き落とせる外字画像ファイル「gaiji」にも、9文字のグリフを加えておきます。