外字



青空文庫の入力は、普通のパソコンで広く使える、JIS X 0208 と JIS X 0201 の文字を使って行います。

ただし、JIS X 0201 の、「半角カタカナ」は用いません。

Windows や Macintosh が独自に拡張した、いわゆる「機種依存文字」も使いません。

第1第2水準にない漢字や、アクセント符号の付いたラテン・アルファベット、ひらがなの「こ」を一筆でくずしたような繰り返し記号(二の字点)、感嘆符や疑問符二つを1文字分のスペースに組み合わせた記号などは、使える文字の中にありません。

底本にこれらがあったら、以下に示す外字注記で、どんな文字であるかを表現してください。

第1第2水準にない漢字

第1第2水準にない漢字のうち、JIS X 0213 に規定された第3第4水準にあるものは、次のように注記してください。

※記入例の下に、テキスト版をスクリプトで変換して得た、XHTML 版のタグを示します。
※[#「てへん+劣」、第3水準1-84-77]

<img src="../../../gaiji/1-84/1-84-77.png" alt="※(「てへん+劣」、第3水準1-84-77)" class="gaiji" />

※鍵括弧の中で、文字の組み立てを示します。「第3水準1-84-77」にあたる部分は、JIS X 0213 で規定されたコード番号(面区点番号)です。

外字注記された文字を、従来は、「<img gaiji="gaiji" src="../../../gaiji/1-84/1-84-77.png" alt="※(「てへん+劣」、第3水準1-84-77)" class="gaiji" />」のようにタグ付けしてきましたが、2010年5月1日から採用するスクリプトでは、入力例の下に示した形(「<img src="../../../gaiji/1-84/1-84-77.png" alt="※(「てへん+劣」、第3水準1-84-77)" class="gaiji" />」)にあらためます。
第3第4水準にもないものは、次の書式で注記してください。
その際、「ページ数-行数」は、半角記号の「-」の前後を挟んで、半角のアラビア数字で、「135-7」のように書いてください。
※[#「口+世」、ページ数-行数]

※<span class="notes">[#「口+世」、ページ数-行数]</span>
二段組みでは、「ページ数-上-行数」のように、「上」「下」を用いて書いてください。
三段組みでは、「ページ数-中-行数」のように、「上」「中」「下」を用いて書いてください。
四段組以上の場合は、「ページ数-四-行数」のように、「一」「二」「三」「四」を用いて書いてください。

字体の説明や、第3第4水準の面区点番号を含む書式は、「外字注記辞書」にリストアップされています。
「てへん+劣」や「口+世」といった字体の説明は、いろいろな書き方ができる場合がありますが、「外字注記辞書」で検索し、当該箇所をコピーして、入力ファイルにそのままペーストしてください。

特殊な仮名や記号など

使える文字の中にない、特殊な仮名や記号は、高い確率で JIS X 0213 に入っています。
底本にこれらが用いられている際は、原則として、0213 で使われている名前(日本語通用名称)と面区点番号を組み合わせて、次のように注記してください。
※[#二の字点、1-2-22]

<img src="../../../gaiji/1-02/1-02-22.png" alt="※(二の字点、1-2-22)" class="gaiji" />
名前と面区点番号を含む、特殊な仮名や記号などの書式も、「外字注記辞書」にリストアップされています。
「外字注記辞書」で検索し、コピー&ペーストで入力してください。

ただし、ひらがなの「く」を縦にのばしたような繰り返し記号(くの字点)だけは、「/\」で入力してください。
濁点付きのくの字点は、「/″\」と書いてください。

ギリシア語は、JIS X 0208 にありますが、ファイナルシグマ()は欠けています。
ファイナルシグマは、次のように外字注記してください。
※[#ファイナルシグマ、1-6-57]

<img src="../../../gaiji/1-06/1-06-57.png" alt="※(ファイナルシグマ、1-6-57)" class="gaiji" />
なお、「〜水準」という呼び名は漢字に限られます。漢字以外の面区点番号を注記するときは、「〜水準」は入れず、「面-区-点」だけを書きます。

アクセント符号付きのラテン・アルファベット

アクサンテギュ、アキュートアクセント(´)、アクサングラーブ、グレーブアクセント(`)、アクサンシルコンフレックス、サーカムフレックスアクセント(^)、ウムラウト、ダイエレシス(¨)などの、アクセント符号の付いたラテン・アルファベットは、使える文字の中にはありません。

これらには特に、※[#…]という外字注記の書式は用いず、「アクセント分解」と名付けられた手法で表記します。

アクセント分解の概要は、「アクセント付き文字の変換表」にまとめられています。

ここに掲載された「アクセント変換表」を用いて、アクセント符号付きの文字の注記法を確認します。

「raffine」という語の「e」にアクサンテギュ(´)が付いている場合は、「変換表」で e の小文字をあたります。
「233」の「アキュートアクセント付きE小文字」の欄に、表記法「e'」が示してあります。

これを用いて、問題の語は「raffine'」と書きます。

アクセント分解を用いる際には、対象となる範囲を「〔 〕」で特定します。
繁雑な日本の 〔e'tiquette〕 も、

繁雑な日本の <img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />tiquette も
工作員マニュアルは、かな、漢字、記号(句読点と括弧をのぞく)とアルファベットの境を、半角あけるよう定めています。

アクセント分解の範囲を特定するための「〔 〕」は、アルファベットの一部と位置づけます。
よって、かな、漢字、記号(句読点と括弧をのぞく)との境は、上の例のように半角あけてください。

句読点とアルファベットの境は、半角あけません。
よって、次の例では、読点の後にはあきを入れず、ひらがなの「の」とのあいだのみ半角あけます。
いささか、〔e'tranger〕 の感があった。

いささか、<img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />tranger の感があった。
」が行頭に来るときには、その前に半角あきは入れません。
Son coeur est un luth suspendu;
〔Sito^t qu'on le touche il re'sonne.〕
「彼が心は懸《か》かれる琵琶《びわ》にして、
触るればたちまち鳴りひびく」

Son coeur est un luth suspendu;<br />
Sit<img src="../../../gaiji/1-09/1-09-74.png" alt="※(サーカムフレックスアクセント付きO小文字)" class="gaiji" />t q<img src="../../../gaiji/1-09/1-09-79.png" alt="※(アキュートアクセント付きU小文字)" class="gaiji" />on le touche il r<img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />sonne.<br />
「彼が心は<ruby><rb>懸</rb><rp>(</rp><rt>か</rt><rp>)</rp></ruby>かれる<ruby><rb>琵琶</rb><rp>(</rp><rt>びわ</rt><rp>)</rp></ruby>にして、<br />
触るればたちまち鳴りひびく」<br />
アクセント分解で用いる「〔 〕」は、上の例のように、必ず行ごとに、始めと終わりを完結させます。

文を構成する単語にアクセント分解を用いる際は、当該の単語ではなく、文全体を「〔 〕」でくくってください。
〔La pense'e doit remplir toute l'existence.〕

La pens<img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />e doit remplir toute l'existence.
複数の文からなる段落の一部に、アクセント分解が使われている場合は、段落全体を「〔 〕」でくくってください。

アクセント分解は、対象となる言語の基礎的知識を備えた「人」に対して、「読みやすさ」を提供するための工夫です。

青空文庫ではこれを、外字を画像化して置き換える際の「コード」としても利用しますが、「言語に対する知識」をもたない機械に処理を委ねると、特定のケースで問題が生じます。

外字の画像置き換えが正しく行われないと予想される場合には、範囲を特定するための「〔 〕」を、以下のように、対象となる文字だけに限定して用いてください。
jusqu'〔a`〕

jusqu'<img src="../../../gaiji/1-09/1-09-54.png" alt="※(グレーブアクセント付きA小文字)" class="gaiji" />

presqu'〔i^le〕

presqu'<img src="../../../gaiji/1-09/1-09-68.png" alt="※(サーカムフレックスアクセント付きI小文字)" class="gaiji" />

'Je me suis 〔blesse'e〕', dit-elle.

'Je me suis bless<img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />e', dit-elle.

'bless〔e'〕e'

'bless<img src="../../../gaiji/1-09/1-09-63.png" alt="※(アキュートアクセント付きE小文字)" class="gaiji" />e'
このように対処しなければ、例中の「u'」は、「アキュートアクセント付きU小文字」に、下二つの例の二つ目の「e'」は「アキュートアクセント付きE小文字」に、期待に反して変換されます。

アクセント分解の範囲指定に用いる「〔 〕」は、底本で、一般の括弧記号として用いられていることがあります。

一般の括弧として用いられている「〔 〕」は、次のように、そのまま入力してかまいません。
* 『思想』八〇号「空間概念の分析」〔本全集第一巻所収〕参照。
ただし、「〔 〕」で囲まれた範囲内に、アクセント符合付きのラテン・アルファベットがあって、「〔二十歳の〔E'tude〕〕」のように、入れ子で書かざるを得ない場合に限っては、括弧として用いている外側のものを、「[ ]」などに置き換えて、次のように入力してください。
[二十歳の〔E'tude〕]
置き換えを行った際は、ファイル末に「※底本の「〔〕」を「[]」に置き換えました。」のように注記してください。