半角カタカナ | 22世紀の日本語を考える

半角／全角とは

日本語で使用される文字は、半角／全角という考え方があります。

同じ文字サイズで印字する場面において、その縦横が正方形ならば全角、半分なら半角、ということになります。

Window系のJIS キーボードでは「半角／全角」キーがあるので認識しやすいですが、それ以外の装置で入力する人にはあまり意識されないかも知れません。パソコンを使わずスマートフォンのみの人だと、全半角はまったく意識しないかもしれません。もちろんFAXを使っていたり手書きする場合にはそんな区別はありません。

コンピュータで使用可能な全角文字にはおおむね次のようなものがあります。

全角ひらがな
- あかさた… わゐゑをん
- がざだばぱ… ゔ
- っぁゃゅょゎ
全角カタカナ
- アカサタ… ワヰヱヲンー
- ガザダバパ… ヴ
- ッァャュョヮヵㇰヶㇱㇲㇷ゚ㇴㇺㇿ
全角英数字、記号（欧文由来）
- ABC １２３％＆！？＋＝〜／￥＄：
漢字、その他全角文字記号
- ☆→←▲■※㈱㌦「」・、。

これに対して半角はあまり多くなく、およそ次のものが該当します。

半角英数字・記号
ABC abc !? %&$ ()/\=- ,.
半角カタカナ・記号
ｱｲｳｴｵﾜｦﾝｯｬｧｫｰ¥ ､｡

全角半角は、数字やアルファベット、記号「 （ ・ 　なども含めて両方存在するものがありますが、片方にしか無いものもあります。

半角英数字について「半角」というのは、全角を用いている日本語の都合で、他の言語では大文字小文字とか、固定幅か可変幅かというフォントの区別はしても、元々同じ文字自体を幅だけで区別はしません。

どの文字が全角か半角かは呼び方がそうであっても、必ずしも絶対ではありません。あくまでその分類の文字を、そう印字されるように設定した媒体でのみ言葉通りの機能を持ちます。

半角全角の誕生

半角カタカナ(Harfwidth Katakana) は、もとは古い電子機器で印字されてきた文字種のひとつですが、最初はそのような呼称はありません。

日本の電子機器普及の初期の工業規格 (JIS 0201) に含められたもので、固定幅で横書き表示されてきたものです。

電子情報機器での文字の規格として最初にできたのは ASCIIというアメリカのもので、英数字といくつかの記号を含めた 0~127までの 7個の電気信号(ビット) からなるものですが、これに拡張を加えたものです。

のちに、電子機器上で漢字などの多種の文字を扱うようになるにつれ、追加の規格と混ぜ合わされ、同じカタカナに対して半角と全角の両方が、コンピュータのデータ上で別の文字として扱われるようになりました。

日本語で使われる文字は、漢字・ひらがな・カタカナ・数字・記号など種類も多く日常的に利用されるものでも軽く1000種類を超えます。

もともと経典の写経や漢詩など一部の分野では縦横に全角文字を整列させることを美とするような世界もありますが、庶民には必ずしも一般的ではありませんでした。複雑な漢字を小さく書くのは難しいですし、逆に簡単な文字を漢字に合わせると紙がもったいないからです。

その辺りのルールを変えたのが活版印刷にあります。多数の活字 (金属製の文字のピース) を版として組んだり、あるいは整理して収納するのには、サイズがすべて同じ方が都合がよく、そのことから「全角」という一種の印刷のための技術が普及するようになりました。

初期の電子機器の規格は漢字は扱えず、銀行振込であるとか基幹業務・メインフレームのためのもので、デジタルの文字の幅は一種類で、印刷とは別の世界です。それが入力した文字を記録するフロッピーディスクのような持ち運べる記録媒体や、かな漢字変換のような技術が誕生し、ようやく電子機器上で漢字を使うことが実用的になり、その時期に全角を標準とする印刷系の用途と交わるようになります。

当時の全角文字は、半角英字やカタカナで用いる1バイト(8ビット) では収まらないため、2バイトで記録するようになりました。コンピューターで画面に文字を印字するには、データの何番目がどの位置に表示されるか計算する必要がありますが、2バイト文字を半角のちょうど２倍で表示すると、この計算が簡単にできるという利点も得られ、双方に都合が良かったのです。

現在ではインターネットが普及し、文字は印刷せずにデータのまま送るようになり、文字の大きさは読み手が変更可能なため、全角か半角かという区別は再び意味を失なってきています。

また印刷のほうもデジタル化が進んでいて、幅の異なる文字が混じっていても自動調整が可能となり、もはやこの区別は無意味になってきています。特にアルファベットや数字が混じった文章では、半角という固定幅ではなく文字によって幅が違う欧文フォントのほうがバランスが良く、日本語の部分だけ幅を固定しても全体としてうまく整いません。

全角固定幅の英数字が役立つのは新聞や昔ながらの縦書きくらいで、半角カタカナと日本語半角記号(｢ ､ ﾞ など)は、どうしても小さく書きたいとか、顔文字のような特殊な状況に限られます。

印刷に詳しくない一般の人からすれば半角／全角の区別はややこしいだけで、自動的にコンピュータの側が認識して適切な幅で処理してくれたほうが楽でしょう。

半角カタカナの不運

半角カタカナは、初期のコンピュータでの表示を目的としたものであるため、当時の必要最小限の文字しか含んでいません。以下のものが全てです。

ｱｲｳｴｵ ｶｷｸｹｺ ｻｼｽｾｿ ﾀﾁﾂﾃﾄ ﾅﾆﾇﾈﾉ
ﾊﾋﾌﾍﾎ ﾏﾐﾑﾒﾓ ﾔﾕﾖ ﾗﾘﾙﾚﾛ ﾜｦﾝ
ｧｨｩｪｫ ｬｭｮ ｯ ･ ､ ｡ ｰ ﾞ ﾟ ｢ ｣

鍵かっこ｢ ｣とか中黒･などは全角以上にコンパクトで使いやすいものもあるのですが、ヰやヱのような文字がなかったり、やや不足があります。

特に濁点゛と半濁点゜が独立した文字であるのが難点です。このため濁点を含む単語「ｼｮｳｶﾞｯｺｳ」などと書くと、濁音部分だけ２字になって幅がおかしくなります。

濁点を別の文字にしているのは、1バイトで表現できる範囲(255種類)で濁音ガギグゲゴ〜パピプペポ 25字を追加すると、もともとある英数字領域と合わせると大部分を使い切ってしまうためです。
また7ビットしか扱わないシステムでデータを読み込んだ際に誤動作の可能性のある特殊な制御信号を含む 0〜32 (0x20) の領域を使わないようにするなど互換性を高めるという狙いもあって、必要最小限としたこともあります。

この互換性というのがキモで、コンピューターの世界では何らかの他の古いシステムと同時に使った際にお互いに悪影響を与えないようにするというマナーが要求され、その古いシステムが絶滅するまでの間は別の誰かが間接的にその負担を背負うことになります。

一般に、ソフトウェアと比較してそれで作成したデータは、はるかに長期間保存されます。1バイトのみで構成される古いデータはそのまま読み取れるようにしておきたいという要求があり、いっぽうでそれと同時に新しいことを実現したいという要求もあり、その両方を実現しようとすると複雑なデータ構造が生まれてしまうのです。

このころの半角カタカナは 0xA1〜0xCFの領域を使うため、 7ビットしか扱えない環境では共存できません。8ビット目(1バイトごとに区切った先頭または末尾) を何かのスイッチとして用いるシステム、特に機器間での通信制御信号と重なるケースは相性が悪かったわけです。

時代が進み全角が一般化するにつれ、この考えは別のルートをたどるようになります。規格EUC-jpは、7ビット制限に対応するために半角カタカナを 2バイト文字として別の場所に移動しました。

対して Shift-JIS では、逆に 2バイト文字の頭1バイトを半角カタカナと重ならないように区画の一部をスキップして格納するようにしました。

Shift-JIS を使うソフトウェアであれば、半角カタカナを含むデータを変換処理なく素早く表示できます。しかしEUC-jpでデータを読み取ろうとすると、文字化けしてしまいます。

このあたりから日本語の文字コード関係で人々がもめるようになります。最初のうちはまだ専門家だけの問題でした。しかし 1990〜2000年あたりで日本でインターネットが大きく普及していくころから、この文字セットやエンコーディングがどうという話が面倒なものとして認知されていくようになります。

さらに厄介なことに、 ShiftJIS や EUCで扱われている文字だけではまだ足りないという人々も出てきます。日本語には旧字体や異体字を含めると万単位の文字があり、全部が収めきれないのです。

ここで、半角カタカナとの衝突を避けるようにしたという当初の設計をやめるべきではないかという考えがだんだん出てきます。そうすれば A100〜DFFF が利用可能となりもっとたくさんの文字を2バイトで格納できるからです。

この考え方の根底にあるのは、全角カナがあるのだから半角カナなど使わなくてもよいではないかという 半角カナ不要論です。すべてのデータを全角にしてしまえば、互換性など無視できるようになるであろうと、半角カタカナを消し去ることを良しとしたのです。

こうして、入力システムの様々な場所に「半角カタカナは使用しないでください」という表記が出回るようになります。プロではない一般の入力者に注意を呼びかける姿勢は、教育的な意味もあるのかもしれないですが、実際にはストレスになります。システム異常を引き起こす文字は他にもあるのですが、半角カナはその代表として不当に忌み嫌われるようになります。

そうこうしているうちに現れた思わぬ伏兵が Unicode です。

こちらは日本国内の個別の事情とは別にして、世界中のすべての文字をひとつの方式に統合しようという、もっと野心的な思想のもとに生まれた文字体系です。

このシステムは、あらゆる文字を統一規格で使えるようにしたいという世界の人々の期待を叶えるべく現れたものですから、そこには不要な文字を廃止しようというような縮小的な考えがありません。

日本語のカナに半角と全角があるのだったら両方とも含めてしまえとばかりに、そのまま整理統合されることなく世界の波に吸収されてしまったのです。

なんでもすべてを吸収していく世界規格に日本独自仕様は対抗できません。カナを統合すべきではないかというような議論は置き去りにされてゆきます。

やがて日本では iモードなどの登場により、文字入力はモバイルへとフィールドを移し、あらゆる人々へと一般化していきます。人々の文字への関心はカナの全角半角のようなオタク的で地味なものよりも、絵文字とかあるいはスタンプのようなリッチな方へとシフトしていくようになります。

当初の携帯電話ではそれぞれが独自の文字コードを用いていましたが、後に現れた世界規格のスマートフォンでは、当然世界を視野に入れた Unicodeが使われています。その圧倒的な普及力に、もはや古い文字コードを使おうなどという動機は一般的には消滅してしまいました。

こうして半角カナは生き残ることになりました。ただ、古いシステムのあちこちに「半角カタカナは使用しないでください」という呪いの言葉が刻まれているため、理由はよくわからないが使ってはいけないものという認識もまた残っています。

フォントと戯れる

半角カナが嫌われる原因のその最たるところは歴史的なものにあるわけですが、しかしその一方で見た目に起因するところもあります。

カタカナはもともと漢字の一部を切り取ったものですから、半角だと漢字が半分だけ書かれたように誤認するおそれがあります。たとえば ｲ ﾋ は 化、ﾀ ﾄは外、ｼ ﾀ は汐などと、組み合わせによっては分かりづらい場合があります。

前述のとおり、半角カナがそのフォルムを顕わすのは、あくまでそのように設定された状況があってのことです。

例えば、半角カナ部分に適用するフォントを変更すれば、その問題は解消できます。

考えうるフォントとしては、幅を漢字の70%程度にして一字に見えるようにする、英小文字のように高さを下げて位置関係で文字種を示す、ヒンディー語などデーヴァナーガリー文字のシローレーカー( हिन्दी など)のように補助的な線画を加えてカタカナをマークする、などが挙げられます。

半角カナは記号含めて全部で 63種であるので、自分で作ってしまうというのもそこまで難しい作業ではありません。

フォント制作にはいろいろな手段がありますが、その中で比較的手軽なのは FontForge というフリーソフトを用いることです。

画像は FontForge の文字編集画面ですが、よくあるパス (輪郭線) 編集ツールでフォントを書くことができます。また別の編集ソフトでパスを書いて SVGなどの形式で書き出してやれば、それを読み込ませることもできます。

半角カタカナは Unicode では uFF61〜uFF91 の位置にあります。それ用のフォントを作りたければ、そこに好きな形状を登録すれば良いということです。

フォントを使ったテキスト編集は、多くの場合は文字ごとにフォントを指定するものが多いですが、Webサイトのような不特定多数が利用する環境においては、優先するフォントから順に複数指定することができます。

フォントファイルの中に、半角カナのグリフ (字形) だけが登録されている場合、第1フォントとしてそれを指定し、第2フォントとしてそれ以外のものを指定しておくと、半角カナだけにそのフォントを一括で適用するということができます。つまり全部の文字を作る必要はないということです。

また逆に、フォントファイルの中から半角カナだけを消したり、最初から無いものを第1フォントとして選ぶこともできます。そうすると抜けた部分に第2フォントを適用できます。

手始めにカタカナの部分だけ登録した適当なフォントを用意してみます。調整が難しくなるのでここでは直線のみでフォントを形成してみます。また半角で邪魔な縦書き由来の斜めのストロークは、識別に必要な部分以外は垂直にしています。

フォントにはカーニングペアという、隣接する特定の２字の字詰めを個別に設定する機能があります。上の枠のフォントには半角カナに続く濁点に、文字幅と同じ値をマイナス設定の字詰めが設定してあります。

同じテキストで特別なフォントを指定していないと、次のようになります。

カーニングペアを使った例では半角カナの濁点の位置は横に突き出ぬように調整されていますが、通常のフォントではｶﾞｷﾞｸﾞｹﾞｺﾞの幅が広くなってしまっています。

またさらに、半角カタカナが登録されているコードポイントに全角カタカナと同じグリフを登録すると、下のように全角も半角も見た目を同じにすることもできます。

上のテキストを別の場所にコピーすれば、全角半角が混ざっていることが確認できるでしょう。

リガチャー

フォントを細工してできることは、濁点の調整だけではありません。特に面白いのがリガチャー(ligature) という機能です。

リガチャーは合字とも呼びますが、特にアルファベットで ffとか fi のように横に伸びる線が続くときに連結させたりするデザイン上の技法のことです。文字種が少ない英文用フォントではこれが設定されているものがしばしば見受けられます。

この機能は日本語でも利用は可能です。正方形で固定幅を基本とする日本語フォントではあまり多くはありませんが、毛筆での手書き風の縦書きフォントなどでは時々これに出会うことがあります。

漢字がある日本語では文字の組み合わせが天文学的な数になるので、うかつに手を出すと沼にはまってしまうのですが、カタカナに限って対応するなら 2000パターンあまりなので、不可能ではない数です。少なくとも漢字フォントを全部作るよりかは楽でしょう。

このリガチャーについても FontForge で作成することができます。

半角カナがあまり使われないということを逆手に取ると、このリガチャーを利用して様々なことができます。

下の例は、ローマ字式カナづかいで入力したテキストに対して、対応する全角カタカナを出すように仕込んだものです。全角１字に見える部分は実は半角カタカナ２字です。カ キ ク ケ コに見える部分はｸｱ ｸｲ ｸｳ ｸｴ ｸｵと書いてあります。

この例自体は実用的な例ではないですが、見た目と実際に書き込まれたテキストが一致しなくてよいという特性は、応用の可能性があります。

例えば上のテキストをコピーして別のところに貼り付けると分かりますが、この記法で文章を書いて公開すれば、別の場所に流用されることをいくらか妨害できます。フォントが変わると別の字になるからです。AIとかクﾛｰﾗｰの類がサイトのデータを勝手に収集することに対して、それらを騙すような用法もあるかもしれません。

他の例としては、何かのキーワードに対してオリジナルの絵文字やアイコンを表示するといったことも考えられます。“ﾊｰﾄ” と書くと “♥” が表示されるみたいなことです。アイコン以外の場所には常に全角カナを使うようにしていれば、予期せぬ場所でアイコンが出て困ることもありません。この技法は、テキスト読み上げ機能を使ったときにアイコン名を読み上げてくれる効果もあります。

フォントの編集は緻密な作業で時間がかかりますが、慣れてくればだんだん楽しめるようになります。自分の名前や店のロゴやメニューを作ったり、何かと利用できる場面もあるでしょう。もし試したことがなければ一度やってみると良いかもしれません。

異体字セレクタ

濁点や幅の問題については、フォントが助けになるということは分かりましたが、それでもどうにもならない部分がまだ残ります。それが全角にある一部の文字が半角に不足しているということです。

旧ワ行の一部 ヰ ヱ
特定用途小文字 ヵ ヶ
合拗音用 ヮ
アイヌ語用小文字 ㇰ ㇲ ㇳ ㇷ ㇹ ㇷ゚ ㇽ ㇼ ㇺ ㇴ

これらの文字を半角で表示したいという要求がいかほどあるかは明らかではありませんが、純粋に機械的にカタカナを拾ってすべて半角化するようなプログラムを動かすときに、これらの文字が含まれているとエラーが起きたりしてしまうという点があります。

半角カタカナが登録されている Unicodeの番地は隙間なく詰まっているため、ここに多数の新たな文字を割り込ませるのは無理があります。そこで考えうる方策としてあげられるのは異体字セレクタ(VS)の活用です。

異体字セレクタは日本語の旧字体などの異体字や絵文字などで多く使われている文字合成の手法のひとつです。ちょうどこれは カ+゛=ガ とするのと似たようなもので、特定の文字(コード)を並べたときに別の文字を表示することができます。

厳密には異体字セレクタはそれ単独で表示できず、濁点とは似て非なるものですが、プレーンテキストデータに埋め込んで保存が可能です。

ヰに対応する半角カナを出したければ、ヰ+(半角化) という２字を並べれば良く、あとはそれに対応するグリフをフォントの方に登録しておけば実現できるだろうということです。

ただ残念ながら現状は (半角化) なる VS は規定されていないため、そのような使い方をしても他の環境にデータを送っても再現はできません。半角のそれを使いたいという要望が多数あがらないと規格化は実現されないでしょう。

さりとて技術的に実装自体は難しい内容ではないので、絶対に無いとも言い切れないでしょう。

カナの後ろに VS16などを適当に付けたデータを送ったからといって、たいていは無視されるだけなので、私的な通信や了解を得た上で用いる限りは問題にはならないでしょう。Webサイトの場合はフォントも含めて公開する分には自由です。

この実装は、技術的に別の利点もあります。

ひとつは、半角／全角変換システムを作る場合は、単に VSを付与/削除するだけで良く簡単になります。プログラミングでこれをするには “\uFE0F” のようなエスケープシーケンスをカタカナの後ろに追加／削除すれば良いということです。

全角半角が混在するようなデータベースからキーワード検索するような場合でも、VSを削除して検索するだけで良いので、１文字ずつ対応する文字を割り出して置き換えるよりもずっと効率よく検索できるでしょう。

また仮にもし未来にカタカナが増えた場合は、自動的に半角も対応できます。Unicodeの新たなブロックを半角用に増やす必要がないということです。

将来的に仮にすべての半角カナが VSで実現されるようになれば、既存の半角カタカナのコードを廃止することもできます。半角カナ廃止論の夢が形を変えて実現するということです。

ここで、半角カタカナに cmap マッピングしたフォントの例を載せておきます。１行目は普通のカタカナ、２行目は半角カタカナ、3行目は全角カタカナの各文字に VS16 を添えています。上下段で幅が違うのに、別の場所にテキストをコピーして幅が同じになればそれは異体字セレクタの効果です。

この半角カナを拡張するのは文字の種類を減らして日本語を簡単にしようという考え方とはベクトルが異なるように見えます。

しかし全ての文字に全角半角ペアが存在すれば、機械的に変換をかけてもデータの欠損は起こりません。一度入力したテキストの全角半角を手軽に安心して切り替えられるということになり、扱いやすくはなるでしょう。