言語を強くするということ | 22世紀の日本語を考える

言語がその力を強くするには、次のような観点で評価が必要です。

早く読み書きできること
早く聞き話せること
簡単に習得できること
伝え間違いや漏れが発生しにくいこと
保存・検索がしやすいこと

日本語は、1のうち特に読みの部分に関しては、漢字が (その割合に適度なバランスが取れている限りは) 目に一度に入り素早く意味を伝えることができるという利点があります。

特に漢字は略語に強く、英語だと United Nations を略して “UN” となる国際連合を表わす “国連” なども、そのままでも文字からおよその意味合いが理解できます。１文字あたりの情報密度が高いとも言い換えられます。

しかし書く場合については、残念ながらひどく効率が悪いのが現状です。

最大の理由が同音異義語の問題です。

コンピュータ(ワープロ/Word Processor)の登場で、難しい漢字でも比較的素早く書けるようになりました。以前ならば漢字そのものが画数が多く非効率とされてきましたが、現代では文字の美しさや訂正しやすさの観点で大人は手書きを避けます。よって画数は問題になりません。

ですが同音異義語があるせいで、漢字の変換ミスについて後で読み直し確認する作業が必要です。

そのため変換が一切必要のない英語などと比較すると、入力にかかる時間は倍近くなってしまいます。

近年では AI (artificial intelligence: 人工知能)の発展していることから、多少推測できる精度も上がってはいますが、これは別の問題もあるために限界があります。

また変換が正しいにしても、たとえば「いちご」「イチゴ」「苺」は見た目に印象が異なりますし、読者が低年齢や外国人移住者など漢字に不慣れな相手を対象とする場合はむやみに難しい漢字を使うと読めなくなってしまいます。

2の聞く・話すは、1と似ているようで別の問題です。

“知能” を “intelligence” と言うと発音が長く複雑になり、効率は悪くなります。

しかしたとえば「効率」という単語は「公立」という別の語句と発音が衝突するため、4の伝え間違いという観点で言えばこの短い単語が別の弱点を持っていることになります。

現在の日本語の漢字の存在は、文書として目で追うのには効率的でも、ひとたび声に出して読み上げると、急に理解が難しくなってしまうのです。アクセントでいくらか区別はできるとは言っても、地域や年代によりギャップがあり、小さい集団でしかうまく機能しません。

小さな修正

会話における同音異義語の問題は、前後の文脈をよく考えるとか、いわゆる行間を読めば避けられる問題です。話す側についても誤解を避けるように単語を付け足したり言い換えをすれば良いと。

ですがこのような日本語のわずらわしさは、もっと根本的なレベルで解消できると言う点にも気づくべきでしょう。例えば次のような文です。

「ニシグチにいってくれ」

このときニシグチは人名と地名の両方の可能性があります。
加えていってにも行ってと言っての両方の可能性があります。

この文を聞いただけでは受け手はどう行動していいのか判断できないのです。

コンピュータで漢字変換する際も同じです。
言っても行ってもどちらに変換すればいいか直ちに判断できません。

このパターンは何も “ニシグチ” に限りません。“東山” でも “山口” でも、“岡” でも “林” でもどこにでも現れます。

上記の文章は例えば 担当の西口さんになど、人名らしさを付け加えれば解消できます。ですがこれは1の早く読み書きできること・2早く聞き話せることを犠牲にしており、言語としては劣化しています。別の言い方をすれば、生産性が低いのです。

ところで実はこの衝突は、関西では起こりません。
何１つ単語を付け足す必要もありません。

なぜなら言っては言うていうてとなるからです。

これをウ音便おんびんと言います。一方言ってのほうは促音便そくおんびんと言います。

もっとひどいのはかってです。買って・飼って・狩って・刈って・勝っての5つもあります。

ですがこれもウ音便なら、買って・飼っては「かうて」となり衝突は半分に減ります。

「かうて」や「いうて」は訛りなまりのように聞こえるので良くないとする考えもあるかもしれません。しかし古典までさかのぼると“言ひていいて” という表記に出会います。促音便は、近代になって別の地域の方言をもとにその記法が標準化されたもので、歴史的に正統性は必ずしも確かではないのです。

また例えば現代語でも皆がよく知っている単語で「ありがとうございます」「おはようございます」などの言葉があります。もし厳密に文法を適用するなら「ありがたくござります」「お早いことでござります」のようになるところですが、広く普及しているがために矯正されないものもあります。

日本では明治・昭和のころに、標準語というひとつの形を制定しました。この標準語は恣意的な選択による物で、むしろ問題を大量発生させてしまう選択ミスに見えるものが多数存在します。

当時の技術力ではこれはどうしようも無かったのかもしれません。

現代のようにコンピュータで検索することも容易ではなく、インターネットを使って全国の言葉を集めるようなことも当然できませんでした。

それが現代の日本人にはかつて無かったコンピュータのパワーを行使することができるようになっています。1億の国民から1000文字の作文を集めても1000GB程度でしかなく、1日あれば全て読み込むこともできます。

ところが今行われていることはまだまだ残念ながら、日本語という道具を便利にするよりもむしろ、不便な道具に合わせて我慢すると言う旧来のやり方を好んで立ち止まっています。

いくつかのコンピュータソフトの中には、日本語の使い方として(20世紀までのルールで)不自然なものをエラーとして指摘する機能を持つものがあります。これは日本語の言語機能の低さを機械にフォローしてもらっている状態です。

しかし本来、間違いが発生するということは、それ自体が貴重な情報です。間違いを訂正すると、その情報は失われます。ルールのほうが最適でない場合に、そのルールを訂正するヒントも同時に失われてしまいます。

AIに日本語変換の誤りをいちいち注意されて機械に言葉の使い方を操られるのがいつまでも続くのと、AIで日本語の最適な用法を見つけ出してそもそも間違いが起こりにくいものに作り替え、機械ではなく人が日本語を操れるようになるのとどちらが良いでしょうか。

学習の容易性

同音異義語の問題は、3の学習難度にも影響します。

中国から文化を取り入れた日本語では、公式文書では長らく漢字を正書としてきたこともあり、カナに関する改良はかなり限定されたものしかありません。発音を表わすカナには規則性が無く文字も五十音に濁音と多く、覚えるのが大変な割に、表現できる音は単純なものに限られます。

そのカナの表現力不足により全く無関係な単語が同音衝突しており、結果として漢字を覚えずには正確にものごとを理解しづらい、表記中心の言語から抜け出していません。このことから、ごく日常生活で必要なレベルに至るまにはとにかく多量の読み書きをこなす必要があります。

また日本には多くの方言がありますが、同じ文字でも地域で発音が異なる場合があったり、直接漢字やカナで違いを書き表わす方法が確立されていないものもあります。外来語に関しても表記ゆれが激しくあります。

逆に良い面としては、カナは比較的読み方が固定されていて、同字異音が少ない点があげられます。

たとえば英語で aの一字をとっても、ant/able/eagle/all はそれぞれ「ア」「エイ」「イ」「オ」など前後の並びで大きく変化します。sやc、thなども単語によって発音が変わります。kやhや、bやeも発音したりしなかったりするので、bomberを「ボマー」ではなく「ボンバー」と読んだり、knowを「クノウ」と読んでしまったり誤読が起こりがちです。

話者が多いという意味では英語には高い利用価値がありますが、読みやすさについては必ずしも優秀とは言えません。話者が少なくともローマ字に近いイタリア語や、簡易さを求めた人造言語であるエスペラントなどに比べると相当に複雑で、覚えにくい多数の例外があります。

その点、カナであれば、いくつかの例外はあるものの比較的少数です。助詞に使われる “〜は”、“〜へ”、その他いくつかの長音母音がありますが、読み間違ってもさほど影響がありません。

ですから同音語の問題を解決した上で、無用な漢字表記を避け、単語の区切りに分かち書きを積極的に用いれば、少なくとも読んで話すというだけなら難易度が相当下がるということになります。

データと日本語

5番目の保存・検索についても、日本語はかなり不利な面があります。

保存と検索は表裏一体の関係にあります。

たとえば住所録などでは読めない地名を探しやすくするため、フリガナも一緒に保存し、アイウエオの先頭文字ごとに見出しを作ったりします。

ですが自然な文章を探す場合はどうでしょう。例えば機械の故障、事故、法律相談、トラブル、病気の症状があった場合には過去の事例・判例・症例の中から似たようなものを探し出します。

「注文の取り消し」のやり方を探したい時、日本語では「取り消し」と「取消し」のように、同一の単語に対して複数の送り仮名の付け方があるなど、記法のバラツキが存在します。送りカナの推奨表記はありますが、スペースの都合で省略したり、区別のために長くすることに制限はありません。たとえば “行う” と ”行なう” はどちらでも良いことになっています。コンピュータの入力ソフト(IME)はそれを学習してしまうので人によって異なります。

だからといってテキストを何でもひらがなで入れてしまうと分かち書きルールのない日本語では読みやすさと検索のどちらにも不都合を生じます。

現在、日本人が使用しているのは Microsoft社のWindows、Google社のAndroid、Apple社のiPhone・Macなど出自が海外のコンピュータやOS(オペレーションソフトウェア:NHK流で言う基本ソフト)がほとんどです。

これらコンピュータを使って入力がしやすい単語とそうでない単語の間では、利用頻度が当然変わってくることが予想されます。

まして固有名詞、非標準の単語や言い回しとなると、各OSメーカーが登録していないために、どうやって入力していいか分からないようなこともあります。

その一方で、データを登録する側はどうかというと、利用者側が想定する入力しやすさとは別に、自身が正しいと感じる文字を使いがちです。

高知県には檮原町ゆすはらちょうという町があります。この檮という文字には梼という略字が存在します。日本政府の総務省では略字が用いられているため、こちらが広く登録されています。一方で郵便では歴史的な経緯から旧字が使用されています。このため梼原町の郵便番号を漢字略字で検索しようとすると見つけることができません。

どちらが正しいというわけではありませんが、古い字にこだわってしまうと、もしかすると外部からの利用者を排除してしまうリスクというものを考える必要があります。

いまのところ、まだまだデータ社会が日本中にくまなく広がった状態にはなく、一部に紙でしか存在しないものや、口伝として文書化されていない情報も残っています。

これからデジタルネイティブと呼ばれる子供たちが大きくなり、社会に出る頃には、すべての漢字は機械によってしか書き出されることがない時代がくることでしょう。

ネットが普及した世界では、検索できないものはこの世に存在しないのとほぼ同じです。

未来の日本人が検索するのは未来の日本語です。古い文字のまま登録された現代の情報は、未来の日本人にとっては検索不能に陥り、存在しない歴史となってしまうかもしれません。

日本語に手を入れるのならば、いまのうちに修正を加えておかなければいけません。百年経っても使える強い日本語というものを、今のうちに設計しておく必要があるのです。