日本における文章制作の作業量を計るシステムの1つに、文字数で価格を決める仕組みがあります。
たとえば1文字=1円などの設定で、字@1円 とか 1円/字 のような表記の仕方をしたりします。
プロの作家だと このような 文字単位ではなく記事単位であったり インタビュー形式ならその時間で○万円とか、あるいは書籍販売の出来高でボーナスをつけるなど、やり方はいろいろです。
いずれにせよ 手っ取り早く 価格を設定したり依頼するのに そのような字数による計算方法が使われることがあるということです。
一方で、日本語以外の文章だと どうなるかというと、文字数ではなく単語数による価格算定がされることがあります。
顕著な例では例えばワープロソフトである Microsoft Word など、標準機能として単語数を測定する機能があり、スペースで区切られた文字の塊をカウントすることができます。文字数もカウントできますが、少し奥に追いやられています。
また外国語文書を翻訳する際は、単語数で価格を決めることがよくあります。
このような違いは 概ね次のような言語の差が原因していると考えられます。
- 漢字は一字ごとに意味を持つが、英字など表音文字は文字に意味が無い
- 分かち書きを使用しない日本語は、単語数を数えにくい
- 日本語の文字サイズが正方形に近い
- 電子化の浸透度
追って見ていきます。
表音文字・表意文字
アルファベットのABC
や ひらがな・カタカナなど、文字が何かの 発音 を表している文字を表音文字と呼びます。
反対に日本語で特に漢字など、一文字ごとに意味がある文字を表意文字と呼びます。漢字以外にも1
、2
など数字や&
や¥
のような一部の記号も、意味を持つので広い意味では表意文字と言えるかもしれません。
また絵文字と呼ばれる “👍” とか “🙂” のようなものも 新手の表意文字と言えるでしょう。
表音文字は、文字そのものに意味が無く、いくら文字数が多くても それだけで価値を見出すことが難しいものです。別の言い方をすると、意味を考えるには ある程度の文字の塊が なければならず、塊で価値を感じることができるとも言えます。
分かち書き
単語や文節ごとに空白で区切って文章を書くことを、分かち書きと言います。
日本語では一般に分かち書きは ほとんど使用されず、特定の用途に限って限定的に使用されます。
分かち書きの是非については 取り扱いませんが、分かち書きされていない状態で単語数を数えるのは簡単ではありません。
「私は東京から来ました」 を「私は」「東京から」「来ました」と分割するように、多くの場合は ひらがなの後に漢字またはカタカナが現れると文節が分かれていると考えられます。
ところが “竹の子” のように間のの
を含め1単語であるように認識される語があったり、“超常現象” のように “超常” + “現象” の2語なのか1語なのか判定の難しい語句もあります。“未確認飛行物体” は いくつに分けるのでしょう。
“八つ当たりする” ・ “見ず知らずの” ・ “行き当たりばったりの” ・ “キャンセル料” のように、間のカナや文字種、文字数が異なる複合語もたくさんあります。
現代ではコンピュータの性能も高まっていますし、形態素解析や 機械学習による言語分析AIも発達していますから、技術的には単語の数を数えることはできると考えられます。
しかし、そうやってシステムで自動的に数えることができても、人間が認めるかどうかは別の問題です。カウント結果を人が手作業で確かめられなければ、算定方法としては不正になる可能性があるためです。
その意味では、句読点の数とか、行数、段落数のような、誰が見ても明らかでなければ有効な算定方法に なり得ないということになります。
将来的にAIの信頼が高くなれば、それによって数えた単語数が認められるかもしれませんが、少なくとも今の段階では誰もが認められる状態にはなっていません。
正方形
日本語で手書きで作文する時、原稿用紙を使用した経験があるでしょう。400字詰めなど、縦横にハシゴのようなマスが敷き詰められた用紙のことです。
原稿用紙は 日本語のほかにも中国語はもちろん、韓国語のハングルも原稿用紙を使って書くことができます。句読点や数字、記号など細かいルールは違いますが、原則1マスに1文字を挿れるというところは変わりません。
もともと日中韓のいわゆるCJK文字は いずれも紙に筆で墨を使って書いていたものですから、画数の多さや強調など文脈によって 文字の大きさに差が発生するのは当然でした。
ですから原稿用紙のように縦横にきっちり書く様式は、古くは仏教の写経のような用途ではあったにしても、あまり一般的なものではありませんでした。
これが明治時代あたりから、ペンなどの筆記具や印刷技術の進歩と、教育の広がりにともない縦横まっすぐ同じ大きさで書く様式が広がりました。
日本でパソコンが広く普及するよりももっと前、決算書や収支報告書のような狭い範囲で発表されるビジネス文書の印刷には、和文タイプライターが用いられていました。
これは金属製のハンコのような”活字” を文字盤から拾ってカーボン紙に打ち付ける機械で、歯車によって1文字分ずつ紙を動かすようになっており、それを用いると必ず全ての文字が同じ大きさで印字されます。
現在の印刷機では、文字ごとに違う幅を使用することができますが、そういう技術が誰でも使えるように普及するのは平成の時代になってからです。
また新聞や書籍の世界では、このタイプライターとは少し違う活版印刷技術が使用されてきました。“活字” を用いるのは同じですが、これを組版という板の上にビッシリと並べていき、固定した上で、その上にインクをつけて次々と給紙しながら押し付けていくというやり方です。
多量の印刷を高速に行うことができるかわりに、最初に組版を行うためには多量の活字を正確に敷き詰める必要があり、これは非常に手間がかかる作業でした。この作業は職人によって行われ、少量の印刷にはコストがかかりすぎるという性質のものです。
縦横の比率が1対1で正方形に収まる日本語の文字は、このような機械の効率のために生まれ、自然のものではありませんが、そうやって作られた活字の字形が一般的になり、人々の目が慣れていくうちに、それが最も美しいと認知されるようになりました。
こうして活字で印刷する場合、1文字の面積は一定であることから、紙1ページに書くことのできる字数は面積に比例します。新聞1部、あるいは書籍1冊に必要な文字数というものも逆算されるようになります。
例えば書籍の場合、現在の文庫や新書のサイズでは約200ページ、10万〜12万字くらいとなります。
よほど人気作家や特殊な専門書でない限り、大衆が購入する価格はだいたい本一冊なら千円前後など おおよその相場は決まっています。
おおよその印刷部数を最大として、印刷代やその運送など原価を引いていくと、原稿用紙で一枚あたりいくらという原稿料が決まってきます。最終的に原稿用紙1枚、あるいは1字でいくらと換算できるわけです。
電子化
1990年代末から2000年ごろにかけて印刷技術は大いに発達しました。それまで使われてきた活版活字に代わって、コンピューター上で文書が作成されるようになり、デジタル製版が行われるようになりました。
こうなってくると1文字の幅や大きさ、字体、字間や行間の幅も、臨機応変に変えられるようになります。
これに至るまでの文字単価という考え方は、紙の面積から逆算したやり方ですが、文字サイズが変えられたりすると一律の単純計算で文字の単価を割り出すことはできなくなっていきます。
さらに2010年以降になると、通信技術の発達が何より多大なインパクトをもたらします。
インターネットの普及で誰でも文書が簡単に公開できるようになったことで、紙への印刷という技術は、相対的な価値を低下させます。
そこに加えて、コンピュータの小型化・大容量化により、紙を持ち歩く必要性が低下してきていることです。
また複雑なのは、電子化された文章は、その人の好みで文字の大きさや字体などを設定次第で変更できるという性質があります。
紙の原稿 一部あたりでいくらというような単純計算から、フレキシブルで測定が難しいものへと変容していくわけです。
1文字の価値
日本語の持つ1文字の価値は、いろいろな意味で大きく変わりつつあります。
有限であった紙面の広さは無限になり、文を届ける配達コストは通信に入れ替わり ほぼゼロとなりました。
また見逃せないのが、日本語そのものが変容しつつあるということです。
グローバル化と情報流通高速化の影響で外来語が翻訳されない姿のままで日本語に入り込んでいる例が増えています。
適切な漢字が見つからず漢字が割り当てられないカタカナ語が大きく増えているだけでなく、アルファベットだけで構成される日本の企業名や日本製の製品名・サービス名はたくさんあります。
そのため現在の文章では表音文字の割合はかなり多くなっていて、単語レベルで見ても1文字の価値は小さくなっています。
たとえば “LINE” のような単語は日本語で言うと線
の1文字にしかならないものですが、全角英字なら4倍の幅をとります。
“PayPay” なども日本語化すると 払払
くらいが妥当ですが、これもアルファベットを使うと字数が増えます。
こう言う表記は何も民間企業だけでなく、日本政府ですら「デジタル庁」などのカタカナ語を取り入れる時代ですから、もはや表音文字へのシフトはますます加速すると考えられます。
またデジタルの世界では紙の広さが無限であることから、漢字よりカタカナを使って文字数を無駄遣いするだけでなく、積極的に改行や区切り線などで適当なスペースを空けることが行われます。
この技法は特に電子メールに顕著で、デザイン性が比較的少ない文字重視のWebサイトにもそういう傾向があります。
横書きであるという点を除けば、鎌倉時代から江戸時代ころの、巻き物を使って文書を送っていた状況にも似ており、古来からの伝統的なやり方であるとも言えなくもないですが、日本の文明開花と民主化が急速に進む明治から昭和に至る間に根付いた組版の技術を破壊しているもので、その時代に愛着がある人からすれば大変に見苦しく見えるかもしれません。
こうしてみると、日本語の文字が単独で持つ価値というものは、内実ともに薄いものに変わりつつあり、文字単位で価格を考えると言う行為は、矛盾を抱えたものになってきています。
人工知能技術が発達してきている今こそ、日本語の文のもつ真の情報量というものを測定する新たな技術が求められていると言えるかもしれません。