分かち書き | 22世紀の日本語を考える

日本語以外の多くの言語では、単語と単語の間に空白(スペース)を入れます。

日本語では漢字やカタカナ、句読点など複雑な文字を使用すれば自然と単語の境界が分かるため、あまり使用されません。

しかし詩や歌の世界や、子供向けの絵本などではよく現れます。

漢字やカタカナが角が多くてとげとげしい印象を与えることが敬遠される場合や、漢字を習う前の子供にもわかりやすくするためです。

ですがこれはとてももったいないことです。

ひらがなが文の構成上連続する場合にはスペースが存在するとその境界がわかりやすくなります。

漢字が多数連続使用されたり、コンピュータソフトウェアのようにカタカナワードが続く際にも当てはまります。

もちろんこれは今後の日本が外国人移民のために門戸を開く際にも難しい漢字ルールを学ばせる必要性を軽減することにもつながります。

ひらがなだけで構成された文章は、日本語をよく知っている日本人はもちろん、日本語をあまり知らない外国人でも比較的早く読むことができるようになります。

限られた時間と費用で文書を作成しなければならないなら、日本語で書いた漢字交じりの文章を、読み仮名を振るとか、いちいち翻訳家を通して他言語に訳すとか、外国人の日本語漢字教育のためにコストをかけるよりもはるかに合理的な選択ではないでしょうか。

特に道路標識や地図、交通系の案内や、ホテルその他の観光掲示板、パンフレットの類です。

他にもカナが救いになるのは学習進度の浅い子供に対してもですし、もしかすると発達障害や視力障害を持つ人や、自分が高齢になって認知症など様々な多重の問題を抱えた場合にも助けになる可能性があります。

コンピュータと分かち書き

コンピュータにとって、日本語のように空白の区切りがない言語は処理がしづらい言語です。

通常、会話などでは言葉の間に微妙に間を挟んだり、アクセントの登場回数によって単語の切れ目を認識するヒントが得られますが、テキストの場合については発音情報の多くが捨てられてしまうため複雑な問題となります。

一般に、コンピュータで単語の分割位置を推定する方法 (トークナイジング) としては、形態素解析ライブラリを用いる方法がなどあり、これはちょうどカナ漢字変換システムにおいてもっぱらよく用いられます。

しかし、実際漢字変換すると区切りを機械に認識させるために、位置を調整したり、いくつかの文字を消してみたり色々と手間が発生します。

これがうまく行かない理由としては、たとえば「ながら見」「見える化」「推しメン」のような新語の類や、方言、スラング、略語などで、教科書的な日本語の文法から逸脱したような使われ方がなされるケースがしばしばあることです。そういった単語情報は辞書に追加していく必要があり、また現在扱っている文のテーマから離れているものを推定して優先度を下げるなどというような、複雑なメンテナンスを日々要する点が挙げられます。

もし最初から分かち書きを行なっていれば、単語の切れ目を誤って変換してしまうことがなくなります。

仮に分かち書きをしないルールになっている場所に原稿を提出する必要があるにしても、機械的に余分なスペースを消すのは難しくないので、最終段階でまとめて削除すれば良いです。逆にスペースを入れていく作業は人の手で対応しないとなかなかうまくいきません。

逆に漢字変換済みのテキストを解読する際には、同じ漢字に対していくつもの読み方があることが問題となります。“通っている” のような表記では「とおっている」と読むと予想されますが、「かよっている」、あるいは「ツウって居る」と “通” が名詞であるケースもあるので正確に一発で発音や品詞を特定することができない場面があります。

そのほかにも検索系のシステムでも有効です。

たとえば、埼玉県には「さいたま市」という市があります。ここで複数の市について書かれた資料の中から、「さいたま」という文字を含むものを探そうとしたとします。すると「…に行こうとしたさいたまたま見かけた…」というような文中の単語をまたぐ形で余計なものを見つけてしまったりします。

西多摩(にしたま)なら「…にしたままで」やいずれにせよひらがなだけで検索しようとするとおかしな場所にヒットしてしまうことがあります。

ひらがなで検索するなんてめったにないだろうと思うかもしれませんが、音声入力などを考慮すると、データが漢字では読みが特定できないのでカナのデータが必要になったりします。また食べ物で “イチゴ” “いちご” “苺” など表記が安定しない言葉もあるので、カナでの入力を強制することもあります。

では入力も検索対象も漢字なら分かち書きなしでも問題ないかと言うと、そうとも言えません。

たとえば住所を含んだデータベースの中で、 “京都府” を検索すると、“東京都府中市” が抽出されることがあります。他にも “大津市” と “津市” 、“大阪市” と “東大阪市” のように、別の場所の地名を含むようなものはどれも誤って抽出する可能性があります。

もし最初から単語ごとにスペースで区切ってあれば、スペース付きで検索することで余計なものを除外して検索が可能です。しかし実際はそのようになってはいないので、例外としてひとつずつ整理しなければなりません。

このように日本語の文書において単語の境界は明確ではないため、機械がそれを適切に認識していないままデータが保存されていると、検索時に取りこぼしや逆に無関係なものを取りすぎてしまうのです。

OCR

分かち書きはテキストをカメラなどで自動認識 (OCR)する際にも有意です。

名刺や資料など紙の文書をデータ化する必要があるケースです。

たとえば「1こ」のような語句は「に」1字と認識される可能性がありますが、スペースが前後にあるならこれは独立した単語であるとの判別が可能です。「に」一字なら単語としての意味はないのでその可能性は排除できます。

似たようなパターンでは「しま」=「ほ」、「イ山」=「仙」のようなものです。原稿用紙のように1文字の幅が固定であればこのような連結はあり得ませんが、手書きや文字ごとに幅が異なるプロポーショナルフォントだと境界があいまいになります。

しかし分かち書きによって単語として区切りが明確であれば、そのような単語があるかどうかを辞書データから調べることで正確さを高めることができるでしょう。

このようなルールはPCの操作を学習していない子供が筆記試験など紙にペンで記述してもらったものをデータとして読み込み解析する場合などシステム化に役立つ可能性があります。

長文ではありませんが、現在機能している似た技術として、「姓」と「名」の分割があります。

行政などに提出する手書きの書類では、姓と名の欄が2つに分かれていることがほとんどですが、その欄が姓のみだとあらかじめわかっていれば、よくある姓のデータベースとマッチさせることで、自動認識の精度を高めることができ、全部を入力せずに済ますことができます。

住所欄の都道府県と市町村の枠が分かれているものもありますが、これも都道府県は47通りの中から選択するだけで良いので精度がかなり高くなります。もし欄が一個だと、区切りがどこかわからず、都道府県を省略していきなり市町村から書かれていたりするケースも想定すると自動認識の精度は落ちることになります。

上に書いたように分かち書きによって漢字を使わなくてもわかりやすい記述が可能になるなら、難しい漢字の使用をさせないと言う選択肢もあります。そうするとコンピュータによる処理の精度はもっと高いものになるでしょう。

ひらがなばかりだと頭が悪そうに見えると言う言説もありますが、機械に読ませるためにマークシートに色塗りするよりかは遥かに高等ですし、郵便番号のように数字の羅列を使うよりずっと人間的です。

カナだけで分かち書きする表記が知的で無いとするなら、カナよりはるかに文字種の少ないアルファベットだけで常に表記している外国人はどうなるのでしょう。

助詞と分かち書き

日本語には〇〇をや〇〇は、〇〇へのように、単語境界で前の単語との関係性を与える助詞という役割を持つ文字があります。

特にを・ヲは助詞での使用に限定されています。

現在「を」は何か動作に使用する＜目的格＞を作るために使われ、必ずそこが単語の切れ目になることを示す記号として強い効果を持っています。

「おとこ」を旧仮名づかいの「をとこ」と書いて、「あのわかいをとこ」などと書くと、先入観でつい無意識に「あのわかいを」「とこ」と分割しそうになりますが、「あの　わかい　をとこ」と別な箇所に空白を入れると単語の境界がそこには無いことを伝えることができます。

「を」を文中に入れて何になるのだと思うかもしれませんが、これは特に外来語の運用の問題につながっています。

ローマ字入力や五十音表の位置から、を ヲの発音は「wo」であると認識されることがあります。

実際には「オ」と同じ音なのですが、これをwoとすると貴重な文字資源の活用余地が生まれます。

外来語に「wo」の発音を持つものについては基本「オ」と書くか、もしくは「ウォ」としなければなりません。

例えば四分の一を表す quarterはクォーターと書くことが多いですが、よく w 音が欠落して発音されます。クウォーターは発音的には近いものの字数が増して冗長です。クヲーターと書くことができるなら表現の幅も広がり発音の区別も正確になります。

他にも韓国の원 (ウォン)をヲンと書いたりもできますし、濁点付きの ヺ(ヲ゛)なども含めると相当数の新たな発音を既存のコンピュータシステムのままで生み出せる余地があると言うことです。

ゑ ヰ ゐ ヱ という文字も現在のシステムではほぼ問題なく扱えますから、これも含めて利用すればもっと多くの発音を今の文字体系でそのまま実現可能です。

をほどでは無いですが、はも読みやすくなります。

例えば “避難はしご” のように漢字の後ろにはが続く複合語は、助詞のはと見間違えて「わ」と発音してしまったり、一瞬混乱させてしまう表記ですが、はの後ろにスペースがないものは助詞では無いという認識が立てば、そのような勘違いを防ぐことができます。

ルビ点・傍点

分かち書きがいくつかの局面で有用であることは確かですが、いくつかどうしても使用できない局面というのもあるでしょう。これは古くは金属製の活字を用いた活版印刷の世界や、これを前提として文章を組み上げる原稿用紙のような書類もそうでしょう。

そういう場所でもひらがなやカタカナが連続する場合や、熟語で常用漢字外の文字が続く“障がい”(障碍) や “夜とぎ”(夜伽)など助詞と紛らわしい場合など、区切りを明確にしたい時というのがあります。

この場合に用いられるのが傍点またはルビ点と呼ばれるもので、例えば「障・が・い・がある」のようにして点を打つことで分かち書きの代用とすることができます。

これがよく使われる特殊な例としては、外国映画の日本語字幕があります。限られた秒数で視聴者に読ませる必要があり、画面の幅にも制約があることから文字数は抑える必要があります。作品に影響を与えるので過剰な装飾は避けなければなりません。

この手法は日本語の固定幅の文字組みを残しながら、ルビという裏技を使った付け足しの手法です。近代の慣例を崩さず手っ取り早い手法ではありますが、初見では他言語に見られるアクセント記号や下線で強調するのと意図を誤解する可能性があります。

他のデジタル技術が発達し、スペースの他に 斜体字 や太字などの装飾表現のほか、文字の大小を変えたり文字幅を詰めるカーニング調整もかなり簡単にできるようになっていますから、やり方を限定する必要性も薄れてきていると言えます。

加えて日本語だけでなく英語や他の言語が混じった文章を記述するのには、全角で “ＡＢＣ” などとすると間延びして不格好ですし、読み方(発音の認識)にも影響があります。人間の目の視点の中心から一度に認識可能な幅というのは限りがありますから、「Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ」よりも「Computer System」のほうが単語を知っている場合は早く認識できますし、スピーディーな発音をイメージさせる作用があるということです。

よってこの傍点という存在を単語境界の役目として使うのはあくまで過渡期の技術であって、今後の著作で積極的に利用すべき技術とは考えにくいものがあります。

入力上の課題

現在大抵パソコンのキーボードでは使用するOSや設定にもよりますが、スペースを打つと変換がかかってしまったり別な挙動をすることでしょう。

しかし一度入力した後に戻ってスペースを差し込み直すのはなかなか面倒な作業です。

カナで入力中の文字の下に点線が引かれている、変換前のタイミングで Control+Space、Option+Spaceなどで全角スペースを差し込めることがあるのでまずはこれを試してみてください。

ShiftキーやCapsLockで一時的に半角英数モードになる設定があるものならこれを有効にするとさらに半角スペースも差し込める場合があります。

MS-IMEや Macのことえりではこれらが使用できます。左手でShiftなど修飾キーを押さえながら、右手親指でスペースを打つか、またはその逆が使えます。

キー操作としてはあまり使いやすいとは言えませんがこれについては入力ソフト側の改良が望まれます。

または少し設定が複雑ですが、スペースキーでの変換を無効にし、かわりに変換はキーボードの↓キーや、あれば[変換]キーを使ったり、句読点や自動変換を活用する方法もあります。

Mozc や Google日本語入力など、ローマ字入力のキーマップを変更しやすい IME を自分でインストールして、@や;など日本語であまり必要としないキーをスペースに割り当てる方法もあります。

スマートフォンの場合、日本語に続く文字の時に自動でスペースが全角になる機能が働いているものがあります(iOS 13以降では「スマート全角スペース」)。これを設定でオフにするなど対策可能です。

どこで分割するべきか

入力する方法が分かったとして、果たして現代の日本語ではいったいどこで分割するのが適切なのかという問題にぶつかることがあります。

基本的には文節レベルで分割することになりますが、切ると意味が違って見えるケースです。

むかしむかし　あるところに　おじいさんと　おばあさんが　すんで　いました。

ここで「むかしむかし」を「むかし　むかし」と分けた方が良いか、「あるところに」は「ある　ところに」で分けるかといった具合です。

そもそも今の日本語では分かち書きを積極的に使うようなルールはありません。その昔 1950年頃日本で漢字変換できるコンピュータが無くカナ専用のカナモジタイプライターが使われていた頃、分かち書きに関しては積極的に議論が行われていましたが、漢字を使って文字種を切り替える場合にはまた状況が異なります。

分かち書きが使われている例を参考に見てみます。

英文

英文では基本的に全ての単語がスペースで分割されます。これは日本語の漢字のように単語境界が明らかになるマークがないので、代わりにスペースが使われていると考えると簡単です。

しかしフルネーム(氏名)を fullname とするか full name とするかのように、英文でも分割すべきかどうか疑わしい語句もあります。

その他固有名詞や新語の際は、-(ハイフン)を使って例えば e-mail や e-commerce など複数の単語をつなげて使う場合もあります。

分かち書きを標準とする言語であってもこのように多少の揺らぎがあります。

ローマ字

ローマ字文では原則として全ての単語で分割するというルールがあります。

文化庁サイトに昭和24年11月10日に開かれた第1期国語審議会の資料がありますが、この中で分かち書き部会が設定した方針があります。

以下、文例は省きますが引用です。

単語は原則として一続きに書き，他の単語から離して書く。
a　接頭語は続けて書く。
b　接頭語のように用いられることばも続けて書く。
a　接尾語は原則として続けて書く。
b　接尾語のように用いられることばも続けて書く。
c　固有名詞に続く接尾語は離して書く。
d　固有名詞に続く「さん」「くん」「様」「氏」「殿」などの敬称は離して大文字で書き始める
e　接尾語のうち，「だらけ」「ぐらい」は離して書く。
a　助動詞は原則として続けて書く。
b　助動詞のうちで「だ」「です」「らしい」「ようだ」，および伝え聞く意味を表わす「そうだ」は離して書く。
c　助動詞「う」は接続する動詞・助動詞などによって，それぞれの行のオ段長音となる。
a　助詞は離して書くのを原則とする。
b　助詞「は」「も」が，助詞「に」「で」に重なった場合には続けて書く。
c　接続の「と」は続けて書く。
d　禁止の「な」は続けて書く。
e　用言につく助詞のうちで，「ば」「ても（でも）」「て（で）」「ながら」「たり（だり）」などは続けて書く。
f　「に」を伴って副詞句となる場合は続けて書く。
複合語には続けて書くもの，つなぎ［-］入れて書くもの，および離して書くものがある。
a　１語としてじゅうぶんに熟したもの，および連濁の現象を生じているものは，原則として続けて書く。
b　複合語を構成する成分語の独立性がそれぞれ強いもの，および成分語の一つ，あるいは全部が独立性が弱く，単独では独立語として普通に用いられにくいものには，つなぎ［-］を入れる。
c　成分語がそれぞれ独立性が強く，しかも複合語として誤解されるおそれのないものは離して書く。
複合固有名詞は次のように書く。
a　国・都・府・県・市・町・村などを伴った固有名詞は原則としてつなぎ［-］を入れて書く。
　ただし「町」･「村」を伴わないでは地名として用いられないようなものは続けて書く。
b　固有名詞と普通名詞とが複合してできた一つの固有名詞（役所・銀行・会社・団体・場所・施設・建物などの名前）は，それが他に同類がなく，ただ一つのものである場合には，普通名詞も語頭を大文字で書くのを原則とする。
　ただし，分けがたいもの，および連濁現象の現れたものは続けて書く。
c　同類があるものは，普通名詞を小文字で書く。
複合固有名詞を構成する成分語が，いずれも固有名詞である場合にはつなぎ［-］を入れて書く。
i. 　日本人の姓名。
ii. 　同一の地名などを区別する場合。
iii.　二つの地域を合併して一つの呼び名で呼ぶ場合。
iv.　会社名などを冠した駅名など。
「上」「下」「東」「北」「新」などの接頭語のついたて固有名詞は，接頭語の部分も大文字で書き始めつなぎ［-］を入れて書く。
「前」「裏」「わき」などの接尾語を伴う固有名詞は，接尾語の部分を小文字で書き，その前につなぎ［-］を入れる。

例を省略しているので分かりにくいですが、ここに規定されているのは日本語独自の助詞や、複合語、接頭語・接尾語の扱いなどです。

接頭語・接尾語の「続けて書く」とは
「おじいさん」は“ozîsan” とし、“o zî san” とはしないということです。

一方で「助詞は離して書くのを原則」ですから、
「おじいさんと」は“ozîsan to” となります。

この振る舞いはちょうど英文で to, in, or, at のような前置詞や接続語に見られるのと似ています。

しかしこのルールをカナに適用し、「おじいさん　と」まで適用すると、かなり冗長な感じがします。

また複合語では「独立性が強い」という言葉が現れますが、これは “国会議員” などの語句が、“国会” と “議員” に分けて使用できるというようなことを言っています。

「むかしむかし」のような語は単独で使えるので「むかし　むかし」とすることができる一方で、 “昔々” のように漢字ではまとめてしまうこともでき「じゅうぶんに成熟している」とも言えそうです。

とはいえローマ字でmukasimukasiを続けて書くと読みやすいとは言い難いので、通常であれば分ける方が自然でしょう。

「用言につく助詞」は「すんで」を「すん　で」とはしないことになります。これは特別に不自然さはありません。

以上の例からすると、ローマ字での分かち書きルールは、漢字を使用するケースに当てはめるには少しスペースの数が多すぎるような印象があります。漢字を使うと大抵は字数が減りますから、2字 3字の間隔でスペースが頻発することになります。

この国語審議会のメンバーでもある堀内庸村氏は、この時期にカナの分かち書きの議論について出版もしていた時期でもあります。当時と今とでは使われる技術やカタカナ語やアルファベットなどの普及状況が異なるので再整理される必要はあるものの、分かち書きをするメリットについては何十年も前から指摘されることでもあります。

その他の用例

近年 (おそらく2010年以降) 、テレビ番組や映画などでスペースが活用されているケースがいくつかあります。個別の番組や作品などによりやり方が一様でないですが、おおむね次のような例があります。

文末
話者の発言の休止時間
極端に長いカタカナ語
極端に長い漢字複合語

文末というのは “○○首相○○国訪問 ○○サミット開催” などのようなニュース見出しにある例で、ふつうの文章で言えば 、 か 。 の句読点が置かれるような場所です。記号を減らして雑多な情報を単純化しているものと見られます。

発言の休止時間というのは、インタビューであったり出演者がなにか長い話をしているときに、その話者が発言に詰まったりしているような場合に、その “間” を視覚化するものです。より間が長いケースだと “・・・” とか “…” の３点リーダーが使われることもありますが、文末か文頭に限られるようです。

長いカタカナ語は、「コーポレートガヴァナンス」「アファーマティヴアクション」「ソーシャルディスタンス」のような耳慣れない外来語の連続を見やすくするためのもので、これは分かち書きの目的に合致した使い方です。このパターンは ・ の中黒点を挟むこともあります。

漢字複合語のケースでの用例はあまり多くなく、“○○県 ○○協会 ○○支部” などのように、組織名など単語としての独立性が高い状況で出現します。これは独立したラベルとして現れやすく、文として溶け込むような使い方はあまりされていません。

以上の例では一応は見やすくする工夫はしているけれども積極的に使っているようではありませんが、これに対し、一部のソフトウェア企業には違う傾向があります。

たとえば Google ドキュメントやスプレッドシートなどでは “フォントサイズ” とか “アクティビティダッシュボード” など辞書に載ってないであろうカタカナ語の連続に対しては明確にスペースが開けられていて、ヘルプなど他の部分にも同じ表記が用いられています。

同じことは Microsoft にも言えて、“スペルチェック”、“タスクマネージャー” などのほか、msn.com においては “トップストーリー”、“カジュアルゲーム” などの表記を見つけることができます。

意図は明らかではありませんが、目的の情報が視覚的に認識しやすいほか、検索の際に単語を正確に覚えていなくても関連する情報が探しやすいなど利点が考えられます。グローバル企業で全世界的にソフトを翻訳する都合から単語レベルでの取り扱いが楽なようにしていることも考えられます。

しかし、同じように世界企業でも Apple、Amazon などではこのような傾向はなく、あくまで英単語の前後にのみスペースが適用されていると見られます。

スペース幅

一般にPCで入力されるスペースは、日本語だと半角「」と全角「　」の２つのスペースが主流です。

古い時代、日本語のワープロで英字とカナの混ぜ書きをするのに、英字がちょうど日本語の文字の半分になるように組まれていた名残です。

このことは昔、Shift-JIS や EUC-jp のような文字コードで、日本語の文字を素早く画面に表示するのにも意味がありました。これらの文字コードでは日本語は2バイト文字とも呼ばれ、画面のどの場所に表示するのかを決めるのにデータサイズから容易に判断がつくという特徴がありました。

現在では文字の種類が格段に増えて、さらに文字をバランスよく配置するのに、プロポーショナルフォントという文字ごとに異なる幅を持つフォント(字体)も多く使用されています。

現在の体系では、実はスペースの幅というのは２つではありません。次のようなものがあります。

呼称	HTML	Unicode
スペース、半角スペース		U+0020
全角スペース		U+3000
nスペース(文字nと同幅)	&ensp;	U+2002
mスペース(文字mと同幅)	&emsp;	U+2003
1/3幅スペース		U+2004
1/4幅スペース		U+2005
1/6幅スペース		U+2006
細(1/8)スペース		U+2009
毛細(1/24)スペース		U+200A
ゼロ幅スペース	&#200b;	U+200B

スペース

表にHTMLでの記法を入れていますが、テキストエディターでHTMLを直接編集するような人であれば少し手間を割けばこれらの文字を使えます。

またAdobeの InDesignのような雑誌や書籍の専門のソフトでは、これら特殊文字を直接入力する機能があります。

これらの文字は例えば英字カナ混じり文で、英単語と日本語の間に挟むのにもちょうど良い幅を提供してくれます。よくある例としては

当サイトは Google Chrome と Internet Explorer にて動作確認されています。

のようなものです。

英単語にスペースが入っている関係上、その前後にスペースがないとバランスが悪いのですが、等幅で半角スペース１個を入れると大きすぎるため今度は日本語のバランスがおかしくなります。そんなとき、1/8 ならばあまり目立ちません。

ゼロ幅スペースというのは、見かけ上は分かりませんが、コンピュータにだけ認識可能なスペースです。これによって画面の幅が異なる端末同士で改行の位置を特定の位置に強制したりできます。ダブルクリックや長押しした際に選択される場所を調整する効果もあります。

遠い地名や住所だったり、単語境界のわかりにくい「五里霧中」「キリマンジャロ」のような語句がありますが、これに類するような語句を見かけを崩すことなくデータベースなどに登録するには使えるかもしれません。

このように、簡単に入力もできず、見た目にも存在が認識しづらいながらも、複数の大きさのスペースが実現されています。

もともと考えてみれば、はるかむかしに我々の祖先は、筆を使って文字を書いていて、一字一字の大きさや前後にどれくらいのスペースを開けていたかはその時の感情や様々な都合で自由に書いていました。

一文字一文字を同じ大きさで書くようになったのは仏教の経典を写経したり、原稿用紙の上で人々が作文を練習しているうちに遺物の呪いにかかってしまったようなものです。

いま日本語の分かち書きを見てどことなく違和感を感じることがあるとすると、頭の中で縦横の格子のようなものが見えていて、入力するスペース幅でさえも、半角か全角の２つに縛られているということもひとつ原因として考えられます。

日本語の表示先が新聞のように紙を主としていた時代では、前述のような半端な幅はうまく使えなかったかもしれませんが、今後電子端末が主流となれば、入力体系としてこのような幅の違うスペースが簡単に入力できるようになるとこれまでにない新しいやり方が見えてくるかもしれません。

中途半端にスペースを開けると、あまり美しくは見えないのですが、これは句読点(、 。 )や括弧「 」の使い方や、カタカナ語の連続などにも言えることです。文字の見た目の広さが日本人の発音のリズム認識を崩すからです。

しかし日本語が外国語との相互運用を深める中でカナにしてもスペースの扱いにしても調整は不可避であり、句読点にはそれを行頭に置いてはいけないという禁則処理があるように、この分かち書きの問題に関しても恐らくは何らかの最適解があるはずです。

それはまだ誰にも見えていないものですが、いづれ発明がなされることでしょう。