コモン・ヴォイスという考え方

日本の国語教育では 明治時代に 富国強兵の中央集権強化のため 標準語政策が取られ、ひとときは方言を駆逐するかのような時代を過ごしました。その後 終戦を経て民主化の進展によって揺り戻しが起こり、自由な日本語の表現を残そうという動きが各所で現れました。

しかしそうは言っても 言葉がバラバラでは行政の手続き上の不便があったり 都道府県をまたぐような連絡のやり取りには不便ですから、標準語もとい共通語というアイデア自体は必要なものです。

それが近代化が進むにつれてラヂオやテレビが普及し、東京を中心とする文化は教育を超えて速いスピードで全国へ広がるようになりました。

日本の世帯は20世紀末頃から 核家族世帯が大きく増加し、日本で高齢者と若者世代が同居する割合は大きく減りました。そのため生活の中で地方の方言や古い日本語が伝承される機会は減少しています。

これら状況が重なることにより、共通語の圧力は以前よりもむしろ強まっていると言えます。

日本の場合、2020年の水準でおよそ人口は1億2千万人程度ですが、実にその10%を超える1400万人ほどが東京都の人口です。神奈川県・千葉県・埼玉県を加えると4000万人近くなり、実に日本の3分の1は関東中心であると言っても良いでしょう。

逆に最も人口が少ない鳥取や島根県などでは東京の20分の1未満の人口しかいません。

→ 総務省統計 人口推計の結果の概要 : http://www.stat.go.jp/data/jinsui/2.html

そういう状況では、非関東で 特に人口の少ない地方では テレビやネットや書籍等で他地域から流入する言語ベースとするメディアは倍以上に多く、積極的に対策しないとその地域の方言は自然消滅していく可能性が濃厚であると言えます。

変化と局地性

人々が話す言葉の差異について考えるとき、その見方にはいくつかの異なる次元があると考えられます。

  1. 時代や文明による差異
  2. 地域や社会的地位や職業、性別(ジェンダー)での差
  3. 成長や老化など年齢の変化による差
  4. 感情など精神状態、病気などの体調による影響

1つめはその時代・その地域に生きるすべての人に当てはまる特徴で、国語政策のような大きな世界による影響を受けます。また電子機器のなかった時代と現代ではそれに関連する語句の量は全く違います。一昔前では世界の人々の移動手段と言えば 馬か馬車に乗らなければなりませんでしたから 馬に関する言葉やたとえは多くありますが、現代人に馬の話をしてもごく限られた人にしか伝わりません。

このような差を理解することは その時代が どうであったかを知る歴史文化的な価値はありますが、少なくとも日常の生活の中で大昔の言葉はあまり役に立ちません。時々ものすごく古い時代の故事成語などを引いて使う人もいますが、多様な文学が乱舞する今の時代では それが通じることはあまり多くはないでしょう。

対する 2, 3, 4 については同じ時代を生きる人同士での意思伝達に影響する問題です。

ここで 3, 4 については すべての人が体験する可能性のあることです。子どもや高齢者に伝わる言葉や反対に話すニュアンスを知ることで会話がスムーズになることもあるでしょう。怒っているように感じられる言葉や、体調不良のサインになる言葉などは知っていれば誰かの健康や身の安全に役立つかもしれません。

難しいのが2の部分です。これは同じ時代の中で存在しながらも、特定の人しかそれを経験することが無いままで過ぎる環境がありえます。このことが、その差に触れた時にある種の差別的な感情と結びついたり、無用な劣等感や居心地の悪さを感じさせる場合があります。

音声の記録をのこすこと

言葉のうち、文字に関しては1000年以上も前のものも残されていますが、それに対して音声の記録というものは歴史があまり長くはありません。蓄音機ができて、音質も向上し、それがさらに世界の大衆に普及してからの歴史は100年も無いでしょう。

現代ではこの記録は誰でもできるようになりましたが、まだ課題は残ります。

それは価値のあるものと無いものとが資本主義の原理によって選別されることです。

分別の仕方にもよりますが世界には数千の言語があるとされ、日本語というと方言も入れて数十程度になるとされますが、当然これには話者数の偏りがあります。

それに加えて先に挙げたように、同じ時代 同じ地域であっても 性別や階級 年齢その他によって使用する言葉は微妙に異なります。知っている単語とそうでない単語の差もありますし、当然発音の仕方についても違うことでしょう。

近年 この異なる種類の発音のなされ方に関する注目が高まっています。

学術的・歴史的な研究材料としての価値もありますが、一番は人工知能の出現によるところが大きな理由です。

音声の機械学習

ここ十数年、様々な電子機器が登場して生活が便利になりましたが、その多くは手で操作するものが主体です。文字の入力に関しても手でキーボードなどを操作するものがメインです。

しかしこれでは手がうまく動かせなかったり、目でキーやボタンの位置を見つけられない身体障碍があると それらを活用することが困難となります。

それに対処するために有効な手段の1つが音声による機械の操作です。これを達成するため、現在多くの研究者が音声を解析してその意味を解析可能にする技術に取り組んでいます。

これまでもカーナビなどいくつかの分野では音声が使用されていて、珍しくはないように思うかもしれませんが、地名を尋ねるなど質問の回答に選択肢が限定されている場合、完全に聞き取れなくても消去法によってある程度最も近いものを選ぶことができます。その点 現在求められているのは メールを書いたり問い合わせ窓口へ電話するなど、制約のないフリーな入力への対応を、ストレスのない速さで応答できるような水準です。

こういうタスクをこなすためには、膨大な種類の音声データが必要となります。

現在主流のAI (人工知能)による機械学習のディープ ラーニング(深層学習)の手法では、子供の脳が何度も大人の声を少しずつ違う環境で聞きながら音を知り、何について言っているのか正しく判断できるまで繰り返していくと言ったような、膨大な回数の試行錯誤の上に成り立ちます。

そこに、性別や年齢や地方のナマリ その他の様々な変形した無数のデータを加えながら補正をし、異なる利用者であっても同じ結果が得られるように調整する必要があります。

ところがこの音声データについて、現在のところ研究者がアクセス可能なものはひどく偏っていることが知られています。

研究機関や大手開発企業がある地域周辺や、その分野に興味のある関係者、年齢的に近くて話しやすく依頼しやすい相手などがそうで、一般にこれは都市部で中流の所得以上の男性や、テクノロジーに興味の強い学生などに集中すると言います。

こういう状態でAIを構築していくと、性質の異なる人の発音ではうまく認識できずに誤動作を起こしやすくなることに繋がると考えられます。

音声入力の存在は、キーボードのような他の装置での入力がスムーズにできないような状況でこそ有用です。研究者が集めやすいデータと、実際に貢献するであろう場面とにギャップがあるということです。

オープンという選択肢

20世紀の後半頃から、世界では様々なシステムがオープンソース という形で運営されています。これは特定の営利組織にシステムの利用権を集中させるやり方とは逆に、だれもが自由に利用できることを原則とするような あり方を言います。

ディープラーニングの世界も その仕組そのものは 誰でも利用することが可能な オープンソースのシステムが複数あります。Google等が参加している Tensorflow など有名で、これは内部のプログラム自体は GitHubにて公開されています

しかしその一方で、それを使って実際に人工知能を作るとなった場合、それを学習させるためのデータは自前で用意しなければなりません。

Google, Apple, Microsoft, また Amazon など 主要なスマートフォンやパソコンOS、スマートスピーカーの開発元は、検索システムなどを通じて利用者の音声を多数集めることができます。しかしそれだとその情報はその企業の持つプラットフォームのなかに封じ込められ、他のシステムの利用者は 利用料を払って仕組みを借りるしか無いということになります。

そんな中、その音声情報の独占と偏りについて、オープンな仕組みで共有しようという流れも出てきています。その1つが Mozilla の運営する CommonVoice ( https://commonvoice.mozilla.org/ja ) というプロジェクトです。

このプロジェクトでは誰でもデータを利用することができ、誰でも音声の提供者となることができるようになっています。利用可能な言語には日本語も含まれます。

現在のところまだデータとしては十分な域ではないかもしれませんが、今後増えていくであろうことが見込まれます。

その際に重要となるのがデータの偏りです。いずれすべての人が老化してゆくことを考えれば、同じようなポジションでありながらも老化によって生じる音声の変化に関する研究というのは重要な意味を持ちます。顔や首周りの筋力が低下したりタルんだりして発音の速度や音の高低が変化することは十分考えられます。

現在のシステムの普及で言えば、残念ながら 高齢者の多くがコンピュータを苦手としており、その結果 この手のデータセットの状態としても老人の比率は高くはありません。

これが将来どの程度影響するかは不明ですが、しかし若い人の音声は聞き取れるが、老人の音声は聞き取れないようなシステムが普及するのでは、この先に超高齢社会を迎える日本にとって、うまく機械を扱えない高齢者のために若い世代がいちいち助けを求められるという状況は、あまり歓迎される状況ではないでしょう。

もし すでに自分が高齢であったり、自分の身近に高齢の方で 親しい相手がいるのであれば、そういったオープンの世界への参加というものを進めてみてはいかがでしょうか。

そのことは将来 自分の持つ発音が世界の資産として残り、また後の世代が年老いた際の生活を助ける役割を果たすかもしれません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です