コンピューターは人のように話せるか?―話すこと・聞くことの科学

コンピューター科学の話かと思いきや言語の話からスタートした。これがまたクソおもしろい。

以下、個人的にビビビと来た箇所を引用していく。

「言語とは人間を獣から隔てる境界線であり、人間以外にこの一線を越えた動物はいない」と、オックスフォード大学教授のマックス・ミュラーは一八六一年に述べた。人間をほかの動物から隔てるのは、言語を使って推論する能力なのだ。ミュラーの言葉を借りれば、「言葉を発さずには推論できず、推論せずには言葉を発することもできない」。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

言語を使って推論する能力!しびれる。後半のミュラーの言葉もいいなぁ!ChatGPTも言語の推論が優秀だが、こういうところが後半につながってくるのかー!?

ある晩、ベッドの中であれこれ思いをめぐらせていると、「聴覚とは、動物の存在に気づいて視覚にそれを確かめさせるためにある」という考えが浮かんだ。音源定位の進化を促した淘汰圧は、動物にとって最もよく見える視野の範囲と関係があるのではないだろうか。馬は一八〇度を超えるすぐれた水平の視野をもつ。目で音源定位の正確な情報が得られるので、聴覚に頼る必要がない。聴覚に必要なのは、弱い音を聞き取る感度だけだ。一方、人間は違う。最もよく見えるのは、網膜の小さなくぼみがもたらす「中心視野」と呼ばれるほんの小さな範囲だけで、この視野は一、二度の幅しかない。目を向けるべき方向を正確に特定するには、すぐれた音源定位能力が必要なのだ。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

人間の可聴領域について触れていて、目の位置でそれが変わってくるって慧眼だ。おもろいなー。

ほとんどの哺乳類は喉頭の位置が高く、鼻で呼吸をしながら同時に口で飲食物を飲み込めるようになっている。ヒトの場合も、赤ん坊のうちは乳を吸いながら同時に呼吸もしなくてはならないので、この仕組みが不可欠である。しかし生後三ヶ月から四歳までのあいだに、ヒトの喉頭は下降する。男性の場合は思春期になるとさらに低い位置へ下がる。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

ここよ、ここ。我が家の3歳の息子が上手に発音できないのは咽頭の降下中だからだ。なるほどなぁ。

産声を上げてから臨終の床で辞世の言葉を発するまで、声は生涯の伴侶となる。人が生涯で話す言葉は平均五億語に達し、世間で思われているのとは違って男女間でこの語数に差はない。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

喉は加齢とともに変化していく。特に50代になると喉が開いてまた別の声に変わると言われている。ヴォーカリストの声が変化するのもそういうことだ。おもろ!

思春期になると、テストステロンの働きで男性の声帯は厚みと長さを増す。これによって、声は一般に一オクターブほど低くなる。〈虹の彼方に〉の出だし(Somewhereovertherainbow)で音の高さが一気に上がるが、あれが一オクターブだ。ただし思春期の男性の場合は向きが逆で、「where」の音から「some」の音に向かって下がることになる。同時に、声道が成長することによってフォルマント周波数が下がり、声の質がさらに変化する。一方、女性の声がどう変化するかについてはあまり論じられていない。一般的に、一〇代のあいだに女性の声帯は長さが三割ほど伸び、厚みも増す。この変化によって、成人するまでに声の基本周波数は半音三つ分ほど下がる。これは〈スウィング・ロー・スウィート・チャリオット〉の出だしの二音間に相当する。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

このテストステロンを出さないために、イタリアのカストラートは去勢をしていたのだ。高い声を出すために!天使のような声と当時はもてはやされていたが、いやはや。

頭の中の声は読むときや書くときに役立つだけでなく、さまざまな認知的用途もある。覚醒して意識のある時間のうち、四分の一にはなんらかのかたちの内的発話が伴うと推定されている。たとえば内的発話は作業記憶(ワーキングメモリ)において重要な役割を果たす。電話番号を渡されて、それを覚えなくてはならない場合、おそらく作業記憶の「音韻ループ」を使って、声に出さずに頭の中で番号を読み上げるだろう。音韻ループは、聴覚情報を数秒間保持できる「音韻ストア」と、その記憶を更新する「構音リハーサル」過程という二つから構成されている。このシステムは、話すこと(内なる声が数字を読む)と聞くこと(内なる耳が数字を聞き取る)のユニークな組み合わせを利用する。内的発話は動機づけにおいても大事な役割を担う。たとえば、プレゼンテーションや採用面接の前に心の準備をしてくれる。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

ぜんぜんコンピューターの話にならないけれど、もうここも最高すぎる。要は自分の内なる声も「話す・聞く」なのだ。声に出してないけど、声として聞こえていないけれど。あーおもろい。

脚韻や頭韻を踏んだり、簡潔に反復したりする言い回しは箴言と見なされ、それゆえ真実であると思われやすい。政治家など、他者を説得しようとする人が単純なキャッチフレーズを使うのはこのためである。キャッチフレーズというのは、本当に正しいかどうかとは無関係に、真実らしい響きをもつようにできているのだ。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

そして、話し方について。なるほどこんな見えない黄金ルールみたいなのがあんのか。

ビートボクサーは脳が音を認識する仕組みを利用して、複数の楽器が同時に演奏されているように感じさせる。音楽の用語ではこれを「ポリフォニー」(多声音楽)と呼ぶ。これは何世紀も前から使われてきた音楽の技巧で、その例としてバッハの無伴奏バイオリン曲がよく引き合いに出される。この種の曲では、奏者が高音と低音のあいだをせわしなく行き来することがある。うまくやれば、音が交互に鳴っていることを聞き手に気づかせず、低音と高音の二つのメロディーが別個に演奏されているように聞こえる。ビートボクサーも同じようなことをする。異なるドラムの音のあいだを行き来するので、脳にはそれが複数のリズムラインのように聞こえるのだ。ドラムとボーカルを同時に演じるときは、なによりも聞きごたえがある。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

内容はビートボックスにまで及ぶ。ポリフォニーを利用して、あたかもすべての楽器が適切になっているように”聴こえている”。実際は音に出していないのに。原理を知るとおもろ!!

マイクの発達が歌も発達させたというところも良い!マイクがない時代は、その声量がすべてで、ささやくような声はライブでは聞き取れなかった。しかし、マイクが発達することで小声や特殊な音の出し方をしても、それを増幅して聴衆に届けることができるようになった。そんなこと考えたこともなかったわ。

父親が子どもに本を読み聞かせてやると、子どもの脳は耳から聞こえる音とページに書かれている言葉を結びつけようとする。子どもが自分で物語の本を読むようになると、父親は子どもが単語を正しく読めたらほめて、間違ったらやさしく訂正してやるというかたちで、上達に対してフィードバックを与える。このような学習によって、子どもの脳内でニューロンどうしの形成する結合の強さ、スピード、個数が変わる。子どもは成功と失敗から学習し、次に本を読むときには前回よりも正しく読める可能性が上がる。
コンピューターは人のように話せるか? : 話すこと・聞くことの科学 | Cox,TrevorJ 田沢,恭子,1970-

母親より父親のほうが読み聞かせ効果があるってこと。勉強しろって、父親が娘に言うほうが、母親が娘に言うよりも効果的であることにも似てるなー。

というわけで、人類史と言語となんだかんだとあちことに行きながら、ようやくコンピューターの話になっていくわけだが、最後までわくわくしながら読めたのでおすすめしたい。

初音ミクの話も出てたよ。

生成AIが一気に出てきたので、この本の内容をさらに後押ししていて、読むなら今だな。