本書の触りを少しずつ紹介させていただきたいと考えています。一緒に聴覚の理解を深めていきたいです。聴覚の世界は未だ神秘に満ちているとも言えると思います。 本書は生理学的に得られた知見を、工学的な聴覚モデルを導入することで説明しています。
はじめに
本書を手にしたのは人工内耳がなぜ20前後の電極だけでこれだけきれいに音が聴こえるのか?なぜ音楽に求められるサンプリング周波数よりも聴神経の速度の方が遅いのに聴こえるのか?サンプリングされた音がそのまま電流となり聴神経へ伝わり内脳で音声や音楽に変換されるのか?
数多の疑問を理解していきたいと思ったから。多分に専門的な本ではあるけれど1人工内耳ユーザとして同じ疑問を持つ方々と共有できたら良いなと考えてます。本書の著作権に触れないように注意していきます。図を見るだけでも楽しくなる本です。この本の解説というよりは気になった点をまとめ、関連トピックスにも触れたいと思います。また、人工内耳や補聴器とも関連付けて考えていこうと思います。2023年1月から一度X(Twitter)でポストし始めましたが、途中で挫折してしまったので今年ことは最後までみなさんと楽しみながら進めたいと考えています。
原文は下記URLからダウンロードできます。
また図書館でも港区高輪などの図書館で借りれるようです。
聴覚ことのはじめ
本書冒頭に1836年にフランスの解剖学者 ギルバード・ブレシェによる蝸牛とラセン神経節構造の見事な版画が掲載されています。日本では天保6年 坂本龍馬が生まれた年でした。医学のブレイクスルーは解剖や動物実験によるもであり、聴覚に関しても例外ではないようです。
一方、紀元前6世紀 ピタゴラスによって楽器の弦の長さが2:1、3:2、4:3という整数比の時に音が綺麗に協和することが発見され、やがて聴覚による知覚の研究へ結びついていきます。
古からのヒトが音として認識してきた記憶と、19世紀における近代医学への変革を経て聴覚学は進化してきました。
本書では様々なトピックスを織り交ぜて読者を聴覚モデルの世界へ導いてくれます。
ヘルムホルツの功罪
蝸牛の基底膜や有毛細胞の構造の発見を受けたヘルムホルツ(1863年)は、フーリエやオームの考えを元に『蝸牛の中の構造はそれぞれ場所が周波数の狭い範囲で共鳴している為、特定の神経が刺激される。』と提唱し、周波数解析器としての耳の長年の概念の基礎となりました。
ヘルムホルツは『蝸牛の中の構造はそれぞれ場所が周波数の狭い範囲で共鳴している為、特定の神経が刺激される。』と述べた中で、音楽については更に以下のように述べています。しかし、この考えは音楽家たちの実際の聞こえ方とはかけ離れていました。
蝸牛には2つの重要な役割があり、1つは入力音響信号を重なり合う周波数帯域に分割することで、もう一つは音響度の広い幅を内有毛細胞のずっと狭いダイナミックレンジに圧縮することです。ここには入力される音の時間的な変化という概念が入ってきます。
本書ではここまでを聴覚末梢すなわち非線形フィルタバンクモデルとして扱い、更に脳幹による聴覚像の抽出、各状況に沿った特徴抽出、そして意味抽出を各モデルとして扱い説明しています。
蝸牛の入り口が高周波、奥へ進むにつれて低周波の音を捉える図をご覧になった方は多いと思います。片耳約1万5千本もの有毛細胞に対して、人工内耳では僅か12~24本の電極で内耳を刺激すると知った時、その圧倒的な差に人工内耳でどこまで聞こえるのだろうと不安に感じずにはいられませんでした。
ヘルムホルツの提唱の約100年後に、リックライダー(1959年)は『フーリエ変換の威力と線形性の仮定による扱いの容易さにより、聴覚研究は、聴覚刺激としては純音を使えばよいという思考停止の罠に、不幸にも長い間かかったままであった。』と述べています。
小話:音色はどうやって区別できる?
本書の内容から少し外れますが、いわゆる「音色」とは何によって決まるかわかりますか? 答えは、音色にとって音の立ち上がり、すなわち最初の10~15ms が特に大事なそうです。トランペットの音からこの立ち上がりを取り除くと、バイオリンのように聞こえるし、ピアノの録音を時間的に逆に再生すると、 オルガンから出てきた音のように聞こえるそうです。これらの音の立ち上がりを聴覚は捉えることができるんですね。
場所説・時間説と人工内耳マッピング
今回は聴覚の時間的な処理について本から学んだことを、人工内耳のマッピングに照らし合わせてお話したいと思います。推測が入り混じっていますので話半分にお読みください。
人工内耳のマッピングは電極ごとにT値(閾値)/ C値(快適値)をSTの先生と相談して決めていきます。
各電極は担当する周波数帯域(周波数の間隔のことで上下限がある)が決められています。蝸牛の各位置の電極が担当する周波数の図などをご覧になった方も多いと思います。僅かな電極で可聴範囲の周波数をカバーしているのを見て有毛細胞の数と比較して心細く感じる方もいらっしゃるかもしれません。(私もその一人でした)
でもそうではなく、聴神経の電気生理学的な測定から蝸牛はフィルタバンクとして機能し、しかもその周波数分解能ではわたしたちの聴覚の知覚する精度には不十分なことがわかっています。 では、ほかにどのような手段で精度を上げているのでしょうか?
ここで聴神経を周期的に刺激することで脳がこれを一定の周波数として解釈するとする「時間説」が提唱されました。蝸牛の位置による周波数解析(こちらを「場所説」と言います)は精度が粗く、詳細を「時間説」に基づく聴覚刺激で補います。この聴覚刺激は蝸牛の位置とは関係なく周波数を認識します。
人工内耳のマッピングに置き換えると、「場所説」による刺激は、電極の位置。「時間説」による刺激は刺激レートとなります。一度に刺激できる電極数は刺激レートとのトレードオフとなります。 マッピングは各電極のCT値の調整だけではなく、刺激レートの見直しも聞こえアップにつながるかも。
この刺激レートについては次回もう少し掘り下げて見ようと思います。 あ、人工内耳はコクレアさんものを念頭にしています。
追記: 世界初の人工内耳の電極は1つでした。それでも周波数を変えることで母音の区別が出来たと言うことです。 現在のコクレアの人工内耳は「場所説」と「時間説」の双方に基づく伝達方法を取っています。
・蝸牛は聴覚の周波数フィルタバンクとして働く(電気生理学的な測定から)
・フィルタバンクの精度は粗く、これとは別に蝸牛全体への刺激を詳細な周波数区別のために用いる
・高周波数は蝸牛位置で捉え、低周波数は蝸牛全体の刺激で捉える
・特に50Hz以下は蝸牛全体が均等に振動するため、蝸牛位置では捉えられない
・コクレア人工内耳では、蝸牛位置と蝸牛全体への刺激の両方を用いている
・電極数=有毛細胞数ではない!電極数は聴覚フィルタバンク数と捉えるほうが筋が良い
・蝸牛位置と蝸牛全体の刺激とのトレードオフによる最適解は今のところない模様(人によりけり?)
周波数と聴神経
蝸牛で捉えた周波数は聴神経を伝播し脳へ届きます。聴神経一本は1000Hzまで伝播できますが、ヒトの耳は20〜20000Hzまでの周波数を聞き取ることができるとされ、一般的に言語理解のためには3000Hz、音楽理解のためには15000Hzの周波数まで聞き取る必要があります。
伝達すべき周波数を、複数の聴神経が時間差で脳へ届けることで約5000Hzまで対応できます(写真参照)。周波数をいくつかに区切って遅延させ脳へ情報を送る様はさながら電子回路による符号化のそれを思わせます。
5000Hz以上の周波数は、周波数に対応した蝸牛位置より脳へ「xxxHzの周波数を捉えた」という情報が脳へ伝わります。脳では複数の聴神経による周波数情報と蝸牛位置からの周波数情報を合わせて、全体的な周波数を再現します。まさに神秘の世界です。
聴覚フィルタ
ここで改めて、聴覚フィルタの構造・役割について、歴史的な経緯と共にまとめてみます。
コメント