波動と機械学習

人間の声を色相の変化を利用して3次元プロットした図に美しさを感じて、そのまま音声解析の道を進んでいます。自分なりに調べて実装できたものから更新していきます。アドバイス、アイデアなどあれば是非お願いします。

波動の魅力についての主観

初めてのブログ記事の投稿になります。

 

この記事では私の自己紹介の意味も踏まえながら、私がなぜ音や光といった波動の世界に興味を持ったのか綴っていこうと思います。

 

皆さんはクリスマスが近づいてくると、駅前などがイルミネーションで輝いている光景を1度は見たことがあるのではないでしょうか?

私の住んでいる街はイベント会場が近いこともあり、毎年木にはLEDによる装飾が、床面にはプロジェクションマッピングが施されることもあります。

こうした景色を見るとやはり光のもつ表現というものは非常に視覚的で我々に分かりやすい美しさを持っているなと感じさせられます。

点滅するライトは非常に現象として幻想的で美しい空間を作り出してくれます。

 

しかし光というやつは自分自身、無形なのにも関わらず目視で確認され、人の手によって加工されることで現象としてだけでなく造形としての美しさを手に入れることができるのでしょう。そのため、人の感性へアクセスし気持ちを大きく動かすことが得意なのかもしれませんね。

世の中を見てみるとこういった加工された光の美しさは至る所で確認することができます。

 

では、皆さんが想像する加工された音声とはどのようなものでしょうか?

 

楽器によって奏でられた音でしょうか?今の時代ならばDAWソフトによって一から音を合成することだってできますね。

しかし、もっと身近に存在する加工された音声とはあなたの肉声なのです。

 

私が学生時代に教授へ研究の進捗を報告するために様々な数値や波形をプロットして資料作成をしていた時の話です。

音声には振幅(音圧レベル)、周波数、経過時間を軸として図示することが多いのですが、色相の変化を持たせることでこの3つの数値の変化を平面上で表現することができるんです。

(軸となる値が3種類ある時は立体図にしてしまうことが多いと思います。)

f:id:araitbs007:20190127053727p:plain

図)実際にプロットした女性の音声。縦軸が周波数、横軸が時間経過、色が音圧レベルを表している。

 

上図から人の声に含まれる音声を図示すると縞模様が現れていることがわかると思います。私は今まで人の声が聞こえてくることはいたって"自然"な現象だと勘違いしていました。家族や友達だけでなく、私自身も当たり前のように毎日発話していますから、もはや人の声が耳に飛び込んでくることなど当たり前で自然なことだと信じていたんでしょう。

しかし、こうして改めて可視化してみると明らかに声は人工物に他ならないというのを痛いほど実感させられました。(冷静に考えると人間の声なので人工物なのは当たり前すぎることですが…これが感覚と現実の摩擦というやつでしょうか?)

 

このことに気づいた途端、私は音波というものがとてつもない魅力を持っていると気づいてしまいました。これをきっかけに話者認識、音声認識といった音声解析による技術に興味を持ったのでした。

 

今後のブログは私が実際に製作したシステムの紹介やコードなんかも載せながらだらりと更新していければと思ってます。