基音と倍音
全て音は、ピッチ(周波数)の異なるサイン波の足し算で出来ているそうです。 で、基準になる一番大元のサイン波を 「基音(基本波)」と言います。
例えば「ラ(A)」の音は440Hz。1オクターブ上のラは880Hz、
1オクターブ下のラは220Hzです。
こういった「基音」に対して整数倍の関係にあるサイン波を
「倍音(高調波)」と言います。
人間の知覚できる周波数は20Hzから20KHzと言われているので、一番低い「ラ」
のサイン波は27.5Hz、一番高い「ラ」のサイン波は14.080KHzということになります。
これら全てのサイン波の含まれ方で音色が変わってくるのです。
この含まれ方で単純な物はノコギリ波や矩形波です。
ノコギリ波は全ての整数倍音を含んでいます。矩形波は奇数倍音のみを含んでいます。
一般的に、音に含まれる倍音が多くなればなるほど音色は
明るくなります。逆に倍音の量が少ないと暗くなります。
倍音の種類と音量によって音色は大きく変わります。
周波数の高い倍音ばかり含んでいる音はキラキラしていてクッキリした音、
周波数の低い倍音を多く含んでいる音はどっしりした太い音になります。
ということは、いわゆる「太い音」というのは基音と その周辺の周波数成分に粒が揃っている音ということになります。
このサイン波の足し算で音を作り出す楽器として最初に登場したのは
オルガンです。
サイン波を1倍音~9倍音まで用意し、重ねることによって音を作り出します。
ドローバーにそれぞれ倍音を用意し、各倍音の音量を調整して足し算することにより
音を作り出すのです。
最高で127倍音まで用意すれば、かなりの楽音をカバー出来るらしいのですが、 コンピュータの発達により、なんと127個のサイン波を加算して音を作る 加算合成シンセサイザーーまで登場しました。
加算合成シンセとしてはVirSyn社のCUBE 2というソフトウェアシンセサイザーがあります。
https://www.virsyn.net/desktop/cube.html
上記に対して非整数倍の周波数を持つ倍音を
非整数倍音と言います。
例えば、打楽器や金属音など、音程のハッキリしない音に
多く含まれます。
「そんな音要らないジャン」とか思うかも知れませんが、
そうではありません。
例えばピアノの音は弦を叩いた音ですが、叩いた瞬間のハンマーの音
もピアノの音の一部です。そこには非整数倍音
も含まれています。
他にもバイオリンを擦った瞬間のノイズ、トランペットやフルートの息を吹き込む音など
雑音のような音も大事な役割を持ってます。
では逆に、打楽器などの音程感の無い音にに基音や整数倍音成分を多く含ませたら
どうなるのでしょう?
実は音程感がハッキリしてきて楽音として使えるようになります!
例えば、ローランド社のV-SYNTHに付いているサイドバンドフィルタは基音と倍音を強調し、
コンガのループサウンドすら音程感のある音色に変身させる事が出来ます。
また、音量の時間的変化も重要です。
例えば、ギターとヴァイオリンの倍音構成は非常に似ているのですが、
人間の耳には違う音に聞こえます。
同じ倍音構成でも音量の時間的変化が異なると
違う音に聞こえるのです。
つまり、何が言いたいかというと
「楽器の音は基本的に基音と倍音で構成されているが、
非整数倍音のような雑音や音量の時間的変化も音の要素として大切だ」
ということです。
まとめると、音の三要素は
・音の高さ(ピッチ)
・倍音成分(音色)<整数、非整数含む
・音量の時間的変化
となります。
このことから良いシンセサイザーの条件は
・豊富なバリエーションの倍音を作り出せる
・倍音を自由に削ったり強調したり出来る優れたフィルタ回路を備えている
・音量の時間的変化を自由にかつキビキビと変化させることが出来る
という事になります。
PCMシンセサイザーはメモリに蓄えられたデータを呼び出すだけで、
あとは削られるだけです。
ですから、もし凝った音を作りたい場合は倍音を
沢山作り出せるシンセサイザーを選びましょう!
で、フォルマントです
そう、以上で終わってしまったら「極めろ!音色研究所」 ではありません。 次世代シンセサイザーも研究しましょう。
音の三要素は前述の通り
・音の高さ(ピッチ)
・倍音成分(音色)<整数、非整数含む
・音量の時間的変化
です。
PCMシンセサイザーやサンプラーは「音の三要素」を全て
ひっくるめて量子化し、デジタルデータ化したものを呼び出しているだけです。
ピッチを変えるときは読み出しスピードを変えているだけ
なので、ピッチが変わると音色そのものも本来と
違う音になってしまいます。
その為、ピアノだろうがギターだろうがピッチが変わったら、その度にサンプルデータを
鍵盤に沢山割り当てて対処しています。
これをマルチサンプリングと言います。
※ 最近では大容量ROMやHDDとソフトウェア技術を駆使し、
88鍵1つ1つを音が消えるまでサンプリングしてしまうという
(しかも打鍵の強さを10段階以上に分けて!)小学生でも判るような強引さで
サンプリングしてしまうという荒技が可能になってしまいました。
しかし、前述の通りPCMは「音の三要素」を全てひっくるめて量子化しているため 「音の高さ(ピッチ)」だけを変える、「倍音成分」だけを 変えるといったことが出来ません。
そこで、考えたわけです。「音の三要素」を分解して、 それぞれバラバラに操作出来るようにしよう!と。
さて、「音の三要素」の内、倍音成分(音色)、つまり音の特徴の事を フォルマントと言います。
左は従来のPCMです。
ピッチがあがると再生速度は上がり、フォルマントがピッチに追従し、
音色が変わってしまいます。(カセットテープの早回しと同じです)
一方、右が分解してピッチだけ上げた物。音の特徴をそのままに
ピッチだけがあがり、自然にピッチが上がってリアルな音がします。
例えば人の歌声を録音して分解し、ピッチだけ変えた音を同時に鳴らせば、 クローン人間がごとく二人で歌う自然なハモりが実現出来ます。
シンセサイザーなのですから、ピッチ、タイム、フォルマントそれぞれをコントローラ、 ベロシティ、EG、LFOなどを使ってリアルタイムに変えてしまえば、 この世に存在しないような画期的な音を作ることも可能です。
これを実現したのがローランドのV-Synthなどの次世代シンセサイザーです。
ローランドではこのテクノロジーを「バリフレーズ」
と呼んでいます。
例えば、タイムだけ操作すれば、遅回しなんだけど遅く再生してるだけで 不自然でない音とか、フォルマントを変えて元はサックスなのにオルガンの音に してしまうとか、「アー」っていう声を「オー」とか「エー」に再生途中に 変えてしまうとか、そういうことが可能です。
一方、ヤマハはさらに突っ込んだアプローチを取った フォルマントシェイピングという音源方式を採用した次世代シンセサイザー 「FS1R」を開発しました。
ローランドのバリフレーズの場合音の三要素の内の「フォルマント」を一つの単位として 分解してましたが、ヤマハはフォルマントの成分をさらに分解して、 リアルタイムに操作出来るようにしていました。
例として人の声を挙げます。
人の声のスペクトル(周波数分布)を見ると所々でコブのような物があります。
これが人の声の特徴となっているフォルマントです。
同じ人に音程を変えて歌って貰っても、このコブはあまり移動しません。
これを固定フォルマントと言います。
次に人の声をサンプラーで録音してオクターブ上の音で発音してみます。
そうすると、録音した音の倍の速さで再生されるので、元の声とは
似ても似つかない声がします。
このように音程の変化によって変わるフォルマントを
移動フォルマントと言います。
人間の声に限らず、どのような音声にも特有のフォルマントは 存在します。
楽器の音色は楽音と
雑音の組み合わせで出来ています。
ここで言う雑音とは本当の雑音の事ではなく、
楽器的な雑音の事です。
例えば、ピアノを弾く時のハンマーをぶっ叩いた音、フルートやトランペットの息漏れ、
バイオリンの擦る音など、どうでもいい音だけど無いと
その楽器の音に聞こえない音の事です。
人の声の場合、母音が楽音、子音が雑音にあたります。
例えば「かーーー」といった場合、「かっ」が子音、「あーーー」が母音で、
合体して「かーーー」になります。
楽音(母音)、雑音(子音)にもそれぞれ固定フォルマント、
移動フォルマントがあります。
楽音に含まれる移動、及び固定フォルマントを
「有声フォルマント」、雑音のフォルマントを
「無声フォルマント」と呼びます。
まとめると以下の図のようになります。
人の声で言えば、音程の変化は声帯を閉じたり開いたりして得られます。
この成分が楽音です。
逆に、音程が変わっても大きな変化が無い唇や舌の動きによって作られる
ノイズ成分が雑音となります。
「かーーー」「きーーー」「くーーー」「けーーー」「こーーー」
と自分で歌ってみると唇や舌を動かして「かきくけこ」の成分を作り、
喉を震わせて母音の成分「あーーー」「いーーー」「うーーー」「えーーー」
「おーーー」を出していることが判ると思います。
それらが合体して「かーきーくーけーこー」になります。
さて、フォルマントについては何となく 判って貰えたでしょうか?
そこでフォルマントシェイピングです。
フォルマントって言うのはスペクトラム(周波数分布)上のコブのような物と
説明しました。
このコブってシンセ触ったことあると人なら判ると思いますが、
何となくフィルタのレゾナンスに似てませんか?
レゾナンスを上げるとカットオフ周波数の付近が持ち上がってコブみたいになります。
でもフィルタの目的は決めた周波数を境にそれ以上(またはそれ以下)の
周波数の音量を小さくして削ることです。
でも、別に削らないでレゾナンス機能だけ付いたフィルタがあっても
良いではありませんか?
つまりコブだけ作るフィルタです。<フィルタになってないけど
で、コブであるフォルマントは移動したり固定だったりします。
こういうフォルマントを有声フォルマント8個、
無声フォルマント8個の計16個オペレータとして用意したのがFS1Rです。
しかも前述の削らないフィルタがそれぞれの
オペレータに付いています。
さらに人の声で言ったら声帯の様にフォルマントの周波数成分を途中で制御
出来るように音の基本ピッチとは別にフォルマント専用の
ピッチEG(時間的変化を与える機能)が各オペレータに装備されています。
これによりしゃべっている最中に「あー」だったのを「いー」に変えたり出来るのです。
もっと複雑な倍音成分が必要な場合はFM音源の仕組みを使ってFM変調により
複雑な倍音を作り出し、有声フォルマントの材料として
使う事も出来ます。
無声フォルマントはどうやって使うかというと、
打楽器などの雑音(スネアドラムのノイズ成分など)とか
そういう物を作る時に使います。
また人間の口笛など「息を吹く」という行為に重点がある音の場合などは
無声フォルマントを強調した音作りをすれば良いわけです。
ローランドのバリフレーズはこのフォルマントの成分を有声、無声ひっくるめて
「フォルマントのかたまり」ととらえて抽出し、移動フォルマントをノブなどで
動かしたり出来るというアプローチです。
これだけでもピッチとタイムを分解した分、もの凄いバリエーションの倍音が
作り出せます。
非破壊編集ですし、作った音をリサンプリングしてもう一度分解なんて事も出来るので、
恐ろしい自由度です。
一方ヤマハはFM音源をフレームワークとして、さらに突っ込んだアプローチを
取った訳です。
一応バリフレーズと同じようにPCMデータを3つの要素に分解して利用する
FSEQという仕組みも作りましたが、
26KBしかなく、解像度の荒いショボイ音にしかなりませんでした。
もはやFS1Rのキャラクターといっても過言ではありません。
1998年当時は、フラッシュメモリも無く、DRAMも高価だったのです。
そして、その結果、複雑になりすぎて理解されずに
轟沈したわけです。
じゃあ、ローランドはうまくいったかというと、PR不足で
やはり轟沈しました。
しかし、ローランドは諦めないでバリフレーズ採用の新製品V-Synthを投入!
が、PRが下手過ぎてやはり轟沈。今に至ります。
ちなみに、VSTiソフトウェアシンセサイザーなどにも 「グラニュラーシンセシス」って名前で似たような仕組みを採用している物が あります。