基音と倍音

全て音は、ピッチ（周波数）の異なるサイン波の足し算で出来ているそうです。で、基準になる一番大元のサイン波を「基音（基本波）」と言います。

例えば「ラ（Ａ）」の音は４４０Ｈｚ。１オクターブ上のラは８８０Ｈｚ、１オクターブ下のラは２２０Ｈｚです。
こういった「基音」に対して整数倍の関係にあるサイン波を「倍音（高調波）」と言います。
人間の知覚できる周波数は20Hzから20KHzと言われているので、一番低い「ラ」のサイン波は27.5Hz、一番高い「ラ」のサイン波は14.080KHzということになります。これら全てのサイン波の含まれ方で音色が変わってくるのです。

この含まれ方で単純な物はノコギリ波や矩形波です。

baion1

ノコギリ波は全ての整数倍音を含んでいます。矩形波は奇数倍音のみを含んでいます。

一般的に、音に含まれる倍音が多くなればなるほど音色は明るくなります。逆に倍音の量が少ないと暗くなります。
倍音の種類と音量によって音色は大きく変わります。
周波数の高い倍音ばかり含んでいる音はキラキラしていてクッキリした音、周波数の低い倍音を多く含んでいる音はどっしりした太い音になります。

ということは、いわゆる「太い音」というのは基音とその周辺の周波数成分に粒が揃っている音ということになります。

このサイン波の足し算で音を作り出す楽器として最初に登場したのはオルガンです。
サイン波を１倍音～９倍音まで用意し、重ねることによって音を作り出します。
ドローバーにそれぞれ倍音を用意し、各倍音の音量を調整して足し算することにより音を作り出すのです。

最高で１２７倍音まで用意すれば、かなりの楽音をカバー出来るらしいのですが、コンピュータの発達により、なんと１２７個のサイン波を加算して音を作る加算合成シンセサイザーーまで登場しました。

加算合成シンセとしてはVirSyn社のCUBE 2というソフトウェアシンセサイザーがあります。
https://www.virsyn.net/desktop/cube.html

上記に対して非整数倍の周波数を持つ倍音を非整数倍音と言います。
例えば、打楽器や金属音など、音程のハッキリしない音に多く含まれます。

「そんな音要らないジャン」とか思うかも知れませんが、そうではありません。
例えばピアノの音は弦を叩いた音ですが、叩いた瞬間のハンマーの音もピアノの音の一部です。そこには非整数倍音も含まれています。
他にもバイオリンを擦った瞬間のノイズ、トランペットやフルートの息を吹き込む音など雑音のような音も大事な役割を持ってます。

では逆に、打楽器などの音程感の無い音にに基音や整数倍音成分を多く含ませたらどうなるのでしょう？
実は音程感がハッキリしてきて楽音として使えるようになります！
例えば、ローランド社のV-SYNTHに付いているサイドバンドフィルタは基音と倍音を強調し、コンガのループサウンドすら音程感のある音色に変身させる事が出来ます。

また、音量の時間的変化も重要です。
例えば、ギターとヴァイオリンの倍音構成は非常に似ているのですが、人間の耳には違う音に聞こえます。
同じ倍音構成でも音量の時間的変化が異なると違う音に聞こえるのです。

つまり、何が言いたいかというと
「楽器の音は基本的に基音と倍音で構成されているが、非整数倍音のような雑音や音量の時間的変化も音の要素として大切だ」
ということです。

まとめると、音の三要素は
　・音の高さ（ピッチ）
　・倍音成分（音色）＜整数、非整数含む
　・音量の時間的変化
となります。

このことから良いシンセサイザーの条件は
　・豊富なバリエーションの倍音を作り出せる
　・倍音を自由に削ったり強調したり出来る優れたフィルタ回路を備えている
　・音量の時間的変化を自由にかつキビキビと変化させることが出来る
という事になります。

ＰＣＭシンセサイザーはメモリに蓄えられたデータを呼び出すだけで、あとは削られるだけです。
ですから、もし凝った音を作りたい場合は倍音を沢山作り出せるシンセサイザーを選びましょう！

で、フォルマントです

そう、以上で終わってしまったら「極めろ！音色研究所」ではありません。次世代シンセサイザーも研究しましょう。

音の三要素は前述の通り
　・音の高さ（ピッチ）
　・倍音成分（音色）＜整数、非整数含む
　・音量の時間的変化
です。

ＰＣＭシンセサイザーやサンプラーは「音の三要素」を全てひっくるめて量子化し、デジタルデータ化したものを呼び出しているだけです。
ピッチを変えるときは読み出しスピードを変えているだけなので、ピッチが変わると音色そのものも本来と違う音になってしまいます。
その為、ピアノだろうがギターだろうがピッチが変わったら、その度にサンプルデータを鍵盤に沢山割り当てて対処しています。
これをマルチサンプリングと言います。
※　最近では大容量ROMやHDDとソフトウェア技術を駆使し、 88鍵１つ１つを音が消えるまでサンプリングしてしまうという
　　（しかも打鍵の強さを10段階以上に分けて！）小学生でも判るような強引さでサンプリングしてしまうという荒技が可能になってしまいました。

しかし、前述の通りＰＣＭは「音の三要素」を全てひっくるめて量子化しているため「音の高さ（ピッチ）」だけを変える、「倍音成分」だけを変えるといったことが出来ません。

そこで、考えたわけです。「音の三要素」を分解して、それぞれバラバラに操作出来るようにしよう！と。

さて、「音の三要素」の内、倍音成分（音色）、つまり音の特徴の事をフォルマントと言います。

vari1

左は従来のＰＣＭです。
ピッチがあがると再生速度は上がり、フォルマントがピッチに追従し、音色が変わってしまいます。（カセットテープの早回しと同じです）
一方、右が分解してピッチだけ上げた物。音の特徴をそのままにピッチだけがあがり、自然にピッチが上がってリアルな音がします。

例えば人の歌声を録音して分解し、ピッチだけ変えた音を同時に鳴らせば、クローン人間がごとく二人で歌う自然なハモりが実現出来ます。

シンセサイザーなのですから、ピッチ、タイム、フォルマントそれぞれをコントローラ、ベロシティ、ＥＧ、ＬＦＯなどを使ってリアルタイムに変えてしまえば、この世に存在しないような画期的な音を作ることも可能です。

これを実現したのがローランドのV-Synthなどの次世代シンセサイザーです。
ローランドではこのテクノロジーを「バリフレーズ」と呼んでいます。

例えば、タイムだけ操作すれば、遅回しなんだけど遅く再生してるだけで不自然でない音とか、フォルマントを変えて元はサックスなのにオルガンの音にしてしまうとか、「アー」っていう声を「オー」とか「エー」に再生途中に変えてしまうとか、そういうことが可能です。

vari2

一方、ヤマハはさらに突っ込んだアプローチを取ったフォルマントシェイピングという音源方式を採用した次世代シンセサイザー「FS1R」を開発しました。

ローランドのバリフレーズの場合音の三要素の内の「フォルマント」を一つの単位として分解してましたが、ヤマハはフォルマントの成分をさらに分解して、リアルタイムに操作出来るようにしていました。

例として人の声を挙げます。

人の声のスペクトル（周波数分布）を見ると所々でコブのような物があります。これが人の声の特徴となっているフォルマントです。
同じ人に音程を変えて歌って貰っても、このコブはあまり移動しません。これを固定フォルマントと言います。

fs_1

次に人の声をサンプラーで録音してオクターブ上の音で発音してみます。
そうすると、録音した音の倍の速さで再生されるので、元の声とは似ても似つかない声がします。
このように音程の変化によって変わるフォルマントを移動フォルマントと言います。

fs_2

人間の声に限らず、どのような音声にも特有のフォルマントは存在します。

楽器の音色は楽音と雑音の組み合わせで出来ています。
ここで言う雑音とは本当の雑音の事ではなく、楽器的な雑音の事です。
例えば、ピアノを弾く時のハンマーをぶっ叩いた音、フルートやトランペットの息漏れ、バイオリンの擦る音など、どうでもいい音だけど無いとその楽器の音に聞こえない音の事です。
人の声の場合、母音が楽音、子音が雑音にあたります。
例えば「かーーー」といった場合、「かっ」が子音、「あーーー」が母音で、合体して「かーーー」になります。

楽音（母音）、雑音（子音）にもそれぞれ固定フォルマント、移動フォルマントがあります。
楽音に含まれる移動、及び固定フォルマントを「有声フォルマント」、雑音のフォルマントを「無声フォルマント」と呼びます。
まとめると以下の図のようになります。

fs_3

人の声で言えば、音程の変化は声帯を閉じたり開いたりして得られます。この成分が楽音です。
逆に、音程が変わっても大きな変化が無い唇や舌の動きによって作られるノイズ成分が雑音となります。
「かーーー」「きーーー」「くーーー」「けーーー」「こーーー」と自分で歌ってみると唇や舌を動かして「かきくけこ」の成分を作り、喉を震わせて母音の成分「あーーー」「いーーー」「うーーー」「えーーー」「おーーー」を出していることが判ると思います。
それらが合体して「かーきーくーけーこー」になります。

さて、フォルマントについては何となく判って貰えたでしょうか？

そこでフォルマントシェイピングです。
フォルマントって言うのはスペクトラム（周波数分布）上のコブのような物と説明しました。
このコブってシンセ触ったことあると人なら判ると思いますが、何となくフィルタのレゾナンスに似てませんか？
レゾナンスを上げるとカットオフ周波数の付近が持ち上がってコブみたいになります。
でもフィルタの目的は決めた周波数を境にそれ以上（またはそれ以下）の周波数の音量を小さくして削ることです。
でも、別に削らないでレゾナンス機能だけ付いたフィルタがあっても良いではありませんか？
つまりコブだけ作るフィルタです。＜フィルタになってないけど

fs_4

で、コブであるフォルマントは移動したり固定だったりします。
こういうフォルマントを有声フォルマント８個、無声フォルマント８個の計１６個オペレータとして用意したのがＦＳ１Ｒです。
しかも前述の削らないフィルタがそれぞれのオペレータに付いています。
さらに人の声で言ったら声帯の様にフォルマントの周波数成分を途中で制御出来るように音の基本ピッチとは別にフォルマント専用のピッチＥＧ（時間的変化を与える機能）が各オペレータに装備されています。

fs_5
fs1r_editor

これによりしゃべっている最中に「あー」だったのを「いー」に変えたり出来るのです。
もっと複雑な倍音成分が必要な場合はＦＭ音源の仕組みを使ってＦＭ変調により複雑な倍音を作り出し、有声フォルマントの材料として使う事も出来ます。

無声フォルマントはどうやって使うかというと、打楽器などの雑音（スネアドラムのノイズ成分など）とかそういう物を作る時に使います。
また人間の口笛など「息を吹く」という行為に重点がある音の場合などは無声フォルマントを強調した音作りをすれば良いわけです。

ローランドのバリフレーズはこのフォルマントの成分を有声、無声ひっくるめて「フォルマントのかたまり」ととらえて抽出し、移動フォルマントをノブなどで動かしたり出来るというアプローチです。これだけでもピッチとタイムを分解した分、もの凄いバリエーションの倍音が作り出せます。
非破壊編集ですし、作った音をリサンプリングしてもう一度分解なんて事も出来るので、恐ろしい自由度です。

一方ヤマハはＦＭ音源をフレームワークとして、さらに突っ込んだアプローチを取った訳です。
一応バリフレーズと同じようにＰＣＭデータを３つの要素に分解して利用するＦＳＥＱという仕組みも作りましたが、 26KBしかなく、解像度の荒いショボイ音にしかなりませんでした。もはやＦＳ１Ｒのキャラクターといっても過言ではありません。 1998年当時は、フラッシュメモリも無く、DRAMも高価だったのです。そして、その結果、複雑になりすぎて理解されずに轟沈したわけです。

じゃあ、ローランドはうまくいったかというと、ＰＲ不足でやはり轟沈しました。
しかし、ローランドは諦めないでバリフレーズ採用の新製品V-Synthを投入！が、ＰＲが下手過ぎてやはり轟沈。今に至ります。

ちなみに、VSTiソフトウェアシンセサイザーなどにも「グラニュラーシンセシス」って名前で似たような仕組みを採用している物があります。

Back | Next