SWAMとSCESの特徴(Part3):物理モデリングとサンプル・モデリングの思想差

はじめに

ストリング音源としてよく使われるAudio ModeringのSWAM Solo Strings(SWAM)と SamplemoderingのSolo,Chamber & Ensemble Strings(SCES) は、どちらも高い完成度を持つ一方で、音の作られ方・扱い方の思想が根本的に違うということがわかってきました。

当初は「どちらがリアルか」「どちらが良い音か」という観点で考えていましたが、実際に使い込み、比較し、打ち込みを重ねる中で、両者は優劣の関係ではなく、役割と前提がまったく異なる楽器であることがはっきりしてきたました。

そこで、ここでは、SWAM と SCES の違いを音の時間構造、CC設計、ppやロングトーンの扱いという観点から整理しておきたいと思います。

1.設計思想の違い

SWAM:演奏行為を再現する装置
SWAM は、弓と弦の摩擦、エネルギーの伝達、減衰といった様々な物理現象そのものをリアルタイムで計算する音源です。つまり、弓圧、、弓位置、弓速、ビブラートといった各要素がすべて ユーザーの操作対象であり、音は「与えられるもの」ではなく、その都度「作り続けるもの」という前提に立っているわけです。

SCES:演奏結果を音楽として成立させる装置
一方 SCES は、短い生音サンプルと内部モデリングを組み合わせて、音が鳴っている間、内部状態が常に変化し続けるよう設計されていると推察されます。ですからユーザーが、音量、フレージング、ビブラートの意図等を与えるだけで、「人が弾き続けている状態」そのものを前提として発音されているともいえます。[参考]

2.ロングトーンが「痩せる/痩せない」の理由

SWAMのロングトーンでは
CC の変化がすくない、つまり 条件が固定される傾向にあると、 エネルギー供給が止まり、 音が自然減衰していくという 物理的に正しい挙動が起こっております。これは欠点ではなく、演奏者が弓を動かし続けなければ音が痩せるという現実を忠実に再現している結果であるともいえるわけです。

SCESのロングトーンでは
発音後も内部で状態遷移が続き倍音構造や微細な揺らぎが維持されるため、時間が経っても情報量が減りにくいわけです。結果として、ロングトーンが痩せにくく、音楽的な持続感が保たれることになるわけです。

3.pp に対する強さの違い

pp は「弱い音」ではなく、最小エネルギーで秩序を保つ状態であるといえます。

SWAM の ppは、エネルギーが実際に少なく、不安定になりやすい。ですからCC設計が甘いと音が消えることになります。それはつまり、現実の楽器の難しさをそのまま再現していることになります。

SCES の ppは、音量は小さいが内部エネルギーは維持され、倍音が消えません。つまり、pp が「生きた状態」として保たれるわけです。

4.CC設計の意味の違い

SWAM:CC は生命維持装置
SWAM では CC は、表情付けや音量カーブを意味するのではなく、「演奏が止まっていない」ことをモデルに伝える信号ということになります。そのために、きれいな直線や完全にある程度固定された値は、むしろ音楽を止めてしまうわけです。実際にCCを止めると状態がとまり、物理的に減衰します。

SCES:CC は意図の指定
SCES では、弓圧や弓位置の CC は存在せず、内部で最適化されていると推察されます。ユーザーは結果としてどう聞こえてほしいかを指定するだけでよいわけです。 なおSCESではCCを止めても最低限の状態変化は続き、音楽的持続が保たれます。

5.SWAM の IR-Body

SWAM:楽器の胴鳴り特性を再現
SCES の Body IR: 完全にゼロにはできず最小限の「音楽的空気」が常に残ります。これは制限ではなく、楽器として成立させるための設計思想なんですね。

6.実際の使い分け(現時点の結論)

現時点での私の使い分けは以下のように考えております。

旋律・歌わせる声部、テンポのゆっくりした曲→ SCES
内声・応答・動きのある声部、テンポの速い曲→ SWAM

おわりに

SWAM と SCES の違いは、リアルかどうか、 新しいかどうかではなく、音を「現象」として扱うか、音を「状態」として扱うかという根本的な思想の違いにあるといえます。どちらが優れているかではなく、どの音楽に、どの役割で使うかということになります。

「参考」
SCESについてはちょっと分かりにくいので追加で説明しておきます。
本文中で述べた「SCESでは、音が鳴っている間も内部状態が常に変化し続けるよう設計されている」という表現について、ここでその根拠を整理しておきたいと思います。この点は、内部アルゴリズムが公開されていない以上、数式レベルで断定できるものではありません。しかし、以下の 三つの層の根拠が一致していることから、そのように理解するのが最も自然だと考えています。

① メーカーが一貫して示している設計思想

Sample Modeling(SCES)では、公式情報の中で一貫して以下のことが強調されています。

– 短い生音サンプルを用いてること
– 長い固定ループを使わないこと
– 演奏中に音の状態を再構成するハイブリッド方式

つまり、少なくとも、録音された音をそのまま時間方向に再生し続ける設計ではないという点は明確です。

② 聴感上の挙動が「固定再生」と一致しないこと

ロングトーンや pp での鳴り方、ビブラートを加えた際の音色変化などを聴くと、SCESでは音が一定時間後に「止まった感じ」になりにくく、
倍音構造や音色の中身が静止しない印象を受けます。これは、単一サンプルのループ再生や単純なLFO処理だけでは説明しにくい挙動です。

③ 操作に対する反応の仕方

同じノート、同じベロシティ、同じCC設定であっても、演奏時間やフレーズ内の位置によって音の印象が変わることがあります。
また、途中から加えた操作が、それ以前の鳴り方の印象にまで影響するように感じられる場合もあります。これらは、音が「固定された結果」ではなく、現在進行形の状態として扱われていると考える方が自然です。

以上の点から、
「SCESでは音が鳴っている間も内部状態が固定されず、少なくとも聴感上は音色や倍音構造が更新され続けるよう設計されている」
と理解していいのではないかと思います。