楽譜はどこまで音楽になるか — NotePerformerと現代ストリング音源 Part 1

NotePerformer とは何か — 楽譜を読む音源

以前から時折使っていたWallander InstrumentsのNotePerformer[1] が、バージョン5.1.2で、これまでサポートしていた外部VST3のPlayback Engineを廃止しました（公式のアナウンスによる変更です）。

私自身としては、むしろ自然な方向ではないかと感じていますが、外部音源を活用していた方にとっては、やや残念な変更かもしれません。

今後は、独自の楽譜解釈エンジンとしてさらに磨きがかかっていくことを期待したいところです。

現在、ベートーヴェンのピアノソナタ第29番の制作とは別に、弦楽四重奏曲第15番第3楽章の打ち込みも進めています。その楽譜をDoricoに読み込み、NotePerformerで再生してみると、音楽全体の流れや構造を把握するうえで非常に役立っていることに改めて気づかされます。

かつては「そこそこ鳴る再生音源」という印象でしたが、現在のNotePerformerは、「楽譜を読むエンジン」として捉えた方が理解しやすいように思います。

そこで今回は、このNotePerformerがどのような考え方で動いているのかを、自分なりに整理してみたいと思います。ここでは主にストリングスを例に説明していますが、NotePerformerは実際にはオーケストラ全体をカバーする総合音源です。

なお、NPの詳細な技術資料について調べてみましたが、公式にはマニュアル以上の情報はほとんど公開されていません。そのため、本稿では各種フォーラムでの開発者の発言や実際の挙動の観察をもとに、推測を交えながらまとめています。

[1]: NotePerformer

NotePerformerは何をしているのか

NotePerformerを理解するうえでまず重要なのは、このソフトが単に音符を順番に鳴らしているわけではない、という点にあります。

一般的な音源、特にDAW上で使用するストリングス音源は、基本的にはMIDI情報をそのまま再生します。音の強弱、タイミング、フレーズのニュアンスといったものは、すべてユーザーがコントロールデータ（CCなど）として与える必要があります。

これに対してNotePerformerは、楽譜そのものを解析し、そこから音楽的な表現を自動的に生成します。

例えば、

スラーの有無
クレッシェンドやデクレッシェンド
声部の関係
フレーズのまとまり

といった情報をまとめて解釈し、「どのように鳴らすべきか」を内部で判断しているように見えます。

つまり、NotePerformerは「音を鳴らす音源」ではなく「楽譜を読むエンジン」と捉えた方が理解しやすいでしょう。

Lookaheadという考え方

その中心にあるのが、いわゆるlookahead（先読み）です。この仕組み自体は初期のバージョンから備わっていたようですが、その後のバージョンアップを経て精度や挙動が改善され、特にVersion 3以降ではDoricoやFinaleとの連携の中でより自然な再生が可能になってきたと考えられます。

従来、この仕組みは主に「発音の遅れを補正するため」のものとして使われてきました。特にストリングス音源では、レガートのつながりにどうしても遅れが生じるため、次のノートを少し前に読み込んでタイミングを合わせる必要があったからです。

元々、Audio ModelingのSWAMエンジンやSample Modelingといった「物理モデリング系」や「ハイブリッド系」の音源では、リアルタイム演奏とアーティキュレーションの整合性を取るために、内部的な遅延処理（事実上のlookahead）に近い仕組みが以前から備わっていました。

その後、Tokyo Scoring Stringsがサンプリング音源において、レガートの遅延（スルーレート）をDAW側で手動補正する手間を省くための「Lookaheadモード」を提供したことは、この機能の一般化に大きく寄与したと言えるでしょう。

さらに現在では、このlookaheadの役割は大きく変わってきています。

NotePerformerの場合、おそらく数小節先までの情報を参照しながら、

フレーズがどこへ向かうのか
どこで呼吸するのか
どの声部を前に出すのか

といったことを判断していると考えられます。

これは単なるタイミング補正ではなく、「音楽の流れそのものを決定する処理」と言ってよいでしょう。

ハイブリッド音源という仕組み

NotePerformerのもう一つの特徴は、ハイブリッド型の音源であることです。

公式には「少量の高品質サンプルとモデリング技術を組み合わせている」と説明されています。

通常のストリングス音源は、強弱や奏法ごとに大量のサンプルを用意するため、数十GB以上の容量になることも珍しくありません。

それに対してNotePerformerは、必要最小限のサンプルをベースにしながら、

音量変化
ビブラート
音の繋がり

といった部分をリアルタイムで生成しています。

そのため、1GB未満という非常に軽い構成でありながら、一定の音楽的な表現力を持たせることが可能になっています。

他のストリング音源との違い

ここで、現在使われているストリング音源と比較すると、その位置づけがより明確になります。

一般的なストリング音源は、大きく二つの方向に分けることができます。

一つは、LASSやMSS、TSSのようなサンプリング系音源です。これらはMIDI情報をもとに、ユーザーがタイミングやダイナミクスを調整しながら演奏を作り込んでいくタイプの音源です。

もう一つは、SCESやSWAMに代表されるモデリング系音源です。こちらは演奏パラメータをリアルタイムで制御しながら、より連続的な音楽表現を目指します。

これらはいずれも「どのように演奏するか」を扱う音源です。

それに対してNotePerformerは、「どのように演奏するか」ではなく、「楽譜が何を表現しているのか」から音楽を構築する点に特徴があります。

楽譜を書くことが音作りになる

実際に使ってみて最も印象的なのは、楽譜の書き方によって音が大きく変わる点です。

スラーが曖昧
ダイナミクスが不足している
声部の整理が不十分

こういった状態では、再生もそれに応じて曖昧になります。

逆に、

フレーズが明確で
声部の役割が整理されている

場合には、驚くほど自然な音楽として鳴ります。

つまり、「楽譜の精度そのものが音の質に直結する」ということになります。

NotePerformerの位置づけ

以上を踏まえると、NotePerformerは従来の音源とは少し異なる役割を持っていることが分かります。

DAW音源：演奏を作る
モデリング音源：音を作る
NotePerformer：楽譜から音楽を再構成する

このように整理すると理解しやすいでしょう。

ライセンスの問題も絡むのかもしれませんが、今回のVST廃止も含めて、NotePerformerは「楽譜解釈エンジン」としての純度を高める方向に進んでいると感じられます。

これは、従来の「音を作る」制作とは異なる、もう一つの音楽制作の形なのかもしれません。

なお、楽譜を解析して演奏を生成するという発想自体は、NotePerformerに限ったものではありません。

以前、MusicXMLをもとに演奏を生成するMelisma [2] という試みを目にしたことがありますが、これも楽譜の情報から音楽を構築しようとする点で、NotePerformerと方向性を共有しているように感じられます。

こうしたアプローチについては、後ほど改めて触れてみたいと思います。

[2]: Melisma

次回は、この中でも重要な要素であるlookaheadの仕組みについて、もう少し詳しく見ていきたいと思います。

英語版はこちら