FESTIVAL × LIFE

コーチェラの朝4時と、
弟子屈の夜明け

濱田優貴 · 2026.04.13 · 約5分

音楽フェスに行くたびに、帰りたくなくなる。

コーチェラの最終日、朝4時にメインステージを離れて砂漠の端まで歩いた。L-Acoustics K2のメインハングから出てくる低音が、まだ遠くから届いていた。16ユニットを垂直方向に積み上げて、各ユニットの角度を2.5度ずつ変えながら、会場の後方まで均一に音を届ける設計。あれだけの距離に出て、それでもまだ音が追いかけてくる。「この時間を終わらせたくない」と思った。

でも、フェスは終わる。

この時間を終わらせたくない、と思った。でも、フェスは終わる。

K2メインハングと、音が「降ってくる」理由

コーチェラのメインステージ（Coachella Stage）で使われているL-Acoustics K2は、音響エンジニアリングの観点から見ると本当によくできたシステムだ。16ユニットを縦に並べたメインハングは、垂直方向の指向性を細かく制御できる。1ユニットあたり2.5度の角度調整で、ステージ前方の近距離から後方100m超まで、ほぼフラットな音圧分布を実現する。

さらに印象的なのがサブウーファーの処理だ。SB28をカーディオイド配置——前に2台、後ろに1台を逆向きで配置するパターン——で後方への漏れを約-20dB抑制している。物理的に音を「前方だけに集中させる」構造。だから砂漠の端まで歩いても、方向感覚が崩れない。音は常にステージから来る。

Heineken Stage（エレクトロ専用会場）ではまた違うアプローチが使われていた。dBTechnologies Vivace 20をグリッド状に展開して、天井面全体を音源にする設計。ポイントソースを1点に集中させるのではなく、面全体から均一に音が出てくる。これが「音に包まれる」感覚の技術的な正体のひとつだ。

L-ISAが空間に音オブジェクトを配置する——「音が降ってくる」のは、高さ軸を持ったイマーシブサウンドの仕業だ。

もうひとつ、コーチェラで体感したのがL-ISA Immersive Soundの効果だ。通常のステレオ音響は左右の2軸しかない。L-ISAは音響オブジェクトを左右に加えて高さ方向にも配置できる。「音が降ってくる」感覚——あれは錯覚でも演出でもなく、上方スピーカーアレイから実際に音が降りてきている。そしてこれは事前にWYSIWYGシミュレーションで3Dモデルとして設計される。全席の音圧をdBSPLレベルで予測してから、物理的な機材配置を決定する。フェスに来る数万人全員に、設計通りの音が届く。

Koeを作り始めたのも、uta.liveを作ったのも、SOLUNAを始めたのも、全部この感覚への返答だと思っている。フェスの高揚感を、もっと手元に置いておく方法はないか。

弟子屈、9,000坪、-25℃と+28℃の振れ幅

弟子屈のTAPKOPで夜明けを見たとき、似た感覚があった。阿寒摩周国立公園の中、標高約250mの敷地に9,000坪。PAN-PROJECTSが建築を担当し、VUILDがデジタルファブリケーションで内装を仕上げたその場所で、誰かが曲をかけていた。朝が来るのを、誰も急いでいなかった。

弟子屈は温度差が極端だ。冬は-25℃、夏は+28℃。この53℃の振れ幅が、サウナと水風呂を体験の極限まで引き上げる。NES（ネイチャーエクスペリエンス弟子屈）の天然温泉を引湯できる環境があって、摩周湖の冷水と組み合わせると、都市のサウナ施設では絶対に再現できない外気浴が生まれる。コーチェラのL-ISAが作る包囲感と、弟子屈の自然環境が作る感覚的な没入感は、構造として同じものだと思っている。

ここに音響システムを持ち込んだら、何が起きるか。Koeを100台同期させたら、北海道の森が楽器になるか——そのことを、夜明けの空を見ながらずっと考えていた。

Koe × TAPKOP: 100台同期の技術的な話

現在Koeの同期プロトコルとして設計しているのは、Wi-Fi 6（802.11ax）のメッシュネットワーク上でUDP multicastを使う構成だ。2.4GHzと5GHzのデュアルバンドで、9,000坪に100台を展開しても電波の死角ができないように設計する。

同期精度の核になるのはNTPだ。ファームウェアにはesp-sntpクレートを使って、stratum-2サーバーから時刻を取得している。達成できている同期精度は±5ms。ただし位相コヒーレントな音楽再生——つまり複数スピーカーから同じ音が「ひとつの音像」として聞こえる状態——には、100ms以内のウィンドウに全台が収まっていることが条件になる。±5msはこの条件を大幅にクリアしている。

9,000坪に100台並べると、L-Acoustics K2と同等の包囲感が得られる計算になる。

オーディオフレームはUDP multicast 239.42.42.1:4242で送信する。フォーマットはAAC 48kHz/16bit。TCPではなくUDPを使う理由は、再送処理によるレイテンシのジッタを避けるためだ。1パケット落ちても次のフレームで回復できるよう、デコーダ側でバッファ設計している。guitar-stream.pyを使えば、Babyface ProからのDJセットを直接UDP経由で全Koeに同時配信できる。測定済みのエンドツーエンドレイテンシは22ms。人間の知覚でエコーと感じる閾値（約30ms）を下回っている。

LEDの同期は4243ポートで別チャンネルを使う。8パターンの発光をタイムスタンプ付きのコマンドで制御するので、音と光が1フレーム単位でずれない。コーチェラのL-ISAが空間に音オブジェクトを配置するように、Koeは空間に100個の音源と光源を配置する。スケールは違っても、アーキテクチャの思想は同じだ。

9,000坪に100台並べるとL-Acoustics K2と同等の包囲感が得られる——これは感覚的な話ではなく、音圧の空間分布をシミュレーションした上での見立てだ。点源を増やせばイマーシブ感は上がる。問題はコストで、K2フルセットは数千万円の機材費がかかる。Koeは1台あたりのコストを1桁下げることで、その体験を分散型で再現しようとしている。

ハワイの朝の静けさと、夜の包囲感の対極

ハワイの家は海の目の前にある。朝は静かで、波の音だけがある。前夜にどんな音楽を聴いていても、朝の海の前では全部リセットされる感覚がある。その静けさの中で、「昨夜の音響空間をここに持ち込めたらどうなるか」とよく考える。

この対極——朝の海の一音と、夜の100スピーカーによる包囲感——を自分でコントロールできる場所が、SOLUNAの意味だ。弟子屈でも、ハワイでも、その切り替えを自分の判断でできる。静寂に入りたければ入れる。音に包まれたければ、Koeを100台起動すればいい。

SOLUNAで映画を撮る: Veo + XTTS + ffmpeg

TAPKOPの現地映像をベースに、YOKOSAWA映画MVの制作を進めている。技術スタックを説明すると——まず現地で撮影した素材をVeo（veo-2.0-generate-001）のimage-to-video APIに渡す。開始フレームを入力して「4秒のシネマティック映像を生成して」とプロンプトを書くと、カメラのゆっくりとしたズインやパラックス効果をAIが補完してくれる。人手では撮れないカット——夜明けの光が建物に当たる瞬間の1秒の変化——をAIが生成する。

音声にはXTTS v2でボイスクローンを使っている。ElevenLabsのクローンID FO3gtGQuynnl2usM3nrrでも同じ声を呼び出せる。ひらがな入力の方が日本語の発音精度が上がるので、台本はひらがなで書いている。これをffmpegに渡して、サウンドトラックとボイスオーバーをミックスする。字幕はASSフォーマットでカラオケタイミングを付けて焼き込む。

弟子屈で現地撮影 → Veoで映画品質に補完 → XTTS/ElevenLabsで声を乗せる → ffmpegでASSを焼く。この一連の作業を、SOLUNAの施設内で完結させる体験を作りたい。創作の場所として、TAPKOPを機能させる。

フェスは終わらなくていい。

SOLUNAの共同オーナーになるということは、こういう夜と朝を、自分の場所として持つということだ。柔術の稽古をして、温泉に入って、地元の食材を食べて、音楽をかけて、映画を撮って——それが全部できる場所に、名前を刻む。コーチェラの朝4時に砂漠の端まで歩きながら感じたあの「終わらせたくない」という感覚を、場所として定着させる試みが、SOLUNAだ。

フェスは終わらなくていい。

Y

濱田優貴

Enabler Inc. CEO

Koe / uta.live 作者 DJ · 映画監督柔術青帯令和トラベル社外取締役 East Ventures出資