VTuberの仕組みを解説!プロと個人向けの両方を説明
こんなことが知りたい
VTuberってどのような仕組みで動いているの?
ここでは、VTuberに興味を持った方に向けて 「VTuberが動く仕組み」について解説 していきます。
VTuberは企業が運営する場合もあれば、 個人で活動している場合もあります。
基本的な仕組みは同じなのですが、 使っている機材や運営方法が少し違います。
プロ向け、個人向けで場合分けをしながら説明していきます。
この記事を書いた人
さくら
- 3DCADサポートエンジニア
- サポート歴7年
- Autodeskとダッソー製品のカスタマーサポートに従事
- 2022年からVR部署の管理職
- 法人向けVRを扱う
詳しい紹介はこちら 「自己紹介」
目次
プロのVTuberの仕組み
企業が運営しているVTuberのなかでも、 「使っている機材」はさまざまです。 また、「ゲーム実況」などの動きをあまり必要としないコンテンツと 「MV」のような本気のプロモーションコンテンツでも 使っている機材が違います。
ここでは、 「本気のプロモーションコンテンツ」を制作するときに使われる機材と その仕組みを紹介していきます。
まず、コンテンツを撮影するときの機材は、 主に次の5つです。
- モーションキャプチャー
- パソコン
- マイク
- 3Dビューワ
- 配信ハードウェア
最低限必要なものをピックアップすると、 この5つの機材が必要になります。 細かいことをいうと「スイッチャー」や「映像確認用モニター」 「クロマキーヤー」「ミキサー」と言ったものを使うことがありますが、 複雑になるので「配信ハードウェア」としてまとめました。
次に「中のひと」についてですが、 「身体を動かすアクター」と「声を出す声優」で分担することがあります。
例えば、ダンスを含む歌のプロモーションコンテンツを作成する場合、 モーションキャプチャーでアクターを撮影して、 マイクの前で声優が歌います。
ライブ配信であれば、ダンスと歌を同時に収録して リアルタイムに3D映像と音声を統合して流します。 イメージとしては、ディズニーリゾートでのミッキーたちの ショーを思い浮かべていただければと思います。
モーションキャプチャーのデータはパソコンに集約されて、 3Dビューワでアバター表示をします。 具体的にはUnity、Unreal、Mayaといった3DCGソフトで モーションキャプチャーの動きのデータをアバターに反映させます。
マイクの音声データも同時にパソコンに集約します。 パソコンに集約された「音声」と「3Dビューワの映像」を 配信ハードウェアで統合して、発信をする流れです。
「仕組み」を簡単な図にしてみると、 こんな感じになります。
ちなみにライブ配信でなければ、ダンスと歌を別々に収録して 動画編集ソフトで合成することが多いです。 「配信ハードウェア」は使わずに、音声と3Dビューワ映像を別々に保存しておき、 動画編集ソフトで統合します。
ここまでが「本気のプロモーションコンテンツ作成」 で使うシステムの仕組みです。
ゲーム配信や雑談などの軽いコンテンツの場合は、 下で説明する「個人のVTuberの仕組み」と同じです。
プロが使う機材はコレ
プロのVTuberが「本気のプロモーションコンテンツ作成」で使う機材について もう少し詳しく説明していきます。
モーションキャプチャー
動きの再現性が高いハイエンドのモーションキャプチャーを使うことが多いです。
具体的には「Vicon」「OptiTrack」「XSense MVN」といった 法人向けのモーションキャプチャーです。
ただし、価格が500万~2000万円と高額で、さらに運用スキルも必要です。 そのため、ほとんどの場合が制作会社が運営する 「モーションキャプチャースタジオ」へ撮影を委託します。
身体、指、表情をひとつのモーションキャプチャーで取ることは難しいので、 複数の機器を組み合わせて同時撮影をします。
例えば、身体は光学式と呼ばれるモーションキャプチャー、 指はデータグローブと呼ばれる手専用のモーションキャプチャー、 表情はカメラで撮影する顔面キャプチャーの3つを組み合わせます。
ライブ配信の場合は、 このすべてのデータを3Dビューワでアバターへリアルタイムに反映させます。
パソコン
リアルタイム処理や映像データを扱うので、 ワークステーションパソコンを使います。
VTuberの3Dアバターを使ったアニメーションを作成するので、 グラフィックボード、CPUはハイエンドのスペックが好ましいです。
例えば、グラフィックボードはNVIDIA RTXシリーズやAMD RadeonProシリーズが選ばれ、 CPUはCorei7、Ryzen7、Xeonが搭載されているパソコンが必要です。
マイク
VTuberの収録は通常一人のことが多いですが、 コラボなどの複数人で撮影する場合は、 「複数のマイク」と「音声ミキサー」が必要になります。
複数のマイクから発せられる複数の音声データを ミキサーで統合してひとつの音声データにします。
具体的には、「YAMAHA」や「Blackmagic Audio」 などのミキサーがよく使われます。
配信ソフトが複数の音声データを扱えない場合は、 ミキサーでひとつの音声データにする必要があるわけですね。
3Dビューワ
プロが使う機材のなかで「品質を高めるカギ」になってくるのが 3Dビューワです。
質の高いコンテンツを作成するために、 独自にプログラミングをして3Dビューワを開発することも多々あります。 「こういう表現をしたいけど既製品だとできない」ことを 自分たちで開発して作ってしまうわけですね。
独自開発でよく使われる3DビューワがUnityとUnrealです。 もともとゲームを作るための開発環境であるUnityとUnrealは、 機能追加がしやすいようになっているわけです。
例えば、キズナアイのラストライブ「hello world 2022」も ラストライブ向けにUnityをベースに3Dビューワを開発しています。 エンドロールをよく見ると「Unityエンジニア」とありますが、 ラストライブのためにエンジニアがUnityに「独自表現」の機能実装をしています。
独自の3Dビューワは、 VTuberのノウハウが詰まった資産と言っても過言ではないです。
配信ハードウェア
プロが配信する場合、 配信するための映像と音声はハードウェアを使って統合して、 ひとつの動画データにします。
映像と音声が統合された動画データは、 配信ハードウェアを通して、 直接ライブ配信サービスに流します。
配信ハードウェアの具体例としては BlackmagicのATEM Miniシリーズなどがあります。
例えば、YouTubeであればYouTube Liveに 配信ハードウェアが出力する 映像と音声をそのまま流していきます。
ちなみに、個人で配信する場合は、 パソコンにつながっているマイクの音声と パソコン画面の映像を配信ソフトで統合してから、 配信サービスに流します。
プロはハードウェアを使うことが多いですが、 個人では価格の面でソフトウェアで代用することが多いわけです。
個人のVTuberの仕組み
個人でVTuberのコンテンツを作成する場合は 次の5つの機材が必要になります。
- モーションキャプチャー
- パソコン
- マイク
- 3Dビューワ
- 配信ソフト
使う機材の種類は似ていますが、 仕組みが若干違います。
まず、「中のひと」は、個人なのでアクターも声優も同じです。 動きも声も一人でこなします。
モーションキャプチャーもハイエンドのものと比べると精度が劣るので、 激しいダンスや細かな動きは難しいです。
また、市販のモーションキャプチャーを使うことが多いので、 それに対応している3Dビューワが必要です。
例えば、HTC VIVEのHMDとトラッカーを使ってモーションキャプチャーをして、 VirtualCastという3Dビューワを兼ねている配信サービスを使って ライブ配信をするような感じです。
HMDは多くの場合マイクも付いているので、 モーションキャプチャーと同時に収録ができます。
個人が使う機材はコレ
一定の質を保った配信ができる機材をピックアップして 説明していきます。
モーションキャプチャー
それなりに動きを再現できるモーションキャプチャーとして、 5万円~15万円くらいの価格帯のシステムがおすすめです。
具体的には「HTC VIVEトラッカーとHMD」「HaritraX」「Uni-motion」といった 個人向けのモーションキャプチャーです。
ただし、指や表情のトラッキングは難しいです。 高いグレードのHMDを使っていれば表情も取れますが、 3Dビューワが対応していないと意味がありません。
ちなみに、ゲーム配信やあまり動きのないコンテンツ作成であれば、 十分に動きを再現できます。
パソコン
できればワークステーションがおすすめですが、 ゲーミングパソコンでも十分動作します。
具体的に、 グラフィックボードはNVIDIA GeForce RTXシリーズ、 CPUはCorei7、Ryzen7以上がおすすめです。
マイク
ゲーム実況などであれば据え置きのスタンドマイクがおすすめです。 全身を動かすのであれば、無線のピンマイクがいいでしょう。
HMDであれば別途マイクは必要ありません。
3Dビューワ
基本的にはモーションキャプチャーに対応している3Dビューワがおすすめです。
例えば、HTC VIVEトラッカーとHMDを使うのであれば、 VirtualCastやVRChatが3Dビューワも兼ねて配信できます。
もちろん、Unityを使うこともできますが、 色々と複数のツールを駆使しないと配信までたどり着けません。
ちなみに、ゲーム実況などではよくUnityが使われます。 背景や床の色を緑色に設定することで透過処理しやすくして、 配信ソフトで3Dアバターとゲーム画面映像を合成します。
配信ソフト
プロの機材ではハードウェアを使っていましたが、 個人向けでは価格を抑えるためソフトウェアで対応することが多いです。
例えば、OBS Studioという配信ソフトで 音声と映像の統合ができます。 その動画データをYouTubeやツイキャス、ニコ生などに配信する機能がついています。
VRにおすすめのパソコン
当サイトでは VR向けにおすすめのパソコンも紹介しています。
パソコンメーカー別に ローエンドからハイエンドまでのノートパソコンと デスクトップパソコンを提案しています。
VR用のパソコンをお探しの方は、 そちらもあわせて参考にしていただければ嬉しいです。
まとめ
「VTuberの仕組み解説!モーションキャプチャー使われ方」 についてのまとめです。
プロのVTuberは5つの機材を使っている。 「モーションキャプチャー」「パソコン」「マイク」 「3Dビューワ」「配信ハードウェア」
VTuberの仕組みは、 モーションキャプチャーで全身の動きを取り、 マイクの音声とともにパソコンに収録する。 モーションキャプチャーの動きを3Dアバターに適用して 3Dビューワに3D表示させて映像を作成する。
配信ハードウェアで3D映像と音声を統合させて YouTubeLiveなどのライブ配信サービスで流す。
プロと個人では、使っている機材のグレードが違う。