コンテンツ制作に役立つジェネレーティブAI（生成AI）｜音楽・画像・動画・VR・3D生成サービスを解説

Transcosmos プライム企業11期連続増収 - 連結売上高3738億 - DX経験ゼロから目指すプロフェッショナルエンジニア募集

ここ数年のAI技術の急速な発展によって、さまざまな分野でジェネレーティブAIが活躍するようになりました。

特にクリエイティブ分野では、音楽や音声合成、画像、動画、VR・3Dモデル生成など、これまでにない革新的な表現手法が誕生しています。

本記事では、ジェネレーティブAIの最新技術を紹介し、各サービスの概要や利用料金、日本語対応の有無、得意なことや苦手なことについても解説していきます。

これからAIを活用したクリエイティブを始めたい方や、最新の技術動向に興味がある方はぜひお読みください。

Contents

音楽・オーディオ生成AI
- 音楽生成：自動作曲や楽曲の改変を行うAI
- 音声合成: 自然な人間の声を模倣するAI
画像生成AI
動画生成AI
VR・3Dモデル生成AI
ジェネレーティブAIが秘める驚異的な力をクリエイティブ活動に役立てよう

音楽・オーディオ生成AI

音楽・音声（人間の声）合成に特化したサービスには、次のようなものがあります。

音楽生成：自動作曲や楽曲の改変を行うAI

オリジナル楽曲を作成｜Amper Music

出典：https://www.ampermusic.com/

「Amper Music」はユーザーが簡単な操作で自分だけのオリジナル楽曲を作成できるサービスです。作成したい楽曲のジャンルやムード、曲の長さなどを設定するだけで、自動生成された楽曲をダウンロードすることができます。

項目	詳細
サービス名	Amper Music
サービスURL	https://www.ampermusic.com/
サービス概要	AIによる自動作曲・楽曲生成サービス
提供企業・団体	アメリカのスタートアップ企業「Amper Music, Inc.」
利用料金	月額15ドルから利用可能
日本語対応	可
得意なこと	自動でオリジナル楽曲を生成・編曲
苦手なこと	既存の楽曲を元にしたアレンジや、特定のアーティストやバンドの音楽を再現することは苦手

オリジナルのクラシック楽曲を生成｜AIVA

出典：https://www.aiva.ai/

「AIVA」は、クラシック音楽を中心とした自動作曲AIです。数千曲に及ぶクラシック音楽の楽譜を学習し、その知識を基にオリジナルのクラシック楽曲を生成します。他の音楽ジャンルにも対応しており、幅広い用途で利用することができます。

項目	詳細
サービス名	AIVA
サービスURL	https://www.aiva.ai/
サービス概要	AIによる音楽作曲・楽曲生成サービス
提供企業・団体	ルクセンブルクの企業「AIVA Technologies」
利用料金	月額49ユーロから利用可能
日本語対応	不可（英語、フランス語、ドイツ語、スペイン語、イタリア語に対応）
得意なこと	クラシック音楽をはじめ、さまざまなジャンルの楽曲生成・編曲
苦手なこと	特定のアーティストやバンドの音楽を再現することは苦手。また、AIVAの生成する楽曲には、まだ人間が作曲した楽曲には及ばないという指摘も。

音声合成: 自然な人間の声を模倣するAI

日本語対応の音声自動合成AIを紹介します。テキストから音声を生成することができ、スマートスピーカーの音声アシスタント、ナビゲーションアプリなど、様々な場面で利用されています。

テキストを自然な人間の声に変換｜Google Cloud Text-to-Speech

出典：https://cloud.google.com/text-to-speech?hl=ja

「Google Cloud Text-to-Speech」は、テキストを自然な人間の声に変換するAI音声合成サービスです。

項目	詳細
サービス名	Google Cloud Text-to-Speech
サービスURL	https://cloud.google.com/text-to-speech?hl=ja
サービス概要	テキストを自然な人間の声に変換する音声合成サービス
提供企業・団体	Google LLC
利用料金	1ヶ月あたり、400万文字まで無料。それ以上は従量課金制。
日本語対応	可。20以上の言語と100以上の音声をサポート
得意なこと	自然な音声合成、多言語対応、高品質な音声生成
苦手なこと	音声合成のニュアンスや感情表現がやや苦手。

様々な声質や話し方を選べる｜Amazon Polly

出典：https://aws.amazon.com/jp/polly/

「Amazon Polly」は、Amazon Web Servicesが提供する音声自動合成AIサービスで、日本語にも対応しています。テキストを入力すると、様々な声質や話し方の中から選ぶことができます。

項目	詳細
サービス名	Amazon Polly
サービスURL	https://aws.amazon.com/jp/polly/
サービス概要	テキストを自然な人間の声に変換する音声合成サービス
提供企業・団体	Amazon Web Services, Inc.
利用料金	従量課金制、最初の数百万文字までは無料
日本語対応	可。50以上の言語と100以上の音声をサポート
得意なこと	自然な音声合成、多言語対応、高品質な音声生成。ニュアンスや感情表現もカスタマイズ可能。
苦手なこと	音声のリアルタイム合成には対応しておらず、事前に音声ファイルを生成する必要がある。また、カスタム音声の作成には特定のスキルが必要で、一般的なユーザーには使いづらい可能性も。

日本語に特化したサービス｜Open JTalk

出典：https://open-jtalk.sp.nitech.ac.jp/

「Open JTalk」は、オープンソースで開発された音声自動合成AIのライブラリで、日本語に特化しています。テキストを入力すると、合成音声を生成することができます。

項目	詳細
サービス名	Open JTalk
サービスURL	https://open-jtalk.sp.nitech.ac.jp/
サービス概要	日本語テキストを音声に変換するオープンソース音声合成システム
提供企業・団体	名古屋工業大学長尾研究室
利用料金	無料（オープンソース）
日本語対応	可（日本語のみ対応）
得意なこと	日本語の音声合成オープンソースの自由な改変・利用
苦手なこと	音質が商用サービスに比べて劣る場合がある。多言語対応不可。

自然な日本語音声合成｜AI Talk

出典：https://www.ai-j.jp/202205lp/

「AI Talk」は、日本のジェネレーティブAIサービス提供企業「株式会社エーアイ」が提供する、音声合成のWebサービスです。日本語対応で、テキストを入力すると、様々な声質や話し方の中から選ぶことができます。

項目	詳細
サービス名	AI Talk
サービスURL	https://www.ai-j.jp/202205lp/
サービス概要	日本語テキストを自然な音声に変換する音声合成サービス
提供企業・団体	株式会社エーアイ
利用料金	月5万円〜（無料お試し体験あり）
日本語対応	可（日本語のみ対応）
得意なこと	自然な日本語音声合成幅広いシチュエーションでの利用
苦手なこと	英語などの他言語には未対応。生成される音声に個人差があるため、完全に自然な音声を生成するのは難しい場合も。

録音した声をもとに自然な音声合成｜Lyrebird AI

出典：https://www.descript.com/lyrebird

「Lyrebird AI」は、リアルな音声合成技術を提供しています。音声を録音するだけで、その音声を元に、自然な音声合成が可能です。また、APIを提供しており、開発者が簡単に音声合成機能を導入できるようになっています。

項目	詳細
サービス名	Lyrebird AI
サービスURL	https://www.descript.com/lyrebird
サービス概要	個々の人の声を模倣する音声合成サービス
提供企業・団体	アメリカの企業「Descript」
利用料金	無料から利用可（3時間分の音声生成まで）
日本語対応	可
得意なこと	個人の声を高精度で模倣話者の声質、音声の速さ、発話内容を学習し、その話者の音声を再現できる。音声合成モデルの作成に必要な音声データが比較的少なくて済むため、短時間で音声合成モデルを作成可能。
苦手なこと	複数人の声を混ぜた場合には、うまく対応できない可能性も。

画像生成AI

以下は、画像生成AIの代表的なサービス名とその特徴です。

文章から画像を自動生成｜DALL-E 2

出典：https://openai.com/dall-e/

「DALL-E 2」は、ChatGPTで知られる「OpenAI」が開発した、文章から画像を生成するAIです。ユーザーが指定した文章に基づいて、それにふさわしい画像を自動生成することができます。

項目	詳細
サービス名	DALL-E 2
サービスURL	https://openai.com/dall-e/
サービス概要	テキストの記述に基づいて画像を生成するAI
提供企業・団体	AI研究機関「OpenAI」
利用料金	15ドルから（ポイント購入）
日本語対応	入力は可能だが、精度が大きく落ちる可能性あり。英語推奨
得意なこと	テキストから独創的でリアルな画像を生成すること
苦手なこと	・入力内容次第では不適切な画像生成をする場合も。・現実に存在しないオブジェクトやシーンを生成する場合も。・既存の著作物に類似する可能性あり。

用意した画像から新しい画像を作り出す｜Artbreeder

出典：https://www.artbreeder.com/

「Artbreeder」は、画像生成とブレンドに特化したクリエイティブツールです。ユーザーが用意した画像を元に、AIによって画像を生成し、それらをブレンドすることで新しい画像を作り出すことができます。

項目	詳細
サービス名	Artbreeder
サービスURL	https://www.artbreeder.com/
サービス概要	既存の画像を組み合わせて新しい画像を生成するAI
提供企業・団体	Joel Simon氏が創設した個人プロジェクト「Artbreeder」
利用料金	無料プランあり
日本語対応	英語推奨（サイト内は英語表記）
得意なこと	既存の画像を組み合わせて独創的な画像を生成すること
苦手なこと	リアルな画像の生成や、複雑な形状の画像の生成には不向き。

動画生成AI

以下は、動画生成AIの代表的なサービス名とその特徴です。

テキストから自動でビデオ生成｜Wibbitz

出典：https://login.wibbitz.com/u/login

「Wibbitz」は、オンラインビデオ作成プラットフォームです。テキストを元に自動でビデオを生成することができます。

項目	詳細
サービス名	Wibbitz
サービスURL	https://login.wibbitz.com/u/login
サービス概要	自動動画生成プラットフォーム
提供企業・団体	アメリカとイスラエルに拠点のあるスタートアップ企業「Wibbitz」
利用料金	無料トライアルあり
日本語対応	英語推奨
得意なこと	テキストや画像、音声を元に効率的に動画を生成すること
苦手なこと	自動ビデオ作成に特化。高度なビデオ編集には不向き。

自動字幕生成、音声認識、翻訳、自動編集も｜Rocketium

出典：https://rocketium.com/

「Rocketium」は、インドのスタートアップ企業が開発した、ジェネレーティブAIによる動画生成サービスです。写真や動画クリップを入力すると、自動的にストーリー性のある動画を生成してくれます。

項目	内容
サービス名	Rocketium
URL	https://rocketium.com/
サービス概要	ビデオ制作のためのオンラインプラットフォーム
提供企業・団体	インドのスタートアップ企業「Rocketium Inc」
利用料金	月額19ドルから
日本語対応	可。他多言語対応
得意なこと	テンプレートを利用した高品質のビデオ制作。自動字幕生成、音声認識、翻訳、自動編集など。
苦手なこと	AIによるクオリティの高いビデオ制作には限界があり、人間のクリエイティビティや判断力が必要な場合も。

ナレーション、字幕やタイトル、編集も自動化｜Vrew

出典：https://vrew.voyagerx.com/ja/

「Vrew」は、AI技術を活用して動画制作を簡単に行うことができるサービスです。特に音声やテキストから動画を自動生成する機能が強化されており、ユーザーが時間と手間を大幅に節約することができます。

項目	内容
サービス名	Vrew
URL	https://vrew.voyagerx.com/ja/
サービス概要	AI技術を活用して音声やテキストから動画を自動生成するサービス
提供企業・団体	日本「VoyagerX株式会社」
利用料金	「音声分析 120分」「AI音声 1万字」「翻訳 3万字」までなら無料。毎月1日に使用量がリセットされる。それ以上は有料プランあり（月額900円）
日本語対応	可
得意なこと	AI音声生成: テキストから自然な音声を生成。ナレーションなどの録音作業が不要に。 AI動画制作: 音声やテキストから、関連する画像や動画を自動で選択して動画を生成。動画編集の作業が大幅に軽減。 AIテロップ作成: 音声からテキストを自動生成し、動画にテロップを追加。字幕やタイトルなどの追加が容易に。
苦手なこと	AIは一定の範囲内でしか創造性を発揮できないため、ユーザー独自のスタイルや表現を求める場合には限界も。また、ユーザーは、使用する素材が著作権フリーであることを確認する必要あり。完全な自動化は難しい。AIが生成した動画や音声に対して、ユーザーが微調整や最終チェックを行うことが望ましい。

VR・3Dモデル生成AI

VR空間向けの3Dモデル生成サービス｜Spoke

出典：https://hubs.mozilla.com/spoke/

「Spoke」はMozillaが開発した、VR空間向けの3Dモデル生成サービスです。自動生成された3Dモデルを利用することで、開発者は手軽にVRコンテンツを制作することができます。

項目	内容
サービス概要	VRや3Dモデルの生成に特化したAIプラットフォーム
提供企業・団体	Webブラウザ「FireFox」などで知られるアメリカの企業「Mozilla Corporation」
利用料金	無料
日本語対応	可
得意なこと	簡単かつ迅速な3Dモデル生成とVRシーン作成
苦手なこと	大規模プロジェクトには対応できない場合も。

手描きスケッチから画像、動画、音声を自動生成｜Promethean AI

出典：https://www.prometheanai.com/

「Promethean AI」は、アメリカのスタートアップ企業が開発した、ジェネレーティブAIによる画像、動画、音声の自動生成サービスです。手描きで描いたキャラクターのスケッチをAIに読み込ませることで、自動的にデザインを完成させることができます。

項目	内容
サービス概要	AIによるクリエイティブコンテンツの自動生成プラットフォーム
提供企業・団体	アメリカの企業「Promethean AI」
利用料金	月額49ドルから（無料体験あり）
日本語対応	不可。英語推奨
得意なこと	画像、動画、音声などの自動生成
苦手なこと	人間のクリエイティビティや感性を完全に置き換えることはできない

テキストからオリジナル3Dアニメやプレゼン動画を自動生成｜Lumen5

出典：https://lumen5.com/

「Lumen5」は、動画作成をAIでサポートするサービスです。記事やブログなどのテキスト情報を入力するだけで、簡単にオリジナル動画を作成することができます。

項目	内容
サービス概要	ビデオ制作のためのAIツール
提供企業・団体	カナダの企業「Lumen5 Inc.」
利用料金	月額29ドルから
日本語対応	可。多言語対応
得意なこと	テキストから自動的に、オリジナルの3Dアニメーションやビデオプレゼンテーションを自動生成できる。テキスト内容に合わせたストック動画・画像・音楽素材が自動で選定され、レイアウトやカットなども自動で組み立て。作成した動画はダウンロードしてSNSやWebページなどで配信可能。
苦手なこと	高度な編集やカスタマイズはできない素材の種類が少なく、組み合わせに限界がある