【衝撃】本1冊、動画1時間、音声約10時間を丸投げできるGemini 1.5 Flash＆Proがビジネスに効くワケ！

「早い・安い・簡単」というキャッチフレーズがピッタリのGoogleの新AIモデル「Gemini 1.5 Flash」がGoogle I/O 2024で発表。2024/5/20時点では無料で使え、この衝撃を誰もが体験できる。長い会議の内容をマルっと投げて文字起こしし、サクッと議事録を作成させてみたら？可能性が無限大の100万トークンの世界へ没入しましょう！

テツメモ｜tetumemo

2024/05/20

リンク

みなさん、こんにちは！

2024年5月12日の週は、AI業界にとって歴史的な1週間となりました。OpenAIからは新モデルGPT-4oが発表され、Google I/O 2024ではGemini 1.5 Proが性能アップ、超高速なGemini 1.5 Flashが登場しました。私は、これらの革新的な技術を一刻も早く体験したい一心で、夜を徹してキャッチアップと検証に励みました。

そして、度重なる検証は素晴らしい発見につながりました。新AIモデルの性能は想像を遥かに超えるものであり、まさに未来を感じさせてくれるものでした。特にGoogleの「Gemini 1.5 Pro＆Flash」は、100万トークンという驚異的なパフォーマンスを誇り、現在は無料のプレビュー版も提供されています。

今回のニュースレターでは、この革新的な新AIの実力を皆さんに体験していただく絶好の機会をお届けします。

未来のAIがもたらす可能性と興奮を、ぜひ自分の手で触れてみてください。きっと、これまでにない感動と驚きに満ちた体験ができるはずです。

さあ、私と一緒に、AIの新時代の扉を開きましょう！

💡Google AI Studio

🥽Gemini 1.5 Pro＆Flashは何が凄いの？

1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用：Gemini

加えて画像は1プロンプトあたり3,600枚までインプット可能です。

まずは性能やベンチマークなどを確認する前に、「Gemini 1.5を使うことでどんな「利点」があるのか？」、事例を参考に疑似体験していきましょう！

1，動画を文字起こししてブログ記事化

長編動画をマルっと投げて一気に文字起こし、英語も日本語も多言語大得意！

こちらは、英語の動画をGemini 1.5 Flashに投げ、文字起こしさせ、ブログ記事化と日本語翻訳を実行した事例です　👇️

テツメモ｜AI図解×検証｜Newsletter

@tetumemo

📝ヤバいなこれ・・

Google I/Oの講演（冒頭20分）をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了

- 文字起こし（Flash）
- ブログ記事化の指示（Pro）
- 英語出力➔日本語翻訳（Flash）

完成！

ProとFlashを使い分けると、超時短でリッチな仕上がりに！

無料で使えるうちに使い倒します https://t.co/PRWtXEOZCr pic.twitter.com/MYeG2xK90W
— テツメモ｜AI図解×検証｜Newsletter (@tetumemo) May 19, 2024

こちらの事例はチャプターリストも作成してくれます　👇️

エクセル兄さん(たてばやし淳

@excel_niisan

いや…Gemini 1.5Proの「動画からの文章生成」、すごすぎるのでは？

動画をアップロードして
①音声の文字起こし
②チャプターリストの作成
③ブログ原稿の執筆

ほぼ間違いが無く正確に、かなり上手な日本語で文章が書けている。… pic.twitter.com/4z5weO97Tg
— エクセル兄さん(たてばやし淳)@AI時代のExcel術_書籍多数 (@excel_niisan) May 19, 2024

2，トヨタとTeslaの決算報告書を比較して投資家向けレポートへ仕上げる

2つの決算資料をマージさせ、投資家向けのレポートを作る！

こちらは、2024年3月度のトヨタとTeslaの決算報告書をGemini 1.5 Flashに投げ、情報をマージさせて「どちらに投資したほうが良いのか？」という比較レポートを作らせた例です。

テツメモ｜AI図解×検証｜Newsletter

@tetumemo

📝さとりさんの「コンテンツマージ」は新しいコンテンツ創造に最適！

試しに、トヨタとTeslaの決算書をマージさせ、一発で

「テスラ vs トヨタ：2024年第1四半期決算分析 - どちらに投資すべきか？」

というコンテンツを作成　↓

GPT-4o、Claude3 Opus、Gemini 1.5… https://t.co/DQh3BvHsRq pic.twitter.com/EG9dewzGfK
— テツメモ｜AI図解×検証｜Newsletter (@tetumemo) May 18, 2024

3，新しいコンテンツを組合せ、新しいコンテンツを作り出す

2つのコンテンツをマージさせ、まったく新しいコンテンツを生み出す！

こちらはさとりさんの事例ですが、「資料A」「資料B」を2つ組合せて、新しい「資料C」を生み出したり、2つの物語を組合せて新しいコンテンツを生み出しています。

さとり

@satori_sz9

新たなコンテンツを無限に生み出すコンテンツマージとは

たとえば「D2Cのノウハウが書かれた資料A」と「教育理論について書かれた資料B」があったとして、AのノウハウをBで補強し、新たな「資料C」を作成する。

生成された資料Cは、骨組みとか下書きとかのレベルではなく「完成品」。…
— さとり (@satori_sz9) May 17, 2024

コンテンツマージをして、さらにワンピースの掛け合わせ　👇️

さとり

@satori_sz9

コンテンツマージで生成したコンテンツに、さらにワンピースを掛け合わせたら最初からパンチラインが強すぎた pic.twitter.com/bOdyzAfoXV
— さとり (@satori_sz9) May 18, 2024

✨Gemini 1.5 の醍醐味

私が考えるGemini 1.5 の醍醐味は以下3点です

インプットがノンストレスの100万トークン（Proなら今後200万へ）
コンテンツを後から追加しても反映される圧倒的記憶力
SafetyRock解除によるアウトプットの柔軟性

今までChatGPTやClaude3 を使ったことがある方は気づいているかもしれませんが、チャットを続けていると、最初の内容を忘れてしまったりします。

5個前の会話、10個前の会話を引っ張り出したり、その点を考慮してアウトプットを続けるのは厳しいです。

一方でGeminiは違います。

実際にGeminiを毎日数時間使っていますが、私もさとりさんの見解に同意です。

しかしGeminiはコンテキストウィンドウのデータが増えても性能が劣化するどころか性能を維持したまま、さらに具体的なコンテンツの抽象化を行いつつそれをマージすることまでできます。
※引用：コンテンツマージがなぜ可能になったか

さとり

@satori_sz9

コンテンツマージがなぜ可能になったか

昨日の投稿で書いたのですが、Claude 3 OpusでもGPT-4oでもコンテンツマージは機能しません。RAGでも使えません。

Gemini特有の現象です。

ではなぜGeminiはコンテンツマージができるのか？

それは「コンテキストウィンドウの実装の違い」です。…
— さとり (@satori_sz9) May 18, 2024

100万トークン、200万トークンなんて使い切れない！

と思いがちですが、投げたデータを忘れることなく、具体化と抽象化を繰り返し、情報を引っ張ってきてコンテンツを作成することができる。

こんな動作ができるLLMが今までありませんでした。

それが、2024年5月20日現在、誰でも、無料で使える状態というのが”異常事態”だと思っています。

💡Google AI Studio

これはもう・・・、触ってみるしかないですよね？

次の章は「Geminiの性能は他のLLM比べてどうなの？」と気になる方向けにまとめました。

「もう、早くGemini使いたいから、使い方教えてくれ！」という方は、「Geminiの使い方」の章まで一気に飛んでください。

💻Gemini 1.5 Proとは？

💡Google AI Studio

1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用：Gemini

テキスト、音声、動画、そして画像は1プロンプトあたり3,600枚までインプット可能です。

詳細は公式ドキュメントを参考に確認できます。

💡Gemini について

Gemini 1.5 Proの性能評価

2024年2月に発表されたGemini 1.5 Proから4ヶ月経過し、今回の5月モデルでは数学、コーディング、マルチモーダルのベンチマークで大幅な改善が見られました。

テキスト／画像／音声／数値など複数の種類のモダリティー（データ種別）を一度に処理できる統合されたAI
※マルチモーダルについて

最新版はテキストや視覚認識能力も向上しており、動画や音声の理解もより強力になっています。

🔍Gemini 1.5 Proの性能はGPT-4oを抑え1位

※Mathvistaより

OpenAIで5月14日に発表されたばかりの「GPT-4o」も早くて高性能ですが、Gemini 1.5 Proが見事に抑えて1位を獲得しました。

Jeff Dean

@JeffDean

Gemini 1.5 Model Family: Technical Report updates now published

In the report we present the latest models of the Gemini family – Gemini 1.5 Pro and Gemini 1.5 Flash, two highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information… pic.twitter.com/jS3xeEloAi
— Jeff Dean (@🏡) (@JeffDean) May 17, 2024

💻Gemini 1.5 Flashとは？

💡Google AI Studio

「Gemini 1.5 Flash」は2024年5月15日に開催された「Google I/O 2024」で発表されたGoogleの新しいAIモデルです。

今回、Gemini 1.5 Proも以前に比べてパワーアップしましたが、Gemini 1.5 FlashはProの軽量版として発表されました。

Gemini 1.5 FlashもProと同じインプットとアウトプットで利用可能です。

1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用：Gemini

Gemini 1.5 Flashは、「早い・安い・使える」がピッタリのモデルですが、特に「早さ」はどこよりも突き抜けています。

各ポイントごと説明していきましょう。

🔍Gemini 1.5 Flashの早さ

※Artificialanalysis

同じ週に発表したGPT-4oの早さに驚かれた方も多いと思いますが、そのスピードを2倍以上も凌駕する早い結果を示しています。

Artificial Analysis

@ArtificialAnlys

Gemini 1.5 Flash has earned its name, it is very fast ⚡️
Artificial Analysis has commenced benchmarking and relative to similar models in its quality band (Claude 3 Haiku, DBRX, Mixtral 8x7B), Flash is fast at ~160 tokens/s.

This could be driven by model architecture decisions… pic.twitter.com/xiCpQbOvV6
— Artificial Analysis (@ArtificialAnlys) May 15, 2024

🔍Gemini 1.5 Flashの安さ

※生成AIプロンプト研究所より

比較してわかるとおり、圧倒的にGemini 1.5 Flashが安いです。

■APIコスト計算ツールでチェック

※入力を10,000文字、出力を8,000文字→合計18,000文字

※1ドル155円レートで算出

GPT-4oの料金は7.75円(In) / 18.6円(Out)＝26.35円
Gemini 1.5 Proの料金は10.85円(In) / 26.04円(Out)＝36.89円
Gemini 1.5 Flashの料金は1.08円(In) / 1.36円(Out)＝2.45円

つまり、API経由で使っても、膨大な資料を投げて、8,000文字のブログ記事を書かせても、2.45円ということです。

※Artificialanalysis

図を見る限り、早さは圧倒的、さらにClaude3 Sonnet並に性能が良いのに、コスパが良すぎる！

🔍Gemini 1.5 Flashの簡単さ

100万トークンという数値は驚異的で、動画を1時間、音声を約10時間など、マルっと投げれる点が他のAIと比べて一線を凌駕しています。

Gemini 1.5 Proで同じことはできましたが、Flashのスピードは出せませんでした。

さらにFlashは圧倒的にコストが安い！（現在はプレビュー版で無料）

例えば、今まで1時間のセミナー動画の文字起こしは動画を分割したり、音声のみ抜き出して投げる必要がありました。

しかし、100万トークンのGemini 1.5 Flashなら、動画をポイッと投げて、「文字起こしをお願い」と指示をして、数分待っていたらサクッと全文文字起こしが完了してしまいました。

この、AIに指示をする”前準備”が無くなるだけで、圧倒的に簡単に使えると思います。

Geminiはどれだけ簡単に使えるのか？

実際の事例を交えながら使い方を紹介します。

💻Gemini の使い方

今はGemini 1.5 Pro＆Flashが誰でも無料で使えます。

※PCでのみ動作可能です。（スマホ不可）

📒利用までの3ステップ

Google AI Studioへアクセス
Googleアカウントでログイン
「New Prompt」を選択

Googleアカウントがあれば、1分もせずにすぐに使えます。

📒Google AI Studioの使い方概要

何の設定も必要なく、下のボックス欄に、ChatGPTのようにプロンプトを入力するだけで使えます。

■左下の「+」ボタンを押せば、ファイル、動画、音声などアップロード可能です　↓

■Google AI Studioの画面スクショを試しにアップロードして、項目を解説してもらいましょう　↓

■プロンプト「画像に書かれている項目を箇条書きで文字起こしし、日本語に翻訳。項目ごと初心者にもわかるように機能の説明をしてください。」と指示をしてみます。

Geminiは「Run」ボタンを実行しなければ動きませんので、入力したプロンプトを修正することが可能です。　↓

■Gemini 1.5 Flashを使い、一瞬で項目の説明が出力されました　↓

■出力されたものは、右上からダウンロードできます　↓

■ダウンロード形式は「rendered」と「Markdown」形式の2点です。読み物としてダウンロードするなら「rendered」を選択してください。　↓

■実際に、「rendered」を記事に貼り付けると以下のとおり整理され、読みやすい形式で表示されます　↓

📒Google AI Studio の機能説明

左側のメニュー

Get API key API キーを取得します。API キーは、Google AI Studio にアクセスして機能を使用するために必要です。
Create new prompt 新しいプロンプトを作成します。プロンプトとは、AI に対して指示や質問を与えるためのテキストのことです。
New tuned model 新しい調整済みモデルを作成します。調整済みモデルは、特定のタスクやデータセットに合わせて学習させたモデルです。
My library 自分自身のプロンプトやモデルを保存するライブラリです。
Allow Drive access Google Drive にアクセスを許可します。Google Drive に保存されているデータやファイルを使用する際に必要です。

左側のメニュー - 下部

Getting started Google AI Studio の使い方を学ぶためのチュートリアルやドキュメントへのリンクがあります。
Documentation Google AI Studio のドキュメントへのリンクがあります。API、機能、使用方法の詳細が説明されています。
Prompt gallery 他のユーザーが作成したプロンプトのギャラリーです。興味のあるプロンプトを見つけて参考にしたり、自分自身で試したりできます。
Gemini cookbook Google AI Studio の Gemini モデルの使い方について解説されたクックブックです。さまざまなタスクの例やヒントが載っています。
Discourse forum Google AI Studio のユーザー同士が質問や情報を交換できるフォーラムです。困ったことがあれば、フォーラムで質問してみるのも良いでしょう。
Build with Vertex AI on Google Cloud Google Cloud の Vertex AI を使用して、大規模な AI モデルを構築する方法を学ぶためのリソースへのリンクがあります。

右側のメニュー

Untitled prompt プロンプトの名前です。この名前は自由に変更できます。
System Instructions AI に対して具体的な指示を与えるためのセクションです。例えば、文章のトーンやスタイル、出力形式などを指定できます。
Run settings AI モデルの実行に関する設定です。
- Model 使用する AI モデルを選択できます。
- Token Count モデルに入力するテキストの長さです。トークンとは、単語や句読点などの言語の最小単位のことです。
- Temperature モデルの出力がどれだけランダムになるかを制御するパラメータです。温度が高いほど、出力はよりランダムになります。
- Add stop sequence モデルの出力に特定の文字列が含まれた場合に、出力を停止させることができます。
- Safety settings モデルの出力を安全に保つための設定です。
- Advanced settings さらに詳細な設定を行うことができます。

その他

Save プロンプトや設定を保存します。
Share プロンプトを他のユーザーと共有します。
Get code プロンプトを実行するためのコードを取得します。
Reset 設定を初期状態に戻します。

入力欄と実行ボタン

Type something AI モデルに入力するテキストを入力します。
Run 入力したテキストで AI モデルを実行します。

Google AI Studio は、初心者から上級者まで、誰でも AI を簡単に利用できるツールです。上記の機能を活用して、AI を様々な用途で活用してみてください。

📒Google AI Studio 機能の重要項目

1，「Save」しながら使う

重要なのは、「自動保存」ではない点です。

出力履歴を保存する場合は、かならず右上の「Save」を押すようにしましょう。

保存された履歴は、「My library」から呼び出し、続きを実行することもできます　↓

2，「Safety settings」の活用

これはモデルの出力を安全に保つための設定ですので、良い子は真似しちゃいけませんが、一方で、そのレベルを下げることで出力意図を調整することが可能です。

通常はデフォルトの使用で良いですが・・・

ガツンとした厳しめの口調で、攻めのビジネスレポートを書かせる
著作権が切れた小説などを参考にしながらオリジナル小説を書かせる

など、一歩踏み込んだアウトプットを求める際は、「Safety settings」をすべてOFFで試してみてください。

■「Safety settings」について、Geminiの解説　↓

Google AI Studio の「実行時の安全設定」画面です。ここでは、AI モデルが生成する出力内容の安全性を調整できます。

説明

調整可能な項目
- ハラスメント
- ヘイトスピーチ
- 性的に露骨な表現
- 危険なコンテンツ
調整方法 各項目には、スライダーが表示されています。スライダーを右に移動させると、該当するタイプのコンテンツをブロックする確率が高くなります。左に移動させると、ブロックする確率が低くなります。
現在の設定 スライダーの青い丸印が、現在の設定を示しています。
Block some 現在、各項目のデフォルト設定は「ブロックする確率をある程度高くする」になっています。
Reset defaults デフォルト設定に戻すボタンです。

目的

この設定は、AI モデルが生成する出力内容が、有害なコンテンツ、差別的な内容、不適切な内容などを含むのを防ぐためのものです。

具体的な例

ハラスメント: 誹謗中傷や脅迫など、人を傷つけたり、脅したりするようなコンテンツをブロックします。
ヘイトスピーチ: 特定の人種、民族、宗教、性別、性的指向、などを攻撃するような内容をブロックします。
性的に露骨な表現: 性的な内容を含む表現をブロックします。
危険なコンテンツ: 自己危害や犯罪などを助長するような内容をブロックします。

利用方法

この設定は、AI モデルを使用する前に調整することをお勧めします。AI モデルが生成する出力内容が、自分の意図と異なる場合や、安全性を懸念する場合は、この設定を変更してみてください。

重要この設定は、AI モデルが生成する出力内容を完全に安全にすることはできません。AI モデルは常に学習しており、新しいタイプの有害なコンテンツを生成する可能性もあります。安全設定はあくまでも、有害なコンテンツを生成するリスクを低減するための手段の一つです。

――ここまで――

ここまで設定が把握できれば、Geminiを自由自在に使えると思います。

次は具体的な事例をベースに紹介します。

💻1，Gemini 事例①｜動画を文字起こししてブログ記事化させる方法

これがなぜビジネスに”効く”のか？

それは、長時間のセミナー動画や会議など、動画や音声の情報をマルっとGeminiに投げて、文字起こし、その後にレポート形式、議事録形式、スピーチ形式など、多種多様に料理可能だからです。

試す事例は概要はポストの通り、Google I/Oの講演（冒頭20分）をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了です。

文字起こし（Flash）➔早さ
ブログ記事化の指示（Pro）➔性能の良さ
英語出力➔日本語翻訳（Flash）➔早さ

Gemini 1.5 ProとFlashのいいとこ取りで実行しました　↓

テツメモ｜AI図解×検証｜Newsletter

@tetumemo

📝ヤバいなこれ・・

Google I/Oの講演（冒頭20分）をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了

- 文字起こし（Flash）
- ブログ記事化の指示（Pro）
- 英語出力➔日本語翻訳（Flash）

完成！

ProとFlashを使い分けると、超時短でリッチな仕上がりに！

無料で使えるうちに使い倒します https://t.co/PRWtXEOZCr pic.twitter.com/MYeG2xK90W
— テツメモ｜AI図解×検証｜Newsletter (@tetumemo) May 19, 2024