みなさん、こんにちは!
2024年5月12日の週は、AI業界にとって歴史的な1週間となりました。OpenAIからは新モデルGPT-4oが発表され、Google I/O 2024ではGemini 1.5 Proが性能アップ、超高速なGemini 1.5 Flashが登場しました。私は、これらの革新的な技術を一刻も早く体験したい一心で、夜を徹してキャッチアップと検証に励みました。
そして、度重なる検証は素晴らしい発見につながりました。新AIモデルの性能は想像を遥かに超えるものであり、まさに未来を感じさせてくれるものでした。特にGoogleの「Gemini 1.5 Pro&Flash」は、100万トークンという驚異的なパフォーマンスを誇り、現在は無料のプレビュー版も提供されています。
今回のニュースレターでは、この革新的な新AIの実力を皆さんに体験していただく絶好の機会をお届けします。
未来のAIがもたらす可能性と興奮を、ぜひ自分の手で触れてみてください。きっと、これまでにない感動と驚きに満ちた体験ができるはずです。
さあ、私と一緒に、AIの新時代の扉を開きましょう!
1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用:Gemini
加えて画像は1プロンプトあたり3,600枚までインプット可能です。
まずは性能やベンチマークなどを確認する前に、「Gemini 1.5を使うことでどんな「利点」があるのか?」、事例を参考に疑似体験していきましょう!
長編動画をマルっと投げて一気に文字起こし、英語も日本語も多言語大得意!
こちらは、英語の動画をGemini 1.5 Flashに投げ、文字起こしさせ、ブログ記事化と日本語翻訳を実行した事例です 👇️
📝ヤバいなこれ・・
![]()
テツメモ|AI図解×検証|Newsletter @tetumemo
Google I/Oの講演(冒頭20分)をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了
- 文字起こし(Flash)
- ブログ記事化の指示(Pro)
- 英語出力➔日本語翻訳(Flash)
完成!
ProとFlashを使い分けると、超時短でリッチな仕上がりに!
無料で使えるうちに使い倒します https://t.co/PRWtXEOZCr pic.twitter.com/MYeG2xK90W— テツメモ|AI図解×検証|Newsletter (@tetumemo) May 19, 2024
こちらの事例はチャプターリストも作成してくれます 👇️
いや…Gemini 1.5Proの「動画からの文章生成」、すごすぎるのでは?
![]()
エクセル兄さん(たてばやし淳 @excel_niisan
動画をアップロードして
①音声の文字起こし
②チャプターリストの作成
③ブログ原稿の執筆
ほぼ間違いが無く正確に、かなり上手な日本語で文章が書けている。… pic.twitter.com/4z5weO97Tg— エクセル兄さん(たてばやし淳)@AI時代のExcel術_書籍多数 (@excel_niisan) May 19, 2024
2つの決算資料をマージさせ、投資家向けのレポートを作る!
こちらは、2024年3月度のトヨタとTeslaの決算報告書をGemini 1.5 Flashに投げ、情報をマージさせて「どちらに投資したほうが良いのか?」という比較レポートを作らせた例です。
📝さとりさんの「コンテンツマージ」は新しいコンテンツ創造に最適!
![]()
テツメモ|AI図解×検証|Newsletter @tetumemo
試しに、トヨタとTeslaの決算書をマージさせ、一発で
「テスラ vs トヨタ:2024年第1四半期決算分析 - どちらに投資すべきか?」
というコンテンツを作成 ↓
GPT-4o、Claude3 Opus、Gemini 1.5… https://t.co/DQh3BvHsRqpic.twitter.com/EG9dewzGfK— テツメモ|AI図解×検証|Newsletter (@tetumemo) May 18, 2024
2つのコンテンツをマージさせ、まったく新しいコンテンツを生み出す!
こちらはさとりさんの事例ですが、「資料A」「資料B」を2つ組合せて、新しい「資料C」を生み出したり、2つの物語を組合せて新しいコンテンツを生み出しています。
新たなコンテンツを無限に生み出すコンテンツマージとは
![]()
さとり @satori_sz9
たとえば「D2Cのノウハウが書かれた資料A」と「教育理論について書かれた資料B」があったとして、AのノウハウをBで補強し、新たな「資料C」を作成する。
生成された資料Cは、骨組みとか下書きとかのレベルではなく「完成品」。…— さとり (@satori_sz9) May 17, 2024
コンテンツマージをして、さらにワンピースの掛け合わせ 👇️
コンテンツマージで生成したコンテンツに、さらにワンピースを掛け合わせたら最初からパンチラインが強すぎた
![]()
さとり @satori_sz9 pic.twitter.com/bOdyzAfoXV— さとり (@satori_sz9) May 18, 2024
私が考えるGemini 1.5 の醍醐味は以下3点です
今までChatGPTやClaude3 を使ったことがある方は気づいているかもしれませんが、チャットを続けていると、最初の内容を忘れてしまったりします。
5個前の会話、10個前の会話を引っ張り出したり、その点を考慮してアウトプットを続けるのは厳しいです。
一方でGeminiは違います。
実際にGeminiを毎日数時間使っていますが、私もさとりさんの見解に同意です。
しかしGeminiはコンテキストウィンドウのデータが増えても性能が劣化するどころか性能を維持したまま、さらに具体的なコンテンツの抽象化を行いつつそれをマージすることまでできます。
※引用:コンテンツマージがなぜ可能になったか
コンテンツマージがなぜ可能になったか
![]()
さとり @satori_sz9
昨日の投稿で書いたのですが、Claude 3 OpusでもGPT-4oでもコンテンツマージは機能しません。RAGでも使えません。
Gemini特有の現象です。
ではなぜGeminiはコンテンツマージができるのか?
それは「コンテキストウィンドウの実装の違い」です。…— さとり (@satori_sz9) May 18, 2024
100万トークン、200万トークンなんて使い切れない!
と思いがちですが、投げたデータを忘れることなく、具体化と抽象化を繰り返し、情報を引っ張ってきてコンテンツを作成することができる。
こんな動作ができるLLMが今までありませんでした。
それが、2024年5月20日現在、誰でも、無料で使える状態というのが”異常事態”だと思っています。
これはもう・・・、触ってみるしかないですよね?
次の章は「Geminiの性能は他のLLM比べてどうなの?」と気になる方向けにまとめました。
「もう、早くGemini使いたいから、使い方教えてくれ!」という方は、「Geminiの使い方」の章まで一気に飛んでください。
1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用:Gemini
テキスト、音声、動画、そして画像は1プロンプトあたり3,600枚までインプット可能です。
詳細は公式ドキュメントを参考に確認できます。
テキスト/画像/音声/数値など複数の種類のモダリティー(データ種別)を一度に処理できる統合されたAI
※マルチモーダルについて
最新版はテキストや視覚認識能力も向上しており、動画や音声の理解もより強力になっています。
OpenAIで5月14日に発表されたばかりの「GPT-4o」も早くて高性能ですが、Gemini 1.5 Proが見事に抑えて1位を獲得しました。
Gemini 1.5 Model Family: Technical Report updates now published
![]()
Jeff Dean @JeffDean
In the report we present the latest models of the Gemini family – Gemini 1.5 Pro and Gemini 1.5 Flash, two highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information…pic.twitter.com/jS3xeEloAi— Jeff Dean (@🏡) (@JeffDean) May 17, 2024
「Gemini 1.5 Flash」は2024年5月15日に開催された「Google I/O 2024」で発表されたGoogleの新しいAIモデルです。
今回、Gemini 1.5 Proも以前に比べてパワーアップしましたが、Gemini 1.5 FlashはProの軽量版として発表されました。
Gemini 1.5 FlashもProと同じインプットとアウトプットで利用可能です。
1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
引用:Gemini
各ポイントごと説明していきましょう。
同じ週に発表したGPT-4oの早さに驚かれた方も多いと思いますが、そのスピードを2倍以上も凌駕する早い結果を示しています。
Gemini 1.5 Flash has earned its name, it is very fast ⚡️
![]()
Artificial Analysis @ArtificialAnlys
Artificial Analysis has commenced benchmarking and relative to similar models in its quality band (Claude 3 Haiku, DBRX, Mixtral 8x7B), Flash is fast at ~160 tokens/s.
This could be driven by model architecture decisions…pic.twitter.com/xiCpQbOvV6— Artificial Analysis (@ArtificialAnlys) May 15, 2024
比較してわかるとおり、圧倒的にGemini 1.5 Flashが安いです。
■APIコスト計算ツールでチェック
※入力を10,000文字、出力を8,000文字→合計18,000文字
※1ドル155円レートで算出
つまり、API経由で使っても、膨大な資料を投げて、8,000文字のブログ記事を書かせても、2.45円ということです。
図を見る限り、早さは圧倒的、さらにClaude3 Sonnet並に性能が良いのに、コスパが良すぎる!
100万トークンという数値は驚異的で、動画を1時間、音声を約10時間など、マルっと投げれる点が他のAIと比べて一線を凌駕しています。
Gemini 1.5 Proで同じことはできましたが、Flashのスピードは出せませんでした。
さらにFlashは圧倒的にコストが安い!(現在はプレビュー版で無料)
例えば、今まで1時間のセミナー動画の文字起こしは動画を分割したり、音声のみ抜き出して投げる必要がありました。
しかし、100万トークンのGemini 1.5 Flashなら、動画をポイッと投げて、「文字起こしをお願い」と指示をして、数分待っていたらサクッと全文文字起こしが完了してしまいました。
この、AIに指示をする”前準備”が無くなるだけで、圧倒的に簡単に使えると思います。
Geminiはどれだけ簡単に使えるのか?
実際の事例を交えながら使い方を紹介します。
今はGemini 1.5 Pro&Flashが誰でも無料で使えます。
※PCでのみ動作可能です。(スマホ不可)
Googleアカウントがあれば、1分もせずにすぐに使えます。
■左下の「+」ボタンを押せば、ファイル、動画、音声などアップロード可能です ↓
Geminiは「Run」ボタンを実行しなければ動きませんので、入力したプロンプトを修正することが可能です。 ↓
Google AI Studio は、初心者から上級者まで、誰でも AI を簡単に利用できるツールです。上記の機能を活用して、AI を様々な用途で活用してみてください。
1,「Save」しながら使う
出力履歴を保存する場合は、かならず右上の「Save」を押すようにしましょう。
保存された履歴は、「My library」から呼び出し、続きを実行することもできます ↓
2,「Safety settings」の活用
これはモデルの出力を安全に保つための設定ですので、良い子は真似しちゃいけませんが、一方で、そのレベルを下げることで出力意図を調整することが可能です。
通常はデフォルトの使用で良いですが・・・
など、一歩踏み込んだアウトプットを求める際は、「Safety settings」をすべてOFFで試してみてください。
■「Safety settings」について、Geminiの解説 ↓
Google AI Studio の「実行時の安全設定」画面です。ここでは、AI モデルが生成する出力内容の安全性を調整できます。
説明
目的
この設定は、AI モデルが生成する出力内容が、有害なコンテンツ、差別的な内容、不適切な内容などを含むのを防ぐためのものです。
具体的な例
利用方法
この設定は、AI モデルを使用する前に調整することをお勧めします。AI モデルが生成する出力内容が、自分の意図と異なる場合や、安全性を懸念する場合は、この設定を変更してみてください。
重要 この設定は、AI モデルが生成する出力内容を完全に安全にすることはできません。AI モデルは常に学習しており、新しいタイプの有害なコンテンツを生成する可能性もあります。安全設定はあくまでも、有害なコンテンツを生成するリスクを低減するための手段の一つです。
――ここまで――
ここまで設定が把握できれば、Geminiを自由自在に使えると思います。
次は具体的な事例をベースに紹介します。
これがなぜビジネスに”効く”のか?
それは、長時間のセミナー動画や会議など、動画や音声の情報をマルっとGeminiに投げて、文字起こし、その後にレポート形式、議事録形式、スピーチ形式など、多種多様に料理可能だからです。
試す事例は概要はポストの通り、Google I/Oの講演(冒頭20分)をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了です。
Gemini 1.5 ProとFlashのいいとこ取りで実行しました ↓
📝ヤバいなこれ・・
![]()
テツメモ|AI図解×検証|Newsletter @tetumemo
Google I/Oの講演(冒頭20分)をGemini 1.5 に丸投げ➔文字起こしとブログ化”即”完了
- 文字起こし(Flash)
- ブログ記事化の指示(Pro)
- 英語出力➔日本語翻訳(Flash)
完成!
ProとFlashを使い分けると、超時短でリッチな仕上がりに!
無料で使えるうちに使い倒します https://t.co/PRWtXEOZCr pic.twitter.com/MYeG2xK90W— テツメモ|AI図解×検証|Newsletter (@tetumemo) May 19, 2024
それでは手順を紹介します。
私が大好きなSimon Sinekの動画をダウンロードして文字起こししてみましょう。軽めにチャレンジしたい方は、「音声」でのダウンロードをオススメします。
💡How great leaders inspire action
ここからは私のポストをベースに説明します。
プロンプトはシンプルに「動画の音声を文字起こししてください」でOKです ↓
元動画|Google I/O 2024 Keynote: Sundar Pichai opening remarks
プロンプトは「あなたはプロのライターです。内容をベースに、読者をワクワクさせるブログ記事を8,000文字以上で書いて」という追加指示をします ↓
プロンプトで「すべて日本語に翻訳して」と指示すれば完了です ↓
一連の情報をすべて掲載すると膨大な文量になってしまうため、アウトプット全文は以降で確認できます。
また、続きを読むことで、「Gemini 事例②|トヨタとTeslaの決算報告書を比較して投資家向けレポートへ仕上げる方法」や、結果をニュースレター(ブログ記事)として仕上げるプロンプトも紹介します 👇️
ここから先は有料コンテンツです |
|
この続き:1803文字 / 画像2枚 |