資料作成を自動化したい。最新LLMのマルチモーダルで検証を始めてみた

OBSERVATION

2026-07-04

金曜の夜22時、オフィスには私一人。窓の外はもう真っ暗で、街の明かりがぼんやりと見える。営業活動が終わった後、ここからが本番だ。毎週この時間になると、溜まったExcelの数字をPowerPointに打ち込み、グラフを作り直す作業が待っている。2時間なんてあっという間に過ぎて、気がつけば日付が変わっていることもしばしば。週末のプライベートな時間が、この作業のせいでごっそり削られているのが本当に不条理に感じる。

上司からは「もっと視覚的に分かりやすく」と要求されるものの、具体的にどう直せばいいのか、正直言ってピンとこない。結局、パワポのオブジェクトをあっちに動かし、こっちに動かし、色の調整をして…と、配置の調整だけであっという間に時間が溶けていく。ひどい時は、この調整だけで1日が終わってしまうこともある。本当に、何のためにこんな作業をしているんだろう、と虚しくなる。

そういえば、この前、久々に昔の同僚と飲んだんだ。AIの話で盛り上がったんだけど、やっぱり現場の人間は「使えるか使えないか」しか興味ないんだなって改めて思ったね。私自身、最近は『AI実装型アドバイザリー』への完全移行を目指して色々と試行錯誤しているから、この資料作成の課題も自分の手で解決したいと強く思っている。

# 「AIはデザインが苦手」はもう古い

これまで「AIに資料を作らせるとデザインが崩れる」なんて言われてきた。確かに、複雑なレイアウトやセンスが問われるデザインをAIに丸投げするのは無理があった。でも、その認識はもう賞味期限切れだ。

今のマルチモーダルLLMは、レイアウト指示よりも『1スライド1メッセージのテキスト要素』の抽出に特化させる方が、圧倒的に効率的で、結果的に美しい資料に繋がる。つまり、AIにデザインセンスを期待するのではなく、膨大な情報から必要なエッセンスを「超高精度に構造化されたテキスト」として抜き出させるのだ。

抽出されたテキストは、Microsoft Copilot for Microsoft 365のようなPowerPoint自動生成ツールに渡せばいい。Copilotは、テキスト情報に基づいて最適なテンプレートやレイアウトを提案してくれる。人間がやるべきは、AIが抽出した情報の最終確認と、Copilotが提案したデザインの微調整だけ。これで、資料作成のコアである「情報整理」の重労働から解放される。

# 3大マルチモーダルLLMの検証結果

実際に、最新のマルチモーダルLLMをいくつか試してみた。目的は、手作業でやっていた資料作成業務をどこまで効率化できるかだ。

## 1. GPT-4o (OpenAI)

得意領域: 画像解析とテキスト生成の高速性。
検証結果: 売上推移のExcelスクリーンショットを入力したところ、わずか45秒で社内稟議用のパワーポイント構成案（10スライド分）を自動生成できた。これは驚異的なスピードだ。グラフの数値や傾向もしっかり読み取っていた。
料金: ChatGPT Plusで月額20ドル。API利用は従量課金。
使える人: 短時間で画像データからテキスト情報や構成案をざっくり作りたい人。
使えない人: 厳密なデザイン指示や、複雑なグラフの微調整までAIに任せたい人。

## 2. Claude 3.5 Sonnet (Anthropic)

得意領域: 長文PDFからの情報抽出、構造化。
検証結果: 競合企業である株式会社テックアドバンスのIR資料（PDF、計48ページ）を読み込ませてみた。結果、自社との機能比較表が3分で完成。これにより、リサーチ時間を80%も削減できた。他社の決算説明会資料や業界レポート（100ページ超）を読んで、自社に役立つデータを抜粋する時間が物理的に足りなくて放置していた問題が、これで解決できそうだ。
料金: Claude Proで月額20ドル。API利用は従量課金。
使える人: 膨大なテキスト資料から特定の情報を効率的に抜き出し、構造化したい人。
使えない人: 画像内の細かい文字や、複雑な図解の解釈を求める人。

## 3. Gemini 1.5 Pro (Google)

得意領域: 大容量動画の文脈窓、マルチモーダル処理。
検証結果: 100万トークンの文脈窓を活用し、過去2年分の自社ウェビナー動画（120分×12本）をまとめて分析させてみた。顧客の関心が高いスライド構成やキーワードを1回で抽出できたのは圧巻だった。動画内の発言内容だけでなく、表示されていたスライドの内容まで考慮して分析している。
料金: API利用は従量課金。無料枠あり。
使える人: 長尺の動画コンテンツから、特定の情報やトレンドを効率的に抽出したい人。
使えない人: 動画内の人物の感情分析や、特定の個人にフォーカスした詳細な分析を求める人。

これらの結果を見て改めて感じたのは、それぞれのLLMに得意な領域があるということだ。適材適所で使い分けることで、資料作成のパイプラインは劇的に変わる。

# 解像度と認識率の現実

「で、結局、グラフとか手書きのメモはどこまで使えるんだ？」と疑問に思う人もいるだろう。これについても検証を進めている。

手書きのホワイトボード構成案（解像度1080p以上）を画像として学習させると、テキストデータ化の誤認識率は3%未満に抑えつつ、Markdown形式に変換できることが分かった。これは十分実用的なレベルだ。

また、2024年後半以降の最新LLMでは、文字情報だけでなく『複雑な円グラフのパーセンテージ』と『凡例の色』を正しく紐付け、矛盾のない図解解説文を95%以上の精度で出力できるようになってきている。これはもう、人間の目視チェックとほとんど変わらないレベルだ。

もちろん、完璧ではない。グラフの解像度が低すぎたり、手書き文字が判読不能なレベルだったりすれば、誤認識率は上がる。だからこそ、質の良いインプットデータを用意することと、AIの出力を鵜呑みにせず、必ず最終確認をするというプロセスが重要になる。

# まとめ

毎週金曜の夜に数時間かけていた資料作成の重労働は、もはや過去のものになりつつある。AIにデザインを任せるという幻想を捨て、マルチモーダルLLMを『超高精度な構造化テキスト抽出エンジン』として再定義する。そして、抽出されたテキストをMicrosoft Copilotのようなパワポ生成ツールと組み合わせる。この構造的なアプローチが、月30時間の余剰時間を作り出す鍵だ。

このパイプラインを構築できれば、あなたは金曜の夜にオフィスで一人、オブジェクトの配置調整に頭を抱えることはなくなるだろう。その時間で、新しい技術を学んだり、クライアントとの関係構築に時間を費やしたり、あるいは純粋に自分のプライベートを楽しんだりできる。私は今、この『AI実装型アドバイザリー』への完全移行に向けて、このパイプラインをテンプレート化し、クライアントへ提案可能な商材としてパッケージングする段階だ。

さあ、あなたも今すぐ、この新しい資料作成のパイプラインを試してみてほしい。まずは無料版のGPT-4oやClaude 3.5 Sonnetで、手元のExcelスクリーンショットやPDFを読み込ませて、テキスト抽出の精度を実感するところから始めるのがいいだろう。

主要カテゴリー

資料作成を自動化したい。最新LLMのマルチモーダルで検証を始めてみた

# 「AIはデザインが苦手」はもう古い

# 3大マルチモーダルLLMの検証結果

## 1. GPT-4o (OpenAI)

## 2. Claude 3.5 Sonnet (Anthropic)

## 3. Gemini 1.5 Pro (Google)

# 解像度と認識率の現実

# まとめ

🔗 関連記事

主要カテゴリー

資料作成を自動化したい。最新LLMのマルチモーダルで検証を始めてみた

# 「AIはデザインが苦手」はもう古い

# 3大マルチモーダルLLMの検証結果

## 1. GPT-4o (OpenAI)

## 2. Claude 3.5 Sonnet (Anthropic)

## 3. Gemini 1.5 Pro (Google)

# 解像度と認識率の現実

# まとめ

🔗 関連記事

Related Stories

LLMマルチモーダルで顧客資料自動生成を試してみた

Xトレンドの先、100年後の世界を覗く

共通テスト2026、ChatGPT最新モデルが9科目満点──LifePrompt検証、精度の先で浮かぶ“弱点の質”