
顧客ごとのカスタマイズ提案書を作るたびに、データ集計とグラフの読み解きだけで金曜の夜が潰れる。結局、肝心の「顧客への訴求ストーリー」を練る時間は、いつも20分そこそこしか残らない。このままでは、いつまで経っても自分の仕事の質も効率も上がらないと、焦燥感ばかりが募る。
OCRとRAGの限界
これまで、LLMに資料を読み込ませるなら、まずテキスト抽出(OCR)でしょ?というのが、一般的な常識だったし、私もそう信じていた。ところが、この通説が、実務においてはむしろ足を引っ張っていたと最近はっきり分かった。
特にPowerPoint形式のグラフ画像から数値を読み取ると、OCRでは誤認識率が30%を超えることもザラだ。RAGも同じで、テキスト化の段階でレイアウト崩れが起きると、文脈もへったくれもなくなる。中途半端なテキストデータは、ゴミを食わせるようなものだ。いくらプロンプトを工夫しても、一般的なビジネス論ばかりが出力され、自社の独自製品のスペックや実績数値を反映した具体的な提案書にならない。このアプローチでは、どうやっても限界がある。
画像で理解するLLMの衝撃
そんな絶望的な状況を打ち破る可能性を感じたのが、最新のマルチモーダルLLMの画像認識能力だ。私はすぐに Claude 3.5 Sonnet と GPT-4o を使って実験を始めた。資料をテキスト化するのではなく、いっそページ全体をスクリーンショット画像としてそのままLLMに食わせるという、かなり乱暴な方法だ。
結果は驚くべきものだった。解像度72dpiの低画質な円グラフであっても、構成比の数値を98%以上の精度で正確に識別できたのだ。誤認識率は2%未満。これまでのOCRの惨状から考えると、まさに革命的だ。
さらに驚いたのは、文字の羅列じゃなく、矢印で繋がれた業務フローの因果関係まで画像として認識し、自動で課題と対策の構造に変換する能力だ。これには正直、舌を巻いた。LLMは文字だけでなく、レイアウトや図解が持つ「画像としての文脈」まで理解し始めている。
5万円が45円に?
この技術を、架空のSIer『株式会社テックソリューションズ』で試算してみた。
結果は歴然だ。手作業で3時間かかっていた顧客提案書の骨子作成が、わずか15分に短縮できた。
費用面も衝撃的だ。以前は1案件あたり5万円も外注費を払っていた構成案作成が、LLMのAPI利用料なら1回あたり約45円(30セント)で同等以上の提案書構成が出力可能である。
| 項目 | 従来(手作業/外注) | 最新LLM活用 | 削減効果 |
| :----------- | :----------------- | :---------- | :----------- |
| 時間(骨子作成) | 3時間 | 15分 | 2時間45分削減 |
| 費用(1案件) | 50,000円 | 約45円 | 49,955円削減 |
大事なのはプロンプトだ。「自社の独自製品のスペックや実績数値」を反映した具体的な提案書に持っていくには、単なる「提案書作って」じゃダメだ。ターゲット顧客、製品の強み、過去の成功事例、競合との差別化ポイントを明確に指示する。そして、出力された骨子を人間が最終調整する。
余談だが、最近、自宅で使ってるNASの調子が悪くてね。この手の資料管理も、ローカルで完結させたいという欲求が募るばかりだ。セキュリティも考えたら、クラウド一辺倒じゃ危うい局面も出てくる。
まずは試してみるべきだ
結論。従来のテキスト抽出に固執するのはもうやめるべきだ。
過去の資料を「全ページ画像化(スクリーンショット化)」して、最新のマルチモーダルLLMに直接インプットするアプローチは、圧倒的なコストパフォーマンスと時間短縮効果をもたらす。
使える人:
* 過去の提案書資産を活用したい営業担当者や企画職。
* 資料作成に時間とコストをかけたくない経営者。
* データ集計やグラフの読み解きに時間を奪われている全ての人。
使えない人:
* 極端に低品質な画像しか持っていない人。
* AIに完璧なアウトプットを期待し、人間の手で最終調整するつもりがない人。
まずは手元にある過去の提案書PDFを、1ページずつスクリーンショットして、Claude 3.5 SonnetやGPT-4oのAPIに食わせてみることだ。Claude 3.5 Sonnetは月額約20ドルから(チームプラン)、GPT-4oはAPI利用で従量課金なので、まずは無料枠や少額から試せる。このアプローチで、私の『AI実装型アドバイザリー』のパッケージングも一気に加速するだろう。