← ニュースAll
リコー、企業文書向けLMMを開発
要約
リコーはQwen2.5‑VL‑32B‑Instructを基盤に、日本企業の図表を含む文書の読解に特化した大規模マルチモーダルモデルを開発したと発表しました。約60万枚の視覚データでチューニングし、JDocQAで他モデルより優れた性能を示したとされています。今後はオンプレ向けスターターキットで提供される予定です。
本文
リコーは1月8日、アリババクラウドの「Qwen2.5‑VL‑32B‑Instruct」をベースに、日本企業の図表を含むドキュメントの読み取りに対応する大規模マルチモーダルモデル(LMM)を開発したと発表しました。LMMはテキストだけでなく画像や音声、動画など複数種類のデータを同時に処理する技術であり、スクリーンショットからの要約や図を用いた質問応答などが想定されます。企業内文書には請求書や経営資料、技術マニュアルなど多様な形式が含まれ、図表や表組の精緻な認識が課題になっていました。こうした背景を受け、リコーはビジネス文書向けの読解精度向上を目指してモデル開発を進めたとしています。
開発の要点:
・ベースモデルにアリババクラウドのQwen2.5‑VL‑32B‑Instructを採用したこと。
・ビジネス文書で使われる文字や円グラフ、棒グラフ、フローチャートなど約60万枚の視覚データを自社でチューニングデータとして利用したこと。
・視覚情報とテキスト情報を組み合わせる日本語の質問応答データセット「JDocQA」などで検証し、他モデルと比較して優れた性能を示したと報告していること(検証時点は2025年12月17日時点)。
・モデルは「RICOH オンプレLLMスターターキット」に搭載し、リコージャパンから提供される予定であること。
まとめ:
企業内に蓄積された図表を含む文書の利活用を支援する技術的な取り組みとして位置づけられます。現時点では提供開始時期の詳細は明記されておらず、今後のリコーからの案内が予定されています。
