メインコンテンツまでスキップ

概要

構造化作業を行うファイルをツール上にアップロードします。

備考

アップロード可能なファイルは現在以下の通りです。他のフォーマットに関しては今後追加予定です。

  • PDF

ファイルアップロードは「RAG プレイグラウンド」画面からも実行可能です。
その場合、アップロードしたファイルは、本手順でアップロードした場合と同様に、自動構造化と RAG の連携処理が実行されます。

注意

ツールにアップロードされたファイルは、前処理として、US リージョンの GPT4o を利用した自動構造化が実行されます。

機密情報や海外リージョンに送信不可能なファイルは、アップロードしないでください。

また自動構造化により作成されたチャンクは、LLM により生成された不確実なチャンクです。そのままチャンクを採用するのではなく、目視による確認の上ご利用ください。

ファイルのアップロード

プロジェクト新規作成後、「アップロード」ボタンよりファイルをアップロードします。

img alt

モーダルが表示されため、ファイルをドラッグアンドドロップするか、ファイルを選択してください。

img alt

注意

アップロードできるファイルの上限は以下の通りです。上限を超えたファイルはアップロードされません。

  • 1 ファイル 10MB 以下
  • ストレージ利用料の上限を超えていないこと
  • プロジェクト全体のファイルのページ数の合計が 3000 ページであること
  • 1PDF に含まれるファイルのページ数が 250 ページ以下であること

アップロードに失敗したファイルがある場合、メールで通知されます。
メールが届かない場合はこちらから、「ファイルアップロード失敗通知」がオンになっていることを確認してください。

ファイルをモーダルエリアにアップロードしたら、「ファイルに個人情報が含まれていないこと」の確認にチェックを入れ「アップロード」ボタンをクリックします。

img alt

完了後ローディング処理が開始されるので、全ての処理が完了するまでお待ちください。

img alt

備考

アップロードしたファイルは「未作業」状態として登録されます。ファイルとページのステータスに関しては、以下を参照ください。

アップロード後の前処理

アップロードでは以下の 3 段階の前処理が実行されます。

処理名処理内容
ファイルのアップロードファイルをツールにアップロードします。
自動構造化アップロードしたファイルを解析し、自動で構造化作業を行います。
RAG の連携自動構造化したチャンクを RAG に連携します。

アップロード処理が完了したファイルやページに「RAG 連携済み」のバッジが表示されます。

img alt

全ての処理が完了後、「RAG プライグラウンド」「精度評価」をお試しください。

注記

自動構造化処理では、チャンク数が 8192 を超える場合、チャンクが自動で分割されます。そのためページによっては 1 ページあたり 2 つ以上の チャンクが作成されることがあります。

チャンクの分割は、先頭からチャンク数を数えチャンク数が 8192 を超えた時、その 1 つ前の行でチャンクが分割されます。

例えば、自動構造化により以下のような 8192 トークンを超えるチャンクが作成された場合、8192 トークン目の行でチャンクが分割されます。

~~~省略~~~
8191トークン
8192トークン
8193トークン
~~~省略~~~

上記の場合は「8191 トークン」の行で分割され、以下の 2 つのチャンクが生成されます。

~~~省略~~~
8191トークン
8192トークン
~~~省略~~~

各種処理が失敗した場合

自動構造化や RAG 連携は、ファイルの内容によっては失敗することがあります。その場合は以下の対応をお願いします。

自動構造化処理が失敗したとき

自動構造化処理が失敗しているページが含まれるファイルは、「自動構造化失敗」のバッジが付与されます。

img alt

「+」より、失敗したページを確認し「このページで自動構造化の実行」を行ってください。

img alt

備考

自動構造化の再実行は、失敗していないページでも実行が可能です。

既にチャンクが存在するページで自動構造化の再実行を行う時、既存のチャンクが残ったまま新しいチャンクが作成されます。

注意

何度実行しても自動構造化が失敗する場合、自動構造化が対応していない PDF の可能性があります。 以下の場合、自動構造化が失敗することがあります。

  • PDF にパスワードでロックがかかっている
  • 特殊なフォントを利用している
  • コピーガードが施されている

RAG 連携が失敗したとき

RAG 連携が失敗たときは以下のバッジが付与されます

img alt

RAG 連携が失敗したページは、3 点リーダから「このページで RAG の更新」を選択し、手動で RAG にデータを反映させてください。

img alt