概要
構造化作業を行うファイルをツール上にアップロードします。
アップロード可能なファイルは現在以下の通りです。他のフォーマットに関しては今後追加予定です。
ファイルアップロードは「RAG プレイグラウンド」画面からも実行可能です。
その場合、アップロードしたファイルは、本手順でアップロードした場合と同様に、自動構造化と RAG の連携処理が実行されます。
ツールにアップロードされたファイルは、前処理として、US リージョンの GPT4o を利用した自動構造化が実行されます。
機密情報や海外リージョンに送信不可能なファイルは、アップロードしないでください。
また自動構造化により作成されたチャンクは、LLM により生成された不確実なチャンクです。そのままチャンクを採用するのではなく、目視による確認の上ご利用ください。
ファイルのアップロード
プロジェクト新規作成後、「アップロード」ボタンよりファイルをアップロードします。
モーダルが表示されため、ファイルをドラッグアンドドロップするか、ファイルを選択してください。
アップロードできるファイルの上限は以下の通りです。上限を超えたファイルはアップロードされません。
- 1 ファイル 10MB 以下
- ストレージ利用料の上限を超えていないこと
- プロジェクト全体のファイルのページ数の合計が 3000 ページであること
- 1PDF に含まれるファイルのページ数が 250 ページ以下であること
アップロードに失敗したファイルがある場合、メールで通知されます。
メールが届かない場合はこちらから、「ファイルアップロード失敗通知」がオンになっていることを確認してください。
ファイルをモーダルエリアにアップロードしたら、「ファイルに個人情報が含まれていないこと」の確認にチェックを入れ「アップロード」ボタンをクリックします。
完了後ローディング処理が開始されるので、全ての処理が完了するまでお待ちください。
アップロードしたファイルは「未作業」状態として登録されます。ファイルとページのステータスに関しては、以下を参照ください。
アップロード後の前処理
アップロードでは以下の 3 段階の前処理が実行されます。
処理名 | 処理内容 |
---|---|
ファイルのアップロード | ファイルをツールにアップロードします。 |
自動構造化 | アップロードしたファイルを解析し、自動で構造化作業を行います。 |
RAG の連携 | 自動構造化したチャンクを RAG に連携します。 |
アップロード処理が完了したファイルやページに「RAG 連携済み」のバッジが表示されます。
全ての処理が完了後、「RAG プライグラウンド」「精度評価」をお試しください。
自動構造化処理では、チャンク数が 8192 を超える場合、チャンクが自動で分割されます。そのためページによっては 1 ページあたり 2 つ以上の チャンクが作成されることがあります。
チャンクの分割は、先頭からチャンク数を数えチャンク数が 8192 を超えた時、その 1 つ前の行でチャンクが分割されます。
例えば、自動構造化により以下のような 8192 トークンを超えるチャンクが作成された場合、8192 トークン目の行でチャンクが分割されます。
~~~省略~~~
8191トークン
8192トークン
8193トークン
~~~省略~~~
上記の場合は「8191 トークン」の行で分割され、以下の 2 つのチャンクが生成されます。
~~~省略~~~
8191トークン
8192トークン
~~~省略~~~
各種処理が失敗した場合
自動構造化や RAG 連携は、ファイルの内容によっては失敗することがあります。その場合は以下の対応をお願いします。
自動構造化処理が失敗したとき
自動構造化処理が失敗しているページが含まれるファイルは、「自動構造化失敗」のバッジが付与されます。
「+」より、失敗したページを確認し「このページで自動構造化の実行」を行ってください。
自動構造化の再実行は、失敗していないページでも実行が可能です。
既にチャンクが存在するページで自動構造化の再実行を行う時、既存のチャンクが残ったまま新しいチャンクが作成されます。
何度実行しても自動構造化が失敗する場合、自動構造化が対応していない PDF の可能性があります。 以下の場合、自動構造化が失敗することがあります。
- PDF にパスワードでロックがかかっている
- 特殊なフォントを利用している
- コピーガードが施されている
RAG 連携が失敗したとき
RAG 連携が失敗たときは以下のバッジが付与されます
RAG 連携が失敗したページは、3 点リーダから「このページで RAG の更新」を選択し、手動で RAG にデータを反映させてください。