概要
構造化作業を行うファイルをツール上にアップロードします。
アップロード可能なファイルの拡張子は以下の通りです。
- PDF(
.pdf) - Microsoft PowerPoint(
.pptx) - Microsoft Word(
.docx) - Microsoft Excel(
.xlsx) - Markdown(
.md) - テキスト(
.txt)
※1. Office 97-2003の形式(pptやdoc)は非対応です。
※2. pptx, docxのファイルをアップロードした場合、フォントが崩れる場合があります。
Markdown・テキストファイルの仕様
- 自動構造化では、元ファイルの内容がそのまま出力されます。すべてのチャンクは 1 ページ目として登録されます。
- チャンク編集画面では PDF ビューアは表示されず、チャンクの編集のみ行えます(Excel ファイルと同様の動作です)。
- 対応する文字エンコーディングは UTF-8、Shift-JIS、CP932 です。それ以外のエンコーディングの場合、自動構造化が失敗することがあります。文字化けが発生する場合は、ファイルを UTF-8 でエンコードし直して再アップロードしてください。
Excel ファイルの仕様
- 自動構造化では、元ファイルの各シート全体をMarkdown形式、表をHTML形式で出力します。
- シートに複数の表がある場合でも表ごとにHTML形式で構造化します。
- 現在、画像や図形などのオプジェクト、そしてセルの背景色や文字色の読み取りには対応していません。
- データ量が多い場合の制限と対処方法
データ量が以下の基準を超えると自動構造化エラーや出力形式が変更されるため、対象シートの内容を別のシートに分割し、データ量を減らして(各シートの総セル数※を10万以下にする等)からアップロードすることを推奨します。
- 総セル数が260万を超過: 処理上限を超えるため、エラーとなり構造化できません。
- 総セル数が10万を超過: CSVのように各セルの値がパイプ(
|)で区切られたテキストが出力されます。 - 総トークン数が15万を超過: シートに複数の表がある場合でも、シート全体を1つの表として構造化された結果が出力されます。 ※ 総セル数 = セルに値がある最終行までの行数 × 最終列までの列数
ファイルアップロードは「RAG プレイグラウンド」画面からも実行可能です。
その場合、アップロードしたファイルは、本手順でアップロードした場合と同様に、自動構造化と RAG の連携処理が実行されます。
ツールにアップロードされたファイルは、前処理として、LLMを利用した自動構造化が実行されます。
機密情報や海外リージョンに送信不可能なファイルは、アップロードしないでください。
また自動構造化により作成されたチャンクは、LLM により生成された不確実なチャンクです。そのままチャンクを採用するのではなく、目視による確認の上ご利用ください。
ファイルのアップロード
プロジェクト新規作成後、「アップロード」ボタンよりファイルをアップロードします。

モーダルが表示されため、ファイルをドラッグアンドドロップするか、ファイルを選択してください。

アップロードできるファイルの制限は以下の通りです。
- ストレージ利用量の上限を超えていないこと
- 1 ファイル 100MB 以下であること
- プロジェクト全体のファイルのページ数の合計が 3000 ページであること
- 1PDF に含まれるファイルのページ数が 250 ページ以下であること
- ファイル名が拡張子含め120byte以下であること
- 同一プロジェクト内で同一ファイル名が存在しないこと
アップロードに失敗したファイルがある場合、メールまたはシステム通知機能 で通知されます。
メールが届かない場合はこちらから、「ファイルアップロード失敗通知」がオンになっていることを確認してください。
アップロードの際のトラブルシューティングについてはファイルアップロードも参照してください。
ファイルをモーダルエリアにアップロードしたら、「ファイルに個人情報が含まれていないこと」の確認にチェックを入れ「アップロード」ボタンをクリックします。

完了後ローディング処理が開始されるので、全ての処理が完了するまでお待ちください。

アップロードしたファイルは「未作業」状態として登録されます。ファイルとページのステータスに関しては、以下を参照ください。
アップロード後の前処理
アップロードでは以下の 3 段階の前処理が実行されます。
| 処理名 | 処理内容 |
|---|---|
| ファイルのアップロード | ファイルをツールにアップロードします。 |
| 自動構造化 | アップロードしたファイルを解析し、自動で構造化作業を行います。 |
| RAG の連携 | 自動構造化したチャンクを RAG に連携します。 |
アップロード処理が完了したファイルやページに「RAG 連携済み」のバッジが表示されます。

全ての処理が完了後、「RAG プライグラウンド」「精度評価」をお試しください。
ファイルのチャンク分割の仕様
自動構造化処理では、トークン数が 7000 を超える場合、チャンクが自動で分割されます。そのためページによっては 1 ページあたり 2 つ以上の チャンクが作成されることがあります。
チャンクの分割は、先頭からトークン数を数えトークン数が 7000 を超えた時、その 1 つ前の行でチャンクが分割されます。
例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、7000 トークン目の行でチャンクが分割されます。
~~~省略~~~
6999トークン
7000トークン
7001トークン
~~~省略~~~
上記の場合は「6999 トークン」の行で分割され、以下の 2 つのチャンクが生成されます。
~~~省略~~~
6999トークン
7000トークン
~~~省略~~~
Excelファイルのチャンク分割について
チャンクの分割は、HTML形式で構造化された表でトークン数が 7000 を超えた時、見出しのシート名/表名、そして表のヘッダー情報を2つ目以降のチャンクに引き継ぐ形で分割されます。
例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、
# {シート名}
社員一覧表を下記に示します。
## {表名}:
<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
--- 以降、7000トークンを超過 ---
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>
次のように見出しのシート名/表名、表のヘッダー情報を引き継ぐ形でチャンクが分割されます。
1つ目のチャンク:
# {シート名}
社員一覧表を下記に示します。
## {表名}:
<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
</table>
2つ目のチャンク:
# {シート名}
## {表名}:
<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>
ただし、自動構造化が 7000 トークンを超えたうえで、以下のケースに該当する場合は上記の「ファイルのチャンク分割の仕様」が適用されます。
- 下記の構造化パターン
- HTML形式の表が存在しない
- HTML表に行(
<tr>)、ヘッダー行(<th>)が存在しない - 各セルの値がパイプ(
|)で区切られたテキスト
- その他
- HTML表外のテキストのみで 7000 トークンを超過
- HTML表がこれ以上分割できない状態
各種処理が失敗した場合
自動構造化や RAG 連携は、ファイルの内容によっては失敗することがあります。その場合は以下の対応をお願いします。
自動構造化処理が失敗したとき
自動構造化処理が失敗しているページが含まれるファイルは、「自動構造化失敗」のバッジが付与されます。

「+」より、失敗したページを確認し「このページで自動構造化の実行」を行ってください。

自動構造化の再実行は、失敗していないページでも実行が可能です。
既にチャンクが存在するページで自動構造化の再実行を行う時、既存のチャンクが残ったまま新しいチャンクが作成されます。
何度実行しても自動構造化が失敗する場合、自動構造化が対応していないファイルの可能性があります。 以下の場合、自動構造化が失敗することがあります。
PDF ファイルの場合:
- PDF にパスワードでロックがかかっている
- 特殊なフォントを利用している
- コピーガードが施されている
Markdown・テキストファイルの場合:
- ファイルの文字エンコーディングが対応していない形式である(UTF-8 でエンコードし直して再アップロードしてください)
すべてのファイル共通:
- 1ページあたりのチャンク数が上限(200)を超える
RAG 連携が失敗したとき
RAG 連携が失敗たときは以下のバッジが付与されます

RAG 連携が失敗したページは、3 点リーダから「このページで RAG の更新」を選択し、手動で RAG にデータを反映させてください。
