メインコンテンツまでスキップ

概要

構造化作業を行うファイルをツール上にアップロードします。

備考

アップロード可能なファイルの拡張子は以下の通りです。

  • PDF(.pdf)
  • Microsoft PowerPoint(.pptx / .ppt)
  • Microsoft Word(.docx / .doc)
  • Microsoft Excel(.xlsx / .xls)
  • CSV(.csv)
  • Markdown(.md)
  • テキスト(.txt)

※1. pptx / docx / ppt / doc のファイルをアップロードした場合、フォントが崩れる場合があります。
※2. Office 97-2003 形式(.ppt / .doc / .xls)の場合、マクロを含むファイルは正しく構造化されない場合があります。

注記

Markdown・テキストファイルの仕様

  • 自動構造化では、元ファイルの内容がそのまま出力されます。すべてのチャンクは 1 ページ目として登録されます。
  • チャンク編集画面では PDF ビューアは表示されず、チャンクの編集のみ行えます(Excel ファイルと同様の動作です)。
  • 対応する文字エンコーディングは UTF-8、Shift-JIS、CP932 です。それ以外のエンコーディングの場合、自動構造化が失敗することがあります。文字化けが発生する場合は、ファイルを UTF-8 でエンコードし直して再アップロードしてください。
注記

CSVファイルの仕様

  • 自動構造化では、先頭行をヘッダーとした Markdown のテーブル形式に変換して出力されます。すべてのチャンクは 1 ページ目として登録されます。
  • チャンク編集画面では PDF ビューアは表示されず、チャンクの編集のみ行えます(Excel ファイルと同様の動作です)。
  • 対応する文字エンコーディングは UTF-8、Shift-JIS、CP932 です。それ以外のエンコーディングの場合、自動構造化が失敗することがあります。文字化けが発生する場合は、ファイルを UTF-8 でエンコードし直して再アップロードしてください。
注記

Excel ファイルの仕様

  • 自動構造化では、元ファイルの各シート全体をMarkdown形式、表をHTML形式で出力します。
    • シートに複数の表がある場合でも表ごとにHTML形式で構造化します。
  • 現在、画像や図形などのオプジェクト、そしてセルの背景色や文字色の読み取りには対応していません。
  • データ量が多い場合の制限と対処方法 データ量が以下の基準を超えると自動構造化エラーや出力形式が変更されるため、対象シートの内容を別のシートに分割し、データ量を減らして(各シートの総セル数※を10万以下にする等)からアップロードすることを推奨します。
    • 総セル数が260万を超過: 処理上限を超えるため、エラーとなり構造化できません。
    • 総セル数が10万を超過: CSVのように各セルの値がパイプ(|)で区切られたテキストが出力されます。
    • 総トークン数が15万を超過: シートに複数の表がある場合でも、シート全体を1つの表として構造化された結果が出力されます。 ※ 総セル数 = セルに値がある最終行までの行数 × 最終列までの列数

ファイルアップロードは「RAG プレイグラウンド」画面からも実行可能です。
その場合、アップロードしたファイルは、本手順でアップロードした場合と同様に、自動構造化と RAG の連携処理が実行されます。

注意

ツールにアップロードされたファイルは、前処理として、LLMを利用した自動構造化が実行されます。

機密情報や海外リージョンに送信不可能なファイルは、アップロードしないでください。

また自動構造化により作成されたチャンクは、LLM により生成された不確実なチャンクです。そのままチャンクを採用するのではなく、目視による確認の上ご利用ください。

ファイルのアップロード

プロジェクト新規作成後、「アップロード」ボタンよりファイルをアップロードします。

img alt

モーダルが表示されたら、ファイルをドラッグアンドドロップするか、ファイルを選択してください。

img alt

注意

アップロードできるファイルの制限は以下の通りです。

  • ストレージ利用量の上限を超えていないこと
  • 自動構造化ユニットの月次使用量が契約プランの上限を超えていないこと
  • 1 ファイル 100MB 以下であること
  • プロジェクト全体のファイルのページ数の合計が 10000 ページであること
  • 1PDF に含まれるファイルのページ数が 2000 ページ以下であること
  • ファイル名が拡張子含め120byte以下であること
  • 同一プロジェクト内で同一ファイル名が存在しないこと

アップロードに失敗したファイルがある場合、メールまたはシステム通知機能 で通知されます。
メールが届かない場合はこちらから、「ファイルアップロード失敗通知」がオンになっていることを確認してください。

アップロードの際のトラブルシューティングについてはファイルアップロードも参照してください。

ファイルをモーダルエリアにアップロードしたら、「アップロードしたファイルに個人情報が含まれていないことを確認しました。」にチェックを入れ「アップロード」ボタンをクリックします。

img alt

アップロードが開始されると、ファイル一覧の各ファイル行の「RAGへのデータ同期」列に円形の進捗率が表示され、自動構造化と RAGへのデータ同期の進捗をリアルタイムに確認できます。

img alt

備考

アップロードしたファイルは「未作業」状態として登録されます。ファイルとページのステータスに関しては、以下を参照ください。

アップロード後の前処理

アップロードでは以下の 3 段階の前処理が実行されます。

処理名処理内容
ファイルのアップロードファイルをツールにアップロードします。
自動構造化アップロードしたファイルを解析し、自動で構造化作業を行います。
RAGへのデータ同期自動構造化したチャンクのデータを RAG に同期します。

ファイル一覧での進捗確認

自動構造化・RAGへのデータ同期中は、ファイル一覧の各ファイル行の「RAGへのデータ同期」列に円形の進捗率が表示されます。そのファイルに含まれる全ページに対する完了済みページの割合を示します。

img alt

ファイル行の左側にある「>」ボタンでファイルを展開すると、ページ単位の状態を確認できます。ページごとに以下の状態が表示されます。

状態表示アイコン概要
処理中img alt自動構造化または RAGへのデータ同期が実行中のページ。ページにスピナーが表示される。
要更新img altRAGへのデータ同期完了後にチャンクが編集され、RAG への再同期が必要なページ。ページに青枠の「再同期」ボタンが表示される。
エラーimg alt自動構造化または RAGへのデータ同期が失敗したページ。ページに赤い「再同期」ボタンが表示される。
完了img alt自動構造化・RAGへのデータ同期がいずれも完了し、最新のチャンクが RAG に反映済みのページ。ページに✅が表示される。

全ページが完了したファイルには、ページごとの完了と同じ✅が表示されます

img alt

全ての処理が完了後、「RAG プライグラウンド」「精度評価」をお試しください。

注記

ファイルのチャンク分割の仕様

自動構造化処理では、トークン数が 7000 を超える場合、チャンクが自動で分割されます。そのためページによっては 1 ページあたり 2 つ以上の チャンクが作成されることがあります。

チャンクの分割は、先頭からトークン数を数えトークン数が 7000 を超えた時、その 1 つ前の行でチャンクが分割されます。

例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、7000 トークン目の行でチャンクが分割されます。

~~~省略~~~
6999トークン
7000トークン
7001トークン
~~~省略~~~

上記の場合は「6999 トークン」の行で分割され、以下の 2 つのチャンクが生成されます。

~~~省略~~~
6999トークン
7000トークン
~~~省略~~~
注記

Excelファイルのチャンク分割について

チャンクの分割は、HTML形式で構造化された表でトークン数が 7000 を超えた時、見出しのシート名/表名、そして表のヘッダー情報を2つ目以降のチャンクに引き継ぐ形で分割されます。

例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、

# {シート名}

社員一覧表を下記に示します。

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
--- 以降、7000トークンを超過 ---
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>

次のように見出しのシート名/表名、表のヘッダー情報を引き継ぐ形でチャンクが分割されます。

1つ目のチャンク:

# {シート名}

社員一覧表を下記に示します。

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
</table>

2つ目のチャンク:

# {シート名}

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>

ただし、自動構造化が 7000 トークンを超えたうえで、以下のケースに該当する場合は上記の「ファイルのチャンク分割の仕様」が適用されます。

  • 下記の構造化パターン
    • HTML形式の表が存在しない
    • HTML表に行(<tr>)、ヘッダー行(<th>)が存在しない
    • 各セルの値がパイプ(|)で区切られたテキスト
  • その他
    • HTML表外のテキストのみで 7000 トークンを超過
    • HTML表がこれ以上分割できない状態
注記

CSVファイルのチャンク分割について

CSVファイルは内部でMarkdownテーブル形式に変換されたうえでチャンク分割されます。トークン数が 7000 を超える場合は、CSVの 1 行目(ヘッダー行)と区切り行を 2 つ目以降のチャンクに引き継ぐ形で、行単位で分割されます。

例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、

| ID | 氏名 |
| --- | --- |
| 001 | 田中 太郎 |
| 002 | 山田 花子 |
...
--- 以降、7000トークンを超過 ---
| 051 | 鈴木 一郎 |
...

次のようにヘッダー行・区切り行を引き継ぐ形でチャンクが分割されます。

1つ目のチャンク:

| ID | 氏名 |
| --- | --- |
| 001 | 田中 太郎 |
| 002 | 山田 花子 |
...

2つ目のチャンク:

| ID | 氏名 |
| --- | --- |
| 051 | 鈴木 一郎 |
...

ただし、以下のケースに該当する場合は上記の「ファイルのチャンク分割の仕様」が適用されます。

  • ヘッダー行(カラム名)+区切り行+データ 1 行で 7000 トークンを超過する

各種処理が失敗した場合

自動構造化や RAG 連携は、ファイルの内容によっては失敗することがあります。その場合は以下の対応をお願いします。

自動構造化処理が失敗したとき

自動構造化処理が失敗しているページが含まれるファイルは、「自動構造化失敗」のバッジが付与されます。

img alt

「+」より、失敗したページを確認し「このページで自動構造化の実行」を行ってください。

img alt

備考

自動構造化の再実行は、失敗していないページでも実行が可能です。

既にチャンクが存在するページで自動構造化の再実行を行う時、既存のチャンクが残ったまま新しいチャンクが作成されます。

注意

何度実行しても自動構造化が失敗する場合、自動構造化が対応していないファイルの可能性があります。 以下の場合、自動構造化が失敗することがあります。

PDF ファイルの場合:

  • PDF にパスワードでロックがかかっている
  • 特殊なフォントを利用している
  • コピーガードが施されている

Markdown・テキスト・CSVファイルの場合:

  • ファイルの文字エンコーディングが対応していない形式である(UTF-8 でエンコードし直して再アップロードしてください)

すべてのファイル共通:

  • 1ページあたりのチャンク数が上限(200)を超える
  • 自動構造化ユニットの月次使用量が契約プランの上限に達している
備考

自動構造化ユニットの月次上限について

自動構造化の実行にはユニットを消費します。ご契約プランに応じて、1 か月あたりに利用できる自動構造化ユニット数に上限があります。

この上限はテナント単位で適用され、同じテナント内の全ユーザーの合算でカウントされます。

ファイル種別ごとの消費ユニット数:

ファイル種別消費ユニット数備考
PDF(.pdf1 ユニット/ページ
Microsoft PowerPoint(.pptx / .ppt1 ユニット/ページ
Microsoft Word(.docx / .doc1 ユニット/ページ
Microsoft Excel(.xlsx / .xls1 ユニット/シートシート単位で構造化されます
CSV(.csv1 ユニット/ファイル
Markdown(.md1 ユニット/ファイル
テキスト(.txt1 ユニット/ファイル
  • 上限に達した場合、その月は自動構造化を実行できません。ファイルをアップロードした際やページ単位の自動構造化の再実行時にエラーとなります。
  • 現在の使用量はリソース利用状況画面で確認できます。
  • 上限を増やしたい場合は、契約プランの変更について担当者にお問い合わせください。

RAG 連携が失敗したとき

RAG 連携が失敗たときは以下のバッジが付与されます

img alt

RAG 連携が失敗したページは、3 点リーダから「このページで RAG の更新」を選択し、手動で RAG にデータを反映させてください。

img alt