メインコンテンツまでスキップ

概要

構造化作業を行うファイルをツール上にアップロードします。

備考

アップロード可能なファイルの拡張子は以下の通りです。

  • PDF(.pdf)
  • Microsoft PowerPoint(.pptx)
  • Microsoft Word(.docx)
  • Microsoft Excel(.xlsx)
  • Markdown(.md)
  • テキスト(.txt)

※1. Office 97-2003の形式(pptやdoc)は非対応です。
※2. pptx, docxのファイルをアップロードした場合、フォントが崩れる場合があります。

注記

Markdown・テキストファイルの仕様

  • 自動構造化では、元ファイルの内容がそのまま出力されます。すべてのチャンクは 1 ページ目として登録されます。
  • チャンク編集画面では PDF ビューアは表示されず、チャンクの編集のみ行えます(Excel ファイルと同様の動作です)。
  • 対応する文字エンコーディングは UTF-8、Shift-JIS、CP932 です。それ以外のエンコーディングの場合、自動構造化が失敗することがあります。文字化けが発生する場合は、ファイルを UTF-8 でエンコードし直して再アップロードしてください。
注記

Excel ファイルの仕様

  • 自動構造化では、元ファイルの各シート全体をMarkdown形式、表をHTML形式で出力します。
    • シートに複数の表がある場合でも表ごとにHTML形式で構造化します。
  • 現在、画像や図形などのオプジェクト、そしてセルの背景色や文字色の読み取りには対応していません。
  • データ量が多い場合の制限と対処方法 データ量が以下の基準を超えると自動構造化エラーや出力形式が変更されるため、対象シートの内容を別のシートに分割し、データ量を減らして(各シートの総セル数※を10万以下にする等)からアップロードすることを推奨します。
    • 総セル数が260万を超過: 処理上限を超えるため、エラーとなり構造化できません。
    • 総セル数が10万を超過: CSVのように各セルの値がパイプ(|)で区切られたテキストが出力されます。
    • 総トークン数が15万を超過: シートに複数の表がある場合でも、シート全体を1つの表として構造化された結果が出力されます。 ※ 総セル数 = セルに値がある最終行までの行数 × 最終列までの列数

ファイルアップロードは「RAG プレイグラウンド」画面からも実行可能です。
その場合、アップロードしたファイルは、本手順でアップロードした場合と同様に、自動構造化と RAG の連携処理が実行されます。

注意

ツールにアップロードされたファイルは、前処理として、LLMを利用した自動構造化が実行されます。

機密情報や海外リージョンに送信不可能なファイルは、アップロードしないでください。

また自動構造化により作成されたチャンクは、LLM により生成された不確実なチャンクです。そのままチャンクを採用するのではなく、目視による確認の上ご利用ください。

ファイルのアップロード

プロジェクト新規作成後、「アップロード」ボタンよりファイルをアップロードします。

img alt

モーダルが表示されため、ファイルをドラッグアンドドロップするか、ファイルを選択してください。

img alt

注意

アップロードできるファイルの制限は以下の通りです。

  • ストレージ利用量の上限を超えていないこと
  • 1 ファイル 100MB 以下であること
  • プロジェクト全体のファイルのページ数の合計が 3000 ページであること
  • 1PDF に含まれるファイルのページ数が 250 ページ以下であること
  • ファイル名が拡張子含め120byte以下であること
  • 同一プロジェクト内で同一ファイル名が存在しないこと

アップロードに失敗したファイルがある場合、メールまたはシステム通知機能 で通知されます。
メールが届かない場合はこちらから、「ファイルアップロード失敗通知」がオンになっていることを確認してください。

アップロードの際のトラブルシューティングについてはファイルアップロードも参照してください。

ファイルをモーダルエリアにアップロードしたら、「ファイルに個人情報が含まれていないこと」の確認にチェックを入れ「アップロード」ボタンをクリックします。

img alt

完了後ローディング処理が開始されるので、全ての処理が完了するまでお待ちください。

img alt

備考

アップロードしたファイルは「未作業」状態として登録されます。ファイルとページのステータスに関しては、以下を参照ください。

アップロード後の前処理

アップロードでは以下の 3 段階の前処理が実行されます。

処理名処理内容
ファイルのアップロードファイルをツールにアップロードします。
自動構造化アップロードしたファイルを解析し、自動で構造化作業を行います。
RAG の連携自動構造化したチャンクを RAG に連携します。

アップロード処理が完了したファイルやページに「RAG 連携済み」のバッジが表示されます。

img alt

全ての処理が完了後、「RAG プライグラウンド」「精度評価」をお試しください。

注記

ファイルのチャンク分割の仕様

自動構造化処理では、トークン数が 7000 を超える場合、チャンクが自動で分割されます。そのためページによっては 1 ページあたり 2 つ以上の チャンクが作成されることがあります。

チャンクの分割は、先頭からトークン数を数えトークン数が 7000 を超えた時、その 1 つ前の行でチャンクが分割されます。

例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、7000 トークン目の行でチャンクが分割されます。

~~~省略~~~
6999トークン
7000トークン
7001トークン
~~~省略~~~

上記の場合は「6999 トークン」の行で分割され、以下の 2 つのチャンクが生成されます。

~~~省略~~~
6999トークン
7000トークン
~~~省略~~~
注記

Excelファイルのチャンク分割について

チャンクの分割は、HTML形式で構造化された表でトークン数が 7000 を超えた時、見出しのシート名/表名、そして表のヘッダー情報を2つ目以降のチャンクに引き継ぐ形で分割されます。

例えば、自動構造化により以下のような 7000 トークンを超えるチャンクが作成された場合、

# {シート名}

社員一覧表を下記に示します。

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
--- 以降、7000トークンを超過 ---
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>

次のように見出しのシート名/表名、表のヘッダー情報を引き継ぐ形でチャンクが分割されます。

1つ目のチャンク:

# {シート名}

社員一覧表を下記に示します。

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>001</td>
<td>田中 太郎</td>
</tr>
...
</table>

2つ目のチャンク:

# {シート名}

## {表名}:

<table>
<tr>
<th>ID</th>
<th>氏名</th>
</tr>
<tr>
<td>051</td>
<td>田中 太郎</td>
</tr>
...
</table>

ただし、自動構造化が 7000 トークンを超えたうえで、以下のケースに該当する場合は上記の「ファイルのチャンク分割の仕様」が適用されます。

  • 下記の構造化パターン
    • HTML形式の表が存在しない
    • HTML表に行(<tr>)、ヘッダー行(<th>)が存在しない
    • 各セルの値がパイプ(|)で区切られたテキスト
  • その他
    • HTML表外のテキストのみで 7000 トークンを超過
    • HTML表がこれ以上分割できない状態

各種処理が失敗した場合

自動構造化や RAG 連携は、ファイルの内容によっては失敗することがあります。その場合は以下の対応をお願いします。

自動構造化処理が失敗したとき

自動構造化処理が失敗しているページが含まれるファイルは、「自動構造化失敗」のバッジが付与されます。

img alt

「+」より、失敗したページを確認し「このページで自動構造化の実行」を行ってください。

img alt

備考

自動構造化の再実行は、失敗していないページでも実行が可能です。

既にチャンクが存在するページで自動構造化の再実行を行う時、既存のチャンクが残ったまま新しいチャンクが作成されます。

注意

何度実行しても自動構造化が失敗する場合、自動構造化が対応していないファイルの可能性があります。 以下の場合、自動構造化が失敗することがあります。

PDF ファイルの場合:

  • PDF にパスワードでロックがかかっている
  • 特殊なフォントを利用している
  • コピーガードが施されている

Markdown・テキストファイルの場合:

  • ファイルの文字エンコーディングが対応していない形式である(UTF-8 でエンコードし直して再アップロードしてください)

すべてのファイル共通:

  • 1ページあたりのチャンク数が上限(200)を超える

RAG 連携が失敗したとき

RAG 連携が失敗たときは以下のバッジが付与されます

img alt

RAG 連携が失敗したページは、3 点リーダから「このページで RAG の更新」を選択し、手動で RAG にデータを反映させてください。

img alt