概要
[ファイル一覧]で編集対象を選択し、チャンクを編集して申請する迄の手順を記載します。
チャンクの改善方法に悩んだ場合は、以下のページを参照ください。
編集対象を選択
ファイル名を選択する方法とページ単位で選択する方法を記載します。
ファイル名:編集画面で 1 ページ目のチャンクを選択し、編集対象とします。
ページ単位:編集画面で該当ページのチャンクを選択し、編集対象とします。
チャンクを編集後は以下の手順に従って RAG の情報を更新してください
ファイル名を選択
編集したいファイルの[ファイル ID]を選択します。
ページ単位の選択
- ファイル毎に+のアイコンがあるため、クリックして展開します。
- 展開されたリストから編集したい[ページ番号]をクリックします。
チャンク編集画面の操作説明
ページ送り
編集対象のページを[<]、[>]、[直接入力]で変更できます。
チャンクを追加
チャンクを追加する方法が 2 種類あります。
作成したチャンクは、作成した順番にチャンク ID が振られます。
チャンクは${PDFファイル名}${ページ番号}${ページ内のチャンク番号}の命名規則で登録されます。
例: test.pdf
の2ページ目の3つ目のチャンク名 -> test_00002_03
1 ページの最大チャンク数は 10 個です。
10 個になると[チャンクを追加]ボタンが消え、チャンクのページ移動(※1)もできません。
※1)1 ページ目に 10 チャンクある状態で 2 ページ目のチャンクを 1 ページ目に移動する場合、移動先に 10 チャンクあるので移動できません
- [+チャンクを追加]をクリックする方法
- [右クリック]で追加する方法
チャンクを編集
- 画面右のタブから、編集したい[チャンク]をクリックします。その後、クリックしたチャンクの内容が、テキストエリアに表示されます。
PDF の文字が見づらい場合は、以下の方法で拡大・縮小ができます。
- ctrl キーを押しながら マウスホイール
- トラックパッド上でピンチイン・アウト
- テキストエリアの内容を修正し「save」アイコンをクリックします。
クロスサイトスクリプティング対策として不正なスクリプトの無害化処理を実施しています。
そのため、記号文字「<」、「>」などは通常の文字コードとして表示されます。
エディタ右上の目のアイコン(プレビューモード)をクリックすることで、入力内容は確認可能です。
編集モードの切り替え
エディタ上部のボタンから、「マークダウン」「リッチテキスト」の2種類のモードを切り替えることができます。
- マークダウンモード
- マークダウン形式でチャンクを表示・編集します。
- エディタ上部の目のアイコンからプレビュー表示が可能です。
- リッチテキストモード
- リッチテキスト形式でチャンクを表示・編集します。
- マークダウンのプレビューをそのまま編集するような感覚で操作できます。
マークダウンモードで文頭にインデントを挿入した後、リッチエディタモードに切り替えると
下記のような条件下で、該当の行がテキストのコードブロックのように表示されてしまう場合があります。
表示上このようになるだけで、実際のデータはマークダウンモードで表示されているものがダウンロードできます。
- リスト(- や* で表記するもの)のうち、一番上の階層の要素
- 見出し(マークダウン上、# などで表記するもの)の要素
- 直前の行との間に1行以上の空白行が含まれる場合
リッチエディタモード/マークダウンモードで追加した・あるいはチャンクに元々含まれるTab要素が、リッチエディタモードでのみ 無い(≒スペースが空いていない)ように表示されますが、
ドキュメントのデータ上はTab要素が保持されており、エディタのモード切り替えによって削除されることはありません。
編集画面上部のボタン
編集画面のエディタの上部のボタンを解説します。
メタデータ付与ボタン
メタデータを付与できます。
メタデータは次のような形式でチャンク上部に挿入されます。
すでにメタデータが付与されている状態の場合、ボタンは非活性になります。
---
- keywords: []
---
- 上記のフォーマット以外のメタデータには対応しておりません
- マークダウンモードでのみ表示されます
プレビュー表示/非表示ボタン
プレビュー表示/非表示を切り替えることができます。
プレビューを表示すると、マークダウンが可視化されます。
マークダウンモードでのみ表示されます。
エディタの拡大/縮小ボタン
エディタ部分の拡大/縮小を切り替えることができます。
拡大すると、PDFやチャンクの一覧が隠れて、エディタを広く使うことができます。
チャンクを削除
削除したいチャンクを選択して[右クリック]し、[削除]をクリック
削除機能を使用した場合、残ったチャンク群のIDは新規で採番されます。
すべてのチャンクを表示
今までの一連の流れを[ページ単位]ではなく[すべてのページ]を表示して作業することもできます。
- [すべてのページ]モードにすると時は、下記をクリック
- [ページ単位]に戻すときは下記をクリック
コメント
- コメントを記載する時は下記をクリック
- 手順は以下の URL をご確認ください。
PDF の選択範囲をチャンクに挿入
PDF の文字列をドラッグ > 右クリック > 「選択範囲をエディタに反映」より、選択範囲をそのままテキストエディタに挿入することができます。
選択した範囲のトークン数は[Selected Tokens]に反映されます。
トークン数の確認
作成したチャンクのトークン数を画面上で確認することが可能です。画面赤枠の箇所に、テキストエディタに入力されている文字のトークン数をカウントすることができます。
Q. トークン数が見えると何がいいの?
A. LLM に入力できる文書量は、トークンという単位で上限が決められています。チャンクを LLM の入力可能なトークン数以下で作成することで、LLM 利用の際の以下の問題を回避することができます。
- 意図しない場所で文章が途切れてしまい LLM が正しく文章を理解できない
- 大量のトークンを入力してしまい想定外に料金がかかってしまう
申請
[申請]状態にすることで、作業を確定し、他のユーザに作業内容の確認依頼を出すことができます。
申請の詳細については、こちらをご参照ください。
ファイルとページのステータスに関しては、以下のページを参照ください。
ページ単位
ページ単位で申請します。
申請後、ページに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます
すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
申請後、ファイルに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます
検品
[検品 OK]にすることで、他のユーザの作業内容を承認することができます。
[差戻し]にすることで、他のユーザに作業内容を否認することができます。
検品の詳細については、こちらをご参照ください。
ページ単位
ページ単位で[検品 OK]にする方法
ページ単位で[差戻し]する方法
すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
チャンク編集画面での精度検証
チャンク編集画面で、精度検証の実行、QAの新規登録・編集・自動生成などを行うことが可能です。
詳細はこちらをご覧ください。