概要
[ファイル一覧]で編集対象を選択し、チャンクを編集して申請する迄の手順を記載します。
チャンクの改善方法に悩んだ場合は、以下のページを参照ください。
編集対象を選択
ファイル名を選択する方法とページ単位で選択する方法を記載します。
ファイル名:編集画面で 1 ページ目のチャンクを選択し、編集対象とします。
ページ単位:編集画面で該当ページのチャンクを選択し、編集対象とします。
チャンクを編集後は以下の手順に従って RAG の情報を更新してください
ファイル名を選択
編集したいファイルの[ファイル ID]を選択します。

ページ単位の選択
- ファイル毎に+のアイコンがあるため、クリックして展開します。

- 展開されたリストから編集したい[ページ番号]をクリックします。

チャンク編集画面の操作説明
ページ送り
編集対象のページを[<]、[>]、[直接入力]で変更できます。

チャンクを追加
チャンクを追加する方法が 2 種類あります。
作成したチャンクは、作成した順番にチャンク ID が振られます。
チャンクは${PDFファイル名}${ページ番号}${ページ内のチャンク番号}の命名規則で登録されます。
例: test.pdfの2ページ目の3つ目のチャンク名 -> test_00002_03
1 ページの最大チャンク数は 10 個です。
10 個になると[チャンクを追加]ボタンが消え、チャンクのページ移動(※1)もできません。
※1)1 ページ目に 10 チャンクある状態で 2 ページ目のチャンクを 1 ページ目に移動する場合、移動先に 10 チャンクあるので移動できません
- [+チャンクを追加]をクリックする方法

- [右クリック]で追加する方法

チャンクを編集
- 画面右のタブから、編集したい[チャンク]をクリックします。その後、クリックしたチャンクの内容が、テキストエリアに表示されます。

PDF の文字が見づらい場合は、以下の方法で拡大・縮小ができます。
- ctrl キーを押しながら マウスホイール
- トラックパッド上でピンチイン・アウト
- テキストエリアの内容を修正し「save」アイコンをクリックします。
クロスサイトスクリプティング対策として不正なスクリプトの無害化処理を実施しています。
そのため、記号文字「<」、「>」などは通常の文字コードとして表示されます。
エディタ右上の目のアイコン(プレビューモード)をクリックすることで、入力内容は確認可能です。

編集モードの切り替え
エディタ上部のボタンから、「マークダウン」「リッチテキスト」の2種類のモードを切り替えることができます。
- マークダウンモード
- マークダウン形式でチャンクを表示・編集します。
- エディタ上部の目のアイコンからプレビュー表示が可能です。
- リッチテキストモード
- リッチテキスト形式でチャンクを表示・編集します。
- マークダウンのプレビューをそのまま編集するような感覚で操作できます。

リッチテキストモードでctrl + Zを連打すると、白紙に戻ることがあります。そのまま保存処理が走る動作(チャンク移動, ページ移動, ファイル移動, ファイル一覧に戻る)や、マークダウンモードへの切り替えを行うと、白紙の状態で上書きされます。
ctrl + zで白紙に戻った時はshift + ctrl + zで元に戻してください。
TASUKIに保存されているマークダウンの表形式が崩れている場合、リッチテキストモードでの操作が行えないことがあります。
次のような列が足りないマークダウン表があった場合、リッチテキストモードではセルがあるように見えますが書き込むことができません。
| a | b | c |
| --- | --- | ----- |
| 項目1 |項目2 |
| 項目3 | 項目4 |

このような場合、以下の手順で修正してください:
編集モードを「マークダウン」モードに切り替える
- エディタ上部の「モード切り替え」ボタンから「マークダウン」を選択します。
表形式を修正して列数を揃える
- 不足しているセルに
|を追加して、各行のセル数を一致させます。以下は修正例です:
| a | b | c |
| --- | --- | ----- |
| 項目1 | 項目2 ||
| 項目3 | 項目4 ||- 不足しているセルに
「リッチテキスト」モードに切り替える
- 修正後に「リッチテキスト」モードに戻すと、表が正しく表示され、セルの編集が可能になります。
マークダウンモードで文頭にインデントを挿入した後、リッチエディタモードに切り替えると
下記のような条件下で、該当の行がテキストのコードブロックのように表示されてしまう場合があります。
表示上このようになるだけで、実際のデータはマークダウンモードで表示されているものがダウンロードできます。
- リスト(- や* で表記するもの)のうち、一番上の階層の要素
- 見出し(マークダウン上、# などで表記するもの)の要素
- 直前の行との間に1行以上の空白行が含まれる場合

リッチエディタモード/マークダウンモードで追加した・あるいはチャンクに元々含まれるTab要素が、リッチエディタモードでのみ 無い(≒スペースが空いていない)ように表示されますが、
ドキュメントのデータ上はTab要素が保持されており、エディタのモード切り替えによって削除されることはありません。
編集画面上部のボタン
編集画面のエディタの上部のボタンを解説します。

メタデータボタン
メタデータの登録・編集ができます。アイコンをクリックすると、メタデータ編集パネルが表示されます。

マークダウンモードでのみ表示されます。
メタデータ編集パネルでは、「ファイル全体」と「現在のチャンク」の2種類のメタデータを管理できます。
- ファイル全体:ファイル内のすべてのチャンクに共通で適用されるメタデータ
- 現在のチャンク:選択中のチャンクにのみ適用されるメタデータ

メタデータの編集
- [編集]ボタンをクリックして編集モードに切り替えます。
- [+追加する]をクリックして項目を追加し、「項目名」と「内容」を入力します。
- 不要な項目は削除アイコンをクリックして削除できます。
- [更新]ボタンをクリックして保存します。

- 項目名は「ファイル全体」と「現在のチャンク」で重複できません
- 同じスコープ内で項目名が重複している場合はエラーになります
- 各スコープにつき最大10件まで登録できます
- 項目名は255文字、内容は5000文字までです
RAG連携・メタデータのダウンロード
登録したメタデータは、RAG連携やチャンクのダウンロード時にチャンク本文と結合されます。
例えば以下のように連携されます。
次のように設定した時、
- 「ファイル全体」に
- 「項目名: ファイルの項目A, 内容: ファイルの内容A」
- 「項目名: ファイルの項目B, 内容: ファイルの内容B」
- 「現在のチャンク」に
- 「項目名: チャンクの項目A, 内容: チャンクの内容A」
- 「項目名: チャンクの項目B, 内容: チャンクの内容B」
- 「項目名: チャンクの項目C, 内容: チャンクの内容C」

次のようにRAG連携やダウンロード時にチャンクに結合されます。
---
- ファイルの項目A: ファイルの内容A
- ファイルの項目B: ファイルの内容B
- チャンクの項目A: チャンクの内容A
- チャンクの項目B: チャンクの内容B
- チャンクの内容C: チャンクの内容C
---
{編集画面で表示されているチャンク本文}
また、「現在のチャンク」を指定しなかった同一ファイルには、「ファイル全体」の項目のみ結合されます。
---
- ファイルの項目A: ファイルの内容A
- ファイルの項目B: ファイルの内容B
---
{編集画面で表示されているチャンク内容}
プレビュー表示/非表示ボタン
プレビュー表示/非表示を切り替えることができます。

プレビューを表示すると、マークダウンが可視化されます。

マークダウンモードでのみ表示されます。
エディタの拡大/縮小ボタン
エディタ部分の拡大/縮小を切り替えることができます。

拡大すると、PDFやチャンクの一覧が隠れて、エディタを広く使うことができます。

チャンクを削除
削除したいチャンクを選択して[右クリック]し、[削除]をクリック

削除機能を使用した場合、残ったチャンク群のIDは新規で採番されます。
すべてのチャンクを表示
今までの一連の流れを[ページ単位]ではなく[すべてのページ]を表示して作業することもできます。
- [すべてのページ]モードにすると時は、下記をクリック

- [ページ単位]に戻すときは下記をクリック

コメント
- コメントを記載する時は下記をクリック

- 手順は以下の URL をご確認ください。
PDF の選択範囲をチャンクに挿入
PDF の文字列をドラッグ > 右クリック > 「選択範囲をエディタに反映」より、選択範囲をそのままテキストエディタに挿入することができます。
選択した範囲のトークン数は[Selected Tokens]に反映されます。

トークン数の確認
作成したチャンクのトークン数を画面上で確認することが可能です。画面赤枠の箇所に、テキストエディタに入力されている文字のトークン数をカウントすることができます。

Q. トークン数が見えると何がいいの?
A. LLM に入力できる文書量は、トークンという単位で上限が決められています。チャンクを LLM の入力可能なトークン数以下で作成することで、LLM 利用の際の以下の問題を回避することができます。
- 意図しない場所で文章が途切れてしまい LLM が正しく文章を理解できない
- 大量のトークンを入力してしまい想定外に料金がかかってしまう
申請
[申請]状態にすることで、作業を確定し、他のユーザに作業内容の確認依頼を出すことができます。
申請の詳細については、こちらをご参照ください。
ファイルとページのステータスに関しては、以下のページを参照ください。
ページ単位
ページ単位で申請します。

申請後、ページに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます

すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
申請後、ファイルに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます

検品
[検品 OK]にすることで、他のユーザの作業内容を承認することができます。
[差戻し]にすることで、他のユーザに作業内容を否認することができます。
検品の詳細については、こちらをご参照ください。
ページ単位
ページ単位で[検品 OK]にする方法

ページ単位で[差戻し]する方法

すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
チャンク編集画面での精度検証
チャンク編集画面で、精度検証の実行、QAの新規登録・編集・自動生成などを行うことが可能です。
詳細はこちらをご覧ください。