4272 개의 document 중 200 여개를 추출할 예정

(답안지에 사용되지 않은 document는 colbert 학습에 사용)

100 개 구성 계획

Untitled

valid.jsonl의 형태

{
	"eval_id" : eval_id,
	"msg" : [{"role" : "user", "content" : content}]
}

valid_answer.jsonl의 형태

{
	"eval_id" : eval_id,
	"standalone_query" : content,
	"topk": [], 
}