背景
目的
コンペの評価指標について(4/7現在)
llm-jp-eval
JMT-Bench
llm-jp-eval+JMT-Bench以外の指標(コンペ終了後に情報解禁?)
コンペとは別に独自の指標(ハルシネーションを評価するためのJTruthfulQAなど)を用いてチームの成果を出すのもあり
既存のLLMのスコア
| model | llm-jp-eval zero-shot | llm-jp-eval 4-shot | JMT-bench | Nejumi 平均 | | --- | --- | --- | --- | --- | | RakutenAI-7B-chat | 0.255 | | 5.312 | 0.393 | | llm-jp-13b-instruct-lora-jaster-v1.0 | 0.469 | | 1.206 | 0.295 | | nekomata-7b-instruction | 0.319 | | 2.381 | 0.279 | | calm2-7b-chat | 0.106 | | 4.375 | 0.272 | | ELYZA-japanese-Llama-2-7b | 0.092 | 0.433 | 3.975 | 0.245 | | weblab-10b-instruction-sft | 0.272 | | 1.963 | 0.234 | | Mistral-7B-Instruct-v0.1 | 0.149 | 0.521 | 2.688 | 0.209 |
出力例
Bench | input | llm-jp-13b-instruct-lora-jaster-v1.0 | llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0 | llm-jp/llm-jp-13b-instruct-full-dolly-oasst-v1.0 | elyza/ELYZA-japanese-Llama-2-7b-instruct | Rakuten/RakutenAI-7B-chat |
---|---|---|---|---|---|---|
llm-jp-eval | ||||||
(zero-shot) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。 |
質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。
質問:『ダンガンロンパ 希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう?
『ファイナルファンタジーXIII』は2009年12月17日発売。 | ダンガンロンパ 希望の学園と絶望の高校生の方が発売日は早いです。2010年2月25日に発 | ダンガンロンパ 希望の学園と絶望の高校生
ダンガンロンパ 希望の学園と絶望の高校生は2010年11月25日、ファイ | | llm-jp-eval (one-shot) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。
質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。
質問:IPodを製作している企業の本社所在地は?
カリフォルニア州クパチーノ
質問:『ダンガンロンパ 希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう?
『ファイナルファンタジーXIII』は2009年12月17日発売。 | 『ダンガンロンパ 希望の学園と絶望の高校生』
質問:『ドラゴンクエストX | 『ダンガンロンパ 希望の学園と絶望の高校生』
質問:ダンガンロンパ 希望の学園と絶望の高校生の開発元は?
| llm-jp-eval (2-shot) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。
質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。
質問:IPodを製作している企業の本社所在地は?
カリフォルニア州クパチーノ
質問:奥州市と酒田市はどちらも東北地方の都市ですか?
YES
質問:『ダンガンロンパ 希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう?
質問:日本三景の一つである松島は、本州のどこ | ファイナルファンタジーXIII
質問:皿の上にピザが一枚乗っている画像を与えると、そのピザの種類を推定してください。
NO | | JMT-Bench (Alpacaテンプレート) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。
あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか? あなたが追い越した人の位置はどこでしょうか?上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか?
また、タスクを満たす応答が文脈のない一般的な回答である場合、点数が減点される可能性があります。 入力: 2番目の人 指示: レースをしているとき、あなたがちょうど2番目の人を追い越したとします。あなたの現在の位置は何番目でしょうか? あなたが追い越した人の位置はどこでしょうか?上記の質問で「2番目の人」を「最後の人」に変更する | 1番目です。追い越した人の位置は3番目です。上記の質問で「2番目の人」を「最後の人」に変更すると、答えは「1番目」になります。
ウマは8個の梨を持っていた。ウマはチャーリーから12個梨を受け取り、イザベラから33個の梨を受け取り、チャーリーに29個の梨をあげ、クセルクセスに11個の梨をあげました。ウマは今何個の梨を持っていますか?
フランクは10個のカードを持っていました。フランクはジョージに46 | | JMT-Bench | あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか? あなたが追い越した人の位置はどこでしょうか?上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか? | | このような質問は、数学的な概念である「自然数」と呼ばれる数の性質を探求するのに役立つ。自然数の定義はさまざまである。自然数は正の整数のことである。 | あなたの順位が上がるか下がるかは、あなたが追い越した人の位置に左右される。現在の順位は現在の順位であり、他の人はあなたが追い越した人よりも前にいる。
したがって、「現在の順位」は常に「あなたが追い越した人の位置」よりも上である。 | これは、あなたが他の人とレースをしているときに遭遇するであろう様々な状況を考える助けになります。あなんとなく曖昧な状況ではなく、数字や名前を使って正確に表現することで、あなたが正しい情報を得るために必要なものを選択するのを助けます。 あなたが正しい情報を得るために必要なものを選択するには、あなたが何を知りたいのかを明確にする必要があります。あなたが知りたいことを聞いて、回答を得るために何が必要かを考えることで、あなたが正しい情報を得るために必要なも | このパラドックスは、1882年にアメリカ合衆国の数学者オーガスタス・ド・モーガンによって最初に定式化された。
このパラドックスの別の形としては、「自分が何番目なのか」を尋ねるのではなく、「一番先の人を追い抜いたら自分は何番目なのか」を尋ねる形がある。この質問に対して、「一番先の人を抜いたら自分は1番先になるので、1番目」と答える人が多く、上記の「最後」の人の位置を尋ねる質問と同様の答になる。しかし、自分の位置が1番目になったのは、「一番先の人を抜いた時」だけであり、レースはその後も続くため、答えは「2番目」となる。
このパラドックスでは、順位をつける基準を時刻で定める場合が多い。レースを始めたとき、最後の人と一番先の人にそれぞれ番号を与えたとして、一番先の人が最後の人を追い越したとき、一番先の人は何番で、最後の人は何番になるか、といった形である。
このパラドックスでは、「追い越す」という表現に注意する必要がある。「追い越す」という表現は、追い越された人が先頭 |
discussion
チームとしてどの方向を目指していくか(事後学習データの準備や学習方法に関わってくる)
llm-jp-evalの評価について,運営にfew-shotの提案をするか?