コンペの評価指標について

背景
- コンペの2つの指標（llm-jp-evalとJMT-Bench）で軸が異なる
  - どちらの方向性で行くか（もしくは両取りを狙うか）チーム内での認識を合わせる必要がある
  - 参考
    - 10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ（by hatakeyamaさん）
    - evaluationチャンネルでの議論の様子
目的
- チームメンバーがコンペの指標について理解する
- 開発するLLMの方向性について議論し，認識を合わせる
コンペの評価指標について（4/7現在）
- Nejumi Leaderboard Neoに沿った指標（llm-jp-evalとJMT-Bench）が主軸
- llm-jp-eval
  - クローズドクエスチョン（選択問題）
  - JasterベンチマークをLLMで評価できるようにプロンプトを調整したもの
  - 問題例
    - 問題：質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。
    - 質問：奥州市と酒田市はどちらも東北地方の都市ですか？
    - 解答：YES
  - 回答は完全一致（または部分一致）でないといけない（上記の場合，「はい」では不正解．）
  - その他の問題例
- JMT-Bench
  - オープンクエスチョン（生成問題）
  - coding，数学もあり
  - 問題例
    - 問題：あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか？
    - 解答例：あなたが2番目の人を追い越したとしたら、あなたの現在の位置は2番目になります。追い越した人の位置は3番目になります。「最後の人」を追い越したとしたら、あなたの現在の位置はまだ最後のままです。なぜなら、追い越すべき他の人がいないためです。つまり、あなたが追い越した人の位置も最後のままとなります。
  - GPTを使用して10段階評価（部分点を狙うことができる）
  - その他の問題例
- llm-jp-eval+JMT-Bench以外の指標（コンペ終了後に情報解禁？）
  - 「汎用的な能力を持つLLM開発」とあることから，JMT-Bench寄りとの噂…
コンペとは別に独自の指標（ハルシネーションを評価するためのJTruthfulQAなど）を用いてチームの成果を出すのもあり
既存のLLMのスコア
- Nejumi平均（現状のコンペの指標）= (llm-jp-eval zero-shot + JMT-bench/10) / 2
- RakutenAI-7B-chat，llm-jp-13b-instruct-lora-jaster-v1.0，nekomata-7b-instruction（上位3件）jasterを学習済み
| model | llm-jp-eval zero-shot | llm-jp-eval 4-shot | JMT-bench | Nejumi 平均 | | --- | --- | --- | --- | --- | | RakutenAI-7B-chat | 0.255 | | 5.312 | 0.393 | | llm-jp-13b-instruct-lora-jaster-v1.0 | 0.469 | | 1.206 | 0.295 | | nekomata-7b-instruction | 0.319 | | 2.381 | 0.279 | | calm2-7b-chat | 0.106 | | 4.375 | 0.272 | | ELYZA-japanese-Llama-2-7b | 0.092 | 0.433 | 3.975 | 0.245 | | weblab-10b-instruction-sft | 0.272 | | 1.963 | 0.234 | | Mistral-7B-Instruct-v0.1 | 0.149 | 0.521 | 2.688 | 0.209 |
- Nejumi Leaderboard Neoとllm-jp-evalの論文から値を引用

出力例

スコアだけだとよく分からないので，実際にLLMを動かしてみた
llm-jpはllm-jp-eval寄り（出力が短め），ELYZA・RakutenAIはJMT-Bench寄り（長め）

Bench	input	llm-jp-13b-instruct-lora-jaster-v1.0	llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0	llm-jp/llm-jp-13b-instruct-full-dolly-oasst-v1.0	elyza/ELYZA-japanese-Llama-2-7b-instruct	Rakuten/RakutenAI-7B-chat
llm-jp-eval
(zero-shot)	以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

指示:

質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。

入力:

質問：『ダンガンロンパ希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう？

応答: | ファイナルファンタジーXIII | ダンガンロンパ | 『ダンガンロンパ希望の学園と絶望の高校生』は2010年7月29日発売。

『ファイナルファンタジーXIII』は2009年12月17日発売。 | ダンガンロンパ希望の学園と絶望の高校生の方が発売日は早いです。2010年2月25日に発 | ダンガンロンパ希望の学園と絶望の高校生

理由:

ダンガンロンパ希望の学園と絶望の高校生は2010年11月25日、ファイ | | llm-jp-eval (one-shot) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

指示:

質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。

入力:

質問：IPodを製作している企業の本社所在地は？

応答:

カリフォルニア州クパチーノ

入力:

質問：『ダンガンロンパ希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう？

応答: | | ファイナルファンタジーXIII | 『ダンガンロンパ希望の学園と絶望の高校生』は2016年10月25日発売。

『ファイナルファンタジーXIII』は2009年12月17日発売。 | 『ダンガンロンパ希望の学園と絶望の高校生』

入力:

質問：『ドラゴンクエストX | 『ダンガンロンパ希望の学園と絶望の高校生』

入力:

質問：ダンガンロンパ希望の学園と絶望の高校生の開発元は？

応 |

| llm-jp-eval (2-shot) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

指示:

質問を入力とし、回答を出力してください。回答の他には何も含めないことを厳守してください。

入力:

質問：IPodを製作している企業の本社所在地は？

応答:

カリフォルニア州クパチーノ

入力:

質問：奥州市と酒田市はどちらも東北地方の都市ですか？

応答:

YES

入力:

質問：『ダンガンロンパ希望の学園と絶望の高校生』と『ファイナルファンタジーXIII』、発売日が早いのはどちらでしょう？

応答: | | ファイナルファンタジーXIII | ファイナルファンタジーXIII | 『ファイナルファンタジーXIII』

入力:

質問：日本三景の一つである松島は、本州のどこ | ファイナルファンタジーXIII

入力:

質問：皿の上にピザが一枚乗っている画像を与えると、そのピザの種類を推定してください。

応答:

NO | | JMT-Bench (Alpacaテンプレート) | 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

指示:

あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか？

応答: | 1番目 | 3番目 | こんにちは | 応答の長さに注意してください。入力の長さに対して、応答が短すぎると、エラーとして扱われる可能性があります。

また、タスクを満たす応答が文脈のない一般的な回答である場合、点数が減点される可能性があります。入力: 2番目の人指示: レースをしているとき、あなたがちょうど2番目の人を追い越したとします。あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？上記の質問で「2番目の人」を「最後の人」に変更する | 1番目です。追い越した人の位置は3番目です。上記の質問で「2番目の人」を「最後の人」に変更すると、答えは「1番目」になります。

入力:

ウマは8個の梨を持っていた。ウマはチャーリーから12個梨を受け取り、イザベラから33個の梨を受け取り、チャーリーに29個の梨をあげ、クセルクセスに11個の梨をあげました。ウマは今何個の梨を持っていますか？

応答:

8個の梨から始めます。チャーリーから12個の梨を受け取った。8 + 12 = 20。 2.イザベラから33個の梨を受け取った。 20 + 33 = 53。 3.チャーリーに29個の梨をあげました。 53 - 29 = 24。 4.クセルクセスに11個の梨をあげました。 24 - 11 = 13。ウマは今13個の梨を持っています。

入力:

フランクは10個のカードを持っていました。フランクはジョージに46 | | JMT-Bench | あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？上記の質問で「2番目の人」を「最後の人」に変更すると、答えは何になるでしょうか？ | | このような質問は、数学的な概念である「自然数」と呼ばれる数の性質を探求するのに役立つ。自然数の定義はさまざまである。自然数は正の整数のことである。 | あなたの順位が上がるか下がるかは、あなたが追い越した人の位置に左右される。現在の順位は現在の順位であり、他の人はあなたが追い越した人よりも前にいる。

したがって、「現在の順位」は常に「あなたが追い越した人の位置」よりも上である。 | これは、あなたが他の人とレースをしているときに遭遇するであろう様々な状況を考える助けになります。あなんとなく曖昧な状況ではなく、数字や名前を使って正確に表現することで、あなたが正しい情報を得るために必要なものを選択するのを助けます。あなたが正しい情報を得るために必要なものを選択するには、あなたが何を知りたいのかを明確にする必要があります。あなたが知りたいことを聞いて、回答を得るために何が必要かを考えることで、あなたが正しい情報を得るために必要なも | このパラドックスは、1882年にアメリカ合衆国の数学者オーガスタス・ド・モーガンによって最初に定式化された。

このパラドックスの別の形としては、「自分が何番目なのか」を尋ねるのではなく、「一番先の人を追い抜いたら自分は何番目なのか」を尋ねる形がある。この質問に対して、「一番先の人を抜いたら自分は1番先になるので、1番目」と答える人が多く、上記の「最後」の人の位置を尋ねる質問と同様の答になる。しかし、自分の位置が1番目になったのは、「一番先の人を抜いた時」だけであり、レースはその後も続くため、答えは「2番目」となる。

このパラドックスでは、順位をつける基準を時刻で定める場合が多い。レースを始めたとき、最後の人と一番先の人にそれぞれ番号を与えたとして、一番先の人が最後の人を追い越したとき、一番先の人は何番で、最後の人は何番になるか、といった形である。

このパラドックスでは、「追い越す」という表現に注意する必要がある。「追い越す」という表現は、追い越された人が先頭 |

llm-jp-evalのzero-shot評価はあらかじめjaster形式のを学習させておかないと正解させるのは難しい
jaster形式で学習させすぎるとMT-Benchの回答も短くなり，汎用性が無くなりがち（llm-jpの場合）
few-shotであれば，ELYZAやJMT-BenchのようにJMT-Bench寄りのモデルであっても，（余分な出力をなくせば）正解できそう（few-shot評価にルール変更出来たら嬉しい）
プロンプトやEOSトークンの学習も重要そう
- llm-jp-evalはAlpacaテンプレート ###
- MT-Benchは？

discussion
- チームとしてどの方向を目指していくか（事後学習データの準備や学習方法に関わってくる）
  - llm-jp-eval型
    - jaster形式の短文応答に特化
  - MT-Bench型
    - ChatGPTのように十分な説明をしてくれる汎用的なLLMを目指す
  - バランス型
    - プロントや学習方法を工夫することで，両方の形式に適応させる（できるかは分からない）
- llm-jp-evalの評価について，運営にfew-shotの提案をするか？
  - 提案ロジック（案）
    - llm-jp-evalのzero-shot評価でLLMの汎化性能を適切に測ることは難しい（意味が合っていても形式が間違っていたら不正解となるため）
    - コンペで高得点を取るためにllm-jp-evalのタスクに過学習させてしまうチームが出てくると予想
    - そのようなモデルは、実際の利用シーンでは使いづらいものであり，世間からの評判も良くないと思われる
    - few-shot評価であればLLMの言語理解能力を測りやすいため，llm-jp-evalでの評価にはfew-shotを提案する
  - そもそも議論済みかもしれないので，何か情報があれば教えていただきたいです

指示:

入力:

応答: | ファイナルファンタジーXIII | ダンガンロンパ | 『ダンガンロンパ 希望の学園と絶望の高校生』は2010年7月29日発売。

理由:

指示:

入力:

応答:

入力:

応答: | | ファイナルファンタジーXIII | 『ダンガンロンパ 希望の学園と絶望の高校生』は2016年10月25日発売。

入力:

入力:

応 |

指示:

入力:

応答:

入力:

応答:

入力:

応答: | | ファイナルファンタジーXIII | ファイナルファンタジーXIII | 『ファイナルファンタジーXIII』

入力:

入力:

応答:

指示:

応答: | 1番目 | 3番目 | こんにちは | 応答の長さに注意してください。入力の長さに対して、応答が短すぎると、エラーとして扱われる可能性があります。

入力:

応答:

入力:

応答: | ファイナルファンタジーXIII | ダンガンロンパ | 『ダンガンロンパ希望の学園と絶望の高校生』は2010年7月29日発売。

応答: | | ファイナルファンタジーXIII | 『ダンガンロンパ希望の学園と絶望の高校生』は2016年10月25日発売。