リサーチ 2023年12月6日

Shisa 7B リリース

合成データ駆動アプローチを用いたバイリンガル汎用チャットモデルです。

シーサー7B （ shisa-7b-v1 ）は、合成データ駆動のアプローチを用いて、優れた日本語と英語能力を両立することを目指すバイリンガル（日本語/英語）汎用チャットモデルです。

このモデルは、 Mistral 7B を基に、Mistralのオリジナルのトークナイザーよりも日本語において2倍以上効率的な、日本語最適化拡張トークナイザーをカスタムして作成されました。ベースモデルは、主に日本語のトークンを追加で80億ものトレーニングを行いました。そして、その後、 airoboros-3.1 の拡張された機械翻訳版、 ultrafeedback_binarized からの最高得点項目のセット、そして新たに生成された airoboros のデータを直接目標言語で微調整しています。

商用を含むあらゆる目的で使用可能な寛容なApache 2.0ライセンスの下で、ベースモデル、データセット、およびパイプラインコードも公開しています。さらに、アブレーション結果、テスト方法論、主要な調査結果など、プロセスの詳細や拡張ライトアップを公開する過程にあります。これは当プロジェクトwiki で研究者に興味深い情報として提供されています。

News