シーサー7B ( shisa-7b-v1 )は、合成データ駆動のアプローチを用いて、優れた日本語と英語能力を両立することを目指すバイリンガル(日本語/英語)汎用チャットモデルです。
このモデルは、 Mistral 7B を基に、Mistralのオリジナルのトークナイザーよりも日本語において2倍以上効率的な、日本語最適化拡張トークナイザーをカスタムして作成されました。ベースモデルは、主に日本語のトークンを追加で80億ものトレーニングを行いました。そして、その後、 airoboros-3.1 の拡張された機械翻訳版、 ultrafeedback_binarized からの最高得点項目のセット、そして新たに生成された airoboros のデータを直接目標言語で微調整しています。
商用を含むあらゆる目的で使用可能な寛容なApache 2.0ライセンスの下で、ベースモデル、データセット、およびパイプラインコードも公開しています。さらに、アブレーション結果、テスト方法論、主要な調査結果など、プロセスの詳細や拡張ライトアップを公開する過程にあります。これは 当プロジェクトwiki で研究者に興味深い情報として提供されています。
News
すべての記事 ほかのニュース
リサーチ
Shisa-Gamma-7b-v1のダウンロード数が100万回を突破
公開から1年を経て、当社のモデルがコミュニティで広く活用されていることを改めて実感しています。
続きを読む リサーチ
Shisa.AI、国内最高性能の多言語対応LLMを開発
GPT-4を上回る日本語処理能力を誇る、405BパラメータのオープンソースLLMを公開。
続きを読む