SakanaAI-TinySwallow-1.5B-Instruct-GRPO

概要

SakanaAI-TinySwallow-1.5B-Instruct-GRPOは、軽量ながら高性能な1.5Bパラメータの指示用言語モデルです。GGUFフォーマットで提供され、効率的な推論が可能です。unslothのGRPO(Gradient-based Reward Policy Optimization)を使用して、モデルの性能を最適化しています。

モデル詳細

  • モデル名: SakanaAI-TinySwallow-1.5B-Instruct-GRPO
  • バージョン: 1.5B
  • タイプ: Instruct(指示用)
  • フォーマット: GGUF
  • ライセンス: Apache-2.0
  • 最適化手法: unsloth GRPO

特徴

  • 軽量な1.5Bパラメータ設計
  • 指示用(Instruct)モデルとして最適化
  • GGUFフォーマットによる効率的な推論
  • 日本語と英語の両方に対応
  • unsloth GRPOによる高度な最適化
    • 勾配ベースの報酬ポリシー最適化
    • より自然な応答生成
    • 指示への忠実な従順性

使用方法

  1. 必要なライブラリのインストール
pip install llama-cpp-python
  1. モデルの読み込みと推論
from llama_cpp import Llama

# モデルの読み込み
llm = Llama(
    model_path="SakanaAI-TinySwallow-1.5B-Instruct-GRPO.gguf",
    n_ctx=2048,  # コンテキストウィンドウサイズ
    n_threads=4  # スレッド数
)

# 推論の実行
response = llm(
    "こんにちは。今日の天気について教えてください。",
    max_tokens=100,
    stop=["。", "\n"],
    echo=False
)

ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

謝辞

このモデルの開発に貢献された全ての開発者と研究者に感謝いたします。

Downloads last month
5
GGUF
Model size
2B params
Architecture
qwen2
Hardware compatibility
Log In to view the estimation

We're not able to determine the quantization variants.

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support