SakanaAI-TinySwallow-1.5B-Instruct-GRPO

概要

SakanaAI-TinySwallow-1.5B-Instruct-GRPOは、軽量ながら高性能な1.5Bパラメータの指示用言語モデルです。GGUFフォーマットで提供され、効率的な推論が可能です。unslothのGRPO（Gradient-based Reward Policy Optimization）を使用して、モデルの性能を最適化しています。

モデル詳細

モデル名: SakanaAI-TinySwallow-1.5B-Instruct-GRPO
バージョン: 1.5B
タイプ: Instruct（指示用）
フォーマット: GGUF
ライセンス: Apache-2.0
最適化手法: unsloth GRPO

特徴

軽量な1.5Bパラメータ設計
指示用（Instruct）モデルとして最適化
GGUFフォーマットによる効率的な推論
日本語と英語の両方に対応
unsloth GRPOによる高度な最適化
- 勾配ベースの報酬ポリシー最適化
- より自然な応答生成
- 指示への忠実な従順性

使用方法

必要なライブラリのインストール

pip install llama-cpp-python

モデルの読み込みと推論

from llama_cpp import Llama

# モデルの読み込み
llm = Llama(
    model_path="SakanaAI-TinySwallow-1.5B-Instruct-GRPO.gguf",
    n_ctx=2048,  # コンテキストウィンドウサイズ
    n_threads=4  # スレッド数
)

# 推論の実行
response = llm(
    "こんにちは。今日の天気について教えてください。",
    max_tokens=100,
    stop=["。", "\n"],
    echo=False
)

ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

謝辞

このモデルの開発に貢献された全ての開発者と研究者に感謝いたします。

Downloads last month: 5

GGUF

Model size

2B params

Architecture

qwen2

Hardware compatibility

We're not able to determine the quantization variants.

View all variants

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support