Raven Book Normalizer v1.0.0

日本語書籍アーカイブファイル名の正規化用LoRAモデル

モデル概要

このモデルは、日本語の書籍・漫画アーカイブファイル名を標準的な形式に正規化するためのQLoRA(量子化LoRA)アダプターです。

用途例:

  • [イチヒ] おとなのほうかご 第04巻w[イチヒ] おとなのほうかご 第04巻
  • [藤島康介] トップウGP 第08巻 fix[藤島康介] トップウGP 第08巻
  • [著者名] タイトル cXX[著者名] タイトル 第XX話

モデル詳細

基本情報

  • 開発: Ravenプロジェクト
  • モデルタイプ: LoRA (Low-Rank Adaptation) アダプター
  • ベースモデル: sbintuitions/sarashina2.2-1b-instruct-v0.1
  • 言語: 日本語
  • ライセンス: Apache 2.0
  • バージョン: 1.0.0

モデルソース

使用方法

インストール

pip install transformers peft torch

推論例

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

# ベースモデルとトークナイザーをロード
base_model = AutoModelForCausalLM.from_pretrained(
    "sbintuitions/sarashina2.2-1b-instruct-v0.1",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("sbintuitions/sarashina2.2-1b-instruct-v0.1")

# LoRAアダプターをロード
model = PeftModel.from_pretrained(base_model, "ystk-kai/raven")

# プロンプト構築
prompt = """### 入力:
[イチヒ] おとなのほうかご 第04巻w

### 出力:
"""

# 推論実行
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=128)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(result)
# 出力: [イチヒ] おとなのほうかご 第04巻

バージョン指定ダウンロード

# 最新版
huggingface-cli download ystk-kai/raven

# v1.0.0固定
huggingface-cli download ystk-kai/raven --revision v1.0.0

学習詳細

学習データ

  • 書籍ファイル名の正規化ペア(入力→出力)
  • 日本語の漫画・書籍・雑誌のファイル名パターン

学習ハイパーパラメータ

  • 手法: QLoRA (4-bit量子化 + LoRA)
  • LoRAランク: 16
  • LoRAアルファ: 32
  • 学習率: 2e-4
  • バッチサイズ: 4
  • エポック数: 3
  • 最大トークン長: 512

学習環境

  • フレームワーク: PyTorch 2.5.0, Transformers 4.47.0, PEFT 0.17.1
  • GPU: CUDA対応GPU(VRAM 6-10GB推奨)

評価

正規化ルール

以下のパターンに対応:

  1. 末尾マーカー削除(w, s, b, fix等)
  2. x× 変換(作者名区切り)
  3. cXX第XX話 変換
  4. 雑誌号数の正規化(例: 2022年 No.102022年10号
  5. 余分なスペース削除

パフォーマンス

  • モデルサイズ: 116MB (adapter_model.safetensors: 113MB)
  • 推論速度: CPU 約1秒/ファイル、GPU 約0.1秒/ファイル
  • 正規化精度: 高(詳細な評価結果はリポジトリ参照)

制限事項

  • 日本語の書籍ファイル名に特化(他の用途には不向き)
  • ベースモデル(sarashina2.2-1b)が必要
  • 正規化ルールは学習データに依存

バージョン履歴

  • v1.0.0 (2025-10-05): 初回リリース

引用

@software{raven_book_normalizer,
  title = {Raven Book Normalizer},
  author = {Raven Project},
  year = {2025},
  url = {https://huggingface.co/ystk-kai/raven}
}

ライセンス

Apache License 2.0


フレームワークバージョン

  • PEFT 0.17.1
  • Transformers 4.47.0
  • PyTorch 2.5.0
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ystk-kai/raven