Raven Book Normalizer v1.0.0
日本語書籍アーカイブファイル名の正規化用LoRAモデル
モデル概要
このモデルは、日本語の書籍・漫画アーカイブファイル名を標準的な形式に正規化するためのQLoRA(量子化LoRA)アダプターです。
用途例:
[イチヒ] おとなのほうかご 第04巻w→[イチヒ] おとなのほうかご 第04巻[藤島康介] トップウGP 第08巻 fix→[藤島康介] トップウGP 第08巻[著者名] タイトル cXX→[著者名] タイトル 第XX話
モデル詳細
基本情報
- 開発: Ravenプロジェクト
- モデルタイプ: LoRA (Low-Rank Adaptation) アダプター
- ベースモデル: sbintuitions/sarashina2.2-1b-instruct-v0.1
- 言語: 日本語
- ライセンス: Apache 2.0
- バージョン: 1.0.0
モデルソース
- Hugging Face: https://huggingface.co/ystk-kai/raven
使用方法
インストール
pip install transformers peft torch
推論例
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
# ベースモデルとトークナイザーをロード
base_model = AutoModelForCausalLM.from_pretrained(
"sbintuitions/sarashina2.2-1b-instruct-v0.1",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("sbintuitions/sarashina2.2-1b-instruct-v0.1")
# LoRAアダプターをロード
model = PeftModel.from_pretrained(base_model, "ystk-kai/raven")
# プロンプト構築
prompt = """### 入力:
[イチヒ] おとなのほうかご 第04巻w
### 出力:
"""
# 推論実行
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=128)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
# 出力: [イチヒ] おとなのほうかご 第04巻
バージョン指定ダウンロード
# 最新版
huggingface-cli download ystk-kai/raven
# v1.0.0固定
huggingface-cli download ystk-kai/raven --revision v1.0.0
学習詳細
学習データ
- 書籍ファイル名の正規化ペア(入力→出力)
- 日本語の漫画・書籍・雑誌のファイル名パターン
学習ハイパーパラメータ
- 手法: QLoRA (4-bit量子化 + LoRA)
- LoRAランク: 16
- LoRAアルファ: 32
- 学習率: 2e-4
- バッチサイズ: 4
- エポック数: 3
- 最大トークン長: 512
学習環境
- フレームワーク: PyTorch 2.5.0, Transformers 4.47.0, PEFT 0.17.1
- GPU: CUDA対応GPU(VRAM 6-10GB推奨)
評価
正規化ルール
以下のパターンに対応:
- 末尾マーカー削除(
w,s,b,fix等) x→×変換(作者名区切り)cXX→第XX話変換- 雑誌号数の正規化(例:
2022年 No.10→2022年10号) - 余分なスペース削除
パフォーマンス
- モデルサイズ: 116MB (adapter_model.safetensors: 113MB)
- 推論速度: CPU 約1秒/ファイル、GPU 約0.1秒/ファイル
- 正規化精度: 高(詳細な評価結果はリポジトリ参照)
制限事項
- 日本語の書籍ファイル名に特化(他の用途には不向き)
- ベースモデル(sarashina2.2-1b)が必要
- 正規化ルールは学習データに依存
バージョン履歴
- v1.0.0 (2025-10-05): 初回リリース
引用
@software{raven_book_normalizer,
title = {Raven Book Normalizer},
author = {Raven Project},
year = {2025},
url = {https://huggingface.co/ystk-kai/raven}
}
ライセンス
Apache License 2.0
フレームワークバージョン
- PEFT 0.17.1
- Transformers 4.47.0
- PyTorch 2.5.0
- Downloads last month
- 2
Model tree for ystk-kai/raven
Base model
sbintuitions/sarashina2.2-1b