Raven Book Normalizer v1.0.0

日本語書籍アーカイブファイル名の正規化用LoRAモデル

モデル概要

このモデルは、日本語の書籍・漫画アーカイブファイル名を標準的な形式に正規化するためのQLoRA（量子化LoRA）アダプターです。

用途例:

[イチヒ] おとなのほうかご第04巻w → [イチヒ] おとなのほうかご第04巻
[藤島康介] トップウGP 第08巻 fix → [藤島康介] トップウGP 第08巻
[著者名] タイトル cXX → [著者名] タイトル第XX話

モデル詳細

基本情報

開発: Ravenプロジェクト
モデルタイプ: LoRA (Low-Rank Adaptation) アダプター
ベースモデル: sbintuitions/sarashina2.2-1b-instruct-v0.1
言語: 日本語
ライセンス: Apache 2.0
バージョン: 1.0.0

モデルソース

Hugging Face: https://huggingface.co/ystk-kai/raven

使用方法

インストール

pip install transformers peft torch

推論例

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

# ベースモデルとトークナイザーをロード
base_model = AutoModelForCausalLM.from_pretrained(
    "sbintuitions/sarashina2.2-1b-instruct-v0.1",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("sbintuitions/sarashina2.2-1b-instruct-v0.1")

# LoRAアダプターをロード
model = PeftModel.from_pretrained(base_model, "ystk-kai/raven")

# プロンプト構築
prompt = """### 入力:
[イチヒ] おとなのほうかご 第04巻w

### 出力:
"""

# 推論実行
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=128)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(result)
# 出力: [イチヒ] おとなのほうかご 第04巻

バージョン指定ダウンロード

# 最新版
huggingface-cli download ystk-kai/raven

# v1.0.0固定
huggingface-cli download ystk-kai/raven --revision v1.0.0

学習詳細

学習データ

書籍ファイル名の正規化ペア（入力→出力）
日本語の漫画・書籍・雑誌のファイル名パターン

学習ハイパーパラメータ

手法: QLoRA (4-bit量子化 + LoRA)
LoRAランク: 16
LoRAアルファ: 32
学習率: 2e-4
バッチサイズ: 4
エポック数: 3
最大トークン長: 512

学習環境

フレームワーク: PyTorch 2.5.0, Transformers 4.47.0, PEFT 0.17.1
GPU: CUDA対応GPU（VRAM 6-10GB推奨）

評価

正規化ルール

以下のパターンに対応:

末尾マーカー削除（w, s, b, fix等）
x → × 変換（作者名区切り）
cXX → 第XX話 変換
雑誌号数の正規化（例: 2022年 No.10 → 2022年10号）
余分なスペース削除

パフォーマンス

モデルサイズ: 116MB (adapter_model.safetensors: 113MB)
推論速度: CPU 約1秒/ファイル、GPU 約0.1秒/ファイル
正規化精度: 高（詳細な評価結果はリポジトリ参照）

制限事項

日本語の書籍ファイル名に特化（他の用途には不向き）
ベースモデル（sarashina2.2-1b）が必要
正規化ルールは学習データに依存

バージョン履歴

v1.0.0 (2025-10-05): 初回リリース

引用

@software{raven_book_normalizer,
  title = {Raven Book Normalizer},
  author = {Raven Project},
  year = {2025},
  url = {https://huggingface.co/ystk-kai/raven}
}

ライセンス

Apache License 2.0

フレームワークバージョン

PEFT 0.17.1
Transformers 4.47.0
PyTorch 2.5.0

Downloads last month: 2

Model tree for ystk-kai/raven

Base model

sbintuitions/sarashina2.2-1b

Finetuned

sbintuitions/sarashina2.2-1b-instruct-v0.1

Adapter

(1)

this model