kor-smishing-xlmroberta

📌 Model Overview

kor-smishing-xlmroberta는
XLM-RoBERTa 기반의 한국어 스미싱(Smishing) 탐지 모델입니다.

한국어 SMS 및 메신저 텍스트를 입력으로 받아
해당 메시지가 스미싱(사기)인지 여부를 이진 분류하도록 파인튜닝되었습니다.

본 모델은 과도한 규칙(rule) 기반 휴리스틱에 의존하지 않고,
딥러닝 모델 단독으로도 **높은 정밀도(Precision)**를 달성하는 것을 목표로 설계되었습니다.

🧠 Model Architecture

Base Model: xlm-roberta-base
Model Type: XLMRobertaForSequenceClassification
Task: Binary Text Classification
Output Labels
- LABEL_0: 정상 (HAM)
- LABEL_1: 스미싱 (PHISH)

📊 Training Data Sources

본 모델은 아래의 공개 데이터셋을 활용하여 학습 및 파인튜닝되었습니다.

1. Korean Message Dataset

Source: meal-bbang/Korean_message
Link: https://huggingface.co/datasets/meal-bbang/Korean_message
Description:
한국어 문자 메시지(SMS)를 중심으로 구성된 데이터셋으로,
정상 메시지와 스팸/사기성 메시지를 포함하고 있습니다.
본 모델에서는 초기 단계의 언어 적응 및 스미싱 표현 학습에 활용되었습니다.

2. KOR Phishing Detect Dataset

Source: Ez-Sy01/KOR_phishing_Detect-Dataset
Link: https://github.com/Ez-Sy01/KOR_phishing_Detect-Dataset
Description:
실제 한국어 스미싱 및 피싱 사례를 기반으로 구축된 데이터셋으로,
스미싱 탐지 성능 향상을 위한 핵심 파인튜닝 데이터로 활용되었습니다.

⚠️ Data Usage Note

본 모델은 공개적으로 제공된 데이터셋만을 사용하여 학습되었습니다.
데이터셋에 포함된 개인 식별 정보(PII)는 모델 학습 과정에서 직접적으로 사용되지 않으며,
전처리 및 일반화 과정을 통해 특정 개인이나 사례를 재식별할 수 없도록 설계되었습니다.

📈 Evaluation Results

동일한 테스트 셋 기준에서 아래 성능을 확인했습니다.

Model-only Evaluation (threshold = 0.5)

Metric	Score
Accuracy	0.999
Precision (PHISH)	1.00
Recall (PHISH)	0.95
F1-score (PHISH)	0.97

**False Positive(오탐)**를 최소화하는 데 중점을 둔 설계
실제 운영 환경에서 불필요한 차단을 줄이는 것을 목표로 함

🚀 Recommended Usage

기본 사용 예시

from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="donghyun95/kor-smishing-xlmroberta",
    truncation=True
)

classifier("보안 강화를 위해 아래 링크에 접속해 인증번호를 입력하세요.")

🛠️ 운영 환경 권장 전략

Model-only score threshold: 70
(pipeline 출력 score × 100 기준)
모델 점수가 애매한 경우 (예: 40 ~ 70 구간)에만
아래와 같은 최소한의 룰을 보조적으로 적용하는 구조를 권장합니다.
- 단축 URL 포함 여부
- OTP 입력 + 설치/권한 요청
- 원격제어 앱 설치 유도

이 방식은 다음과 같은 장점을 가집니다.

정밀도(Precision)를 유지하면서
운영 중 False Negative를 점진적으로 보완 가능

⚠️ Limitations

신규 스미싱 문구 또는 새로운 사회공학 패턴에 대해서는
성능 저하가 발생할 수 있습니다.
본 모델은 보안 판단 보조 도구이며,
자동 차단보다는 경고·주의 안내 용도로의 사용을 권장합니다.

🛡️ Ethical Considerations

본 모델은 사기 탐지 및 사용자 보호를 목적으로 설계되었습니다.
감시, 검열, 부당한 자동 차단을 위한 사용을 의도하지 않습니다.
오탐(False Positive) 가능성을 고려하여
사용자 확인 절차와 함께 사용하는 것이 바람직합니다.

📚 Citation

연구 또는 프로젝트에서 본 모델을 활용하실 경우,
아래와 같이 인용해 주세요.

@misc{donghyun95_kor_smishing_xlmroberta,
  author = {Donghyun},
  title = {Korean Smishing Detection Model based on XLM-RoBERTa},
  year = {2026},
  url = {https://huggingface.co/donghyun95/kor-smishing-xlmroberta}
}

👤 Author Donghyun

Hugging Face: https://huggingface.co/donghyun95

Downloads last month: 10

Safetensors

Model size

0.3B params

Tensor type

F32