B baekho.app Team PhishShield

Tech

어떻게 분석하나요

PhishShield는 입력을 여러 컴포넌트로 나눠 해석한 뒤, 다시 하나의 설명형 결과로 묶는 구조를 사용합니다. 중요한 점은 `탐지`뿐 아니라 `설명`까지 결과물에 포함된다는 것입니다.

FastAPI Rule-based Analysis Explainable Report Dataset Evaluation Scripts

1. 헤더 분석

From/Reply-To 불일치, 인증 결과 실패, 전달 경로 부족, 긴급 제목 등 헤더 중심 신호를 점수화합니다.

2. 본문/HTML 분석

링크 텍스트와 실제 이동 도메인 차이, form action, meta refresh, JavaScript redirect를 분리 감지합니다.

3. URL 분석

IP 호스트, 의심 TLD, 긴 URL, Punycode, 단축 URL, userinfo 패턴, 민감 키워드를 기준으로 평가합니다.

4. 첨부파일 정적 분석

확장자, MIME, magic bytes, 이중 확장자, HTML 내부 로그인 흔적을 결합해 정적 위험도를 계산합니다.

점수 결합 방식

헤더, 본문, URL, 첨부파일 점수를 가중 평균으로 합치되, 가장 높은 단일 컴포넌트 점수와 상호 보강 보너스도 반영합니다. 즉 하나의 매우 강한 신호와 여러 컴포넌트가 동시에 의심스러운 상황을 모두 고려하는 구조입니다.

  • Header 0.35
  • Body 0.15
  • URL 0.25
  • Attachment 0.25

데이터 수집

공개 코퍼스, 동의 기반 `.eml` 수집, synthetic 샘플 보강의 혼합 방식을 사용합니다.

평가 방식

정규화된 JSONL 데이터셋을 기준으로 threshold별 precision, recall, f1을 계산하는 스크립트를 갖추고 있습니다.

현재 한계

정적 규칙 기반 MVP이기 때문에 실시간 차단, 조직 전체 운영 정책, 동적 샌드박스 실행 분석은 아직 포함하지 않습니다. 따라서 이 페이지는 기술적 강점과 함께 한계도 같이 설명하는 방향으로 유지하는 것이 좋습니다.