완전 익명화 데이터를 활용한 건물 에너지 예측을 위한 프라이버시 보존 전이학습 프레임워크
익명화된 시계열 데이터만으로 효과적인 전이학습을 구현하는 프레임워크로, 89개 실제 건물에서 평균 MSE 27–31% 감소를 달성하며 연합학습 대비 0.51%의 통신량만 사용합니다.
요약
AI 기반 예측은 건물 에너지 제어 최적화를 위한 유망한 솔루션이지만, 레이블 데이터 부족과 엄격한 프라이버시 규정에 의해 제약됩니다. 전이학습(TL)은 다른 건물의 데이터를 활용하여 데이터 부족을 완화할 수 있으나, 기존 TL 방법론은 완전 익명화 데이터셋에서 사용할 수 없는 메타데이터에 의존합니다. 본 연구는 익명화된 시계열 동역학으로부터 직접 유사성을 학습하여 이 교착 상태를 극복하는 프라이버시 보존 전이학습(PPTL) 프레임워크를 제안합니다.
비지도 대조학습 인코더를 통해 각 건물의 동역학을 시간적 패턴만으로 학습된 고차원 표현 벡터에 매핑합니다. 표현 벡터 간 코사인 거리가 소스 선택을 유도하여 경량 예측기를 사전학습하고, 이를 제한된 타겟 데이터로 미세조정합니다.
89개 실제 건물에 대한 Leave-one-out 실험 결과, 학습된 유사도가 전이 성능과 강한 상관관계를 보여줍니다: 유사도가 높은 소스로 사전학습된 모델은 타겟 전용 기준선 대비 MSE 중앙값 27–31% 감소를 달성했습니다. 프레임워크는 전체 구성의 99.2%(356개 중 353개)에서 예측 성능을 향상시켰으며, 성능 저하가 나타난 3개 사례의 최대 감소폭은 2.2%에 불과했습니다.
연구 동기: 프라이버시–성능 교착 상태
건물 에너지 효율화는 전 세계 탈탄소화를 위한 필수 요건입니다—건물은 전체 CO₂ 배출량의 약 37%를 차지합니다. AI가 에너지 예측의 강력한 도구로 부상했지만, 건물 분야는 두 가지 구조적 장벽에 직면해 있습니다:
- 이질성(Heterogeneity) — 각 건물은 고유한 재료, 형태, 사용 패턴, 미기후 조합에 의해 정의되는 고유한 시스템이며, 범용 모델링이 불가능합니다.
- 프라이버시 — 에너지 패턴은 재실 행태와 업무 활동을 드러냅니다. GDPR 등의 규정이 데이터 공유를 엄격히 제한합니다.
이 장벽들은 역설을 만들어냅니다: 이질성으로 인해 많은 건물의 다양한 학습 데이터가 필요하지만, 프라이버시로 인해 그러한 데이터셋 구축에 필요한 데이터 집적이 불가능합니다. 전이학습이 이 격차를 해소할 수 있으나, 기존 방법론은 익명화가 제거하는 메타데이터(건물 유형, 규모, 기후대)에 의존합니다—이것이 방법론적 교착 상태입니다.
PPTL 프레임워크
본 프레임워크는 메타데이터 기반 휴리스틱에서 데이터 네이티브 학습 유사도로 패러다임을 전환합니다. 세 가지 모듈형 구성요소가 순차적으로 작동합니다:

1. TS2Vec 인코더 — 비지도 대조학습
인코더는 비레이블, 익명화 데이터로부터 표현을 학습하는 시계열 대조학습 모델 TS2Vec을 활용합니다. 이미지 기반 대조학습과 달리 TS2Vec은 문맥적 일관성(contextual consistency)을 사용합니다: 특정 시간 인덱스의 표현은 어떤 시간 창에서 관측하든 일관되어야 합니다.
이 접근법은 일주기 순환, 계절적 주기성, 부하 형태 동역학 등의 시간적 의존성과 운영 논리를 메타데이터나 수동 피처 엔지니어링 없이 포착합니다.
2. TiDE 예측기 — 경량 고효율
예측 모듈은 선형 스케일링 으로 동작하며 완전 병렬 연산을 지원하는 MLP 기반 인코더-디코더 모델 TiDE (Time-series Dense Encoder)를 사용합니다.

TiDE는 과거 타겟 피처, 정적 피처(익명화된 건물 인덱스), 비타겟 공변량(기상, 시간 지표)을 잔차 연결과 드롭아웃이 포함된 Dense 인코더-디코더 구조를 통해 처리합니다.
3. 전략 제어기 — 소스 선택
제어기는 학습된 표현 공간에서의 코사인 거리를 기반으로 유사도 기반 소스 선택을 수행한 후, 2단계 학습 과정을 관리합니다:
- 상위 순위 소스 건물에 대한 사전학습(Pretraining)
- 제한된 타겟 데이터에 대한 전체 미세조정(Fine-tuning)
워크플로우
PPTL 프레임워크는 체계적인 4단계 파이프라인을 따릅니다:

Step 1. 익명화된 소스 데이터로 TS2Vec 인코더를 학습하여 잠재 표현 공간을 구성합니다.
Step 2. 소스 및 타겟 건물의 표현을 생성하고, 코사인 거리로 소스를 순위화합니다.
Step 3. 가장 유사한 소스 데이터셋으로 TiDE 예측기를 사전학습합니다.
Step 4. 사전학습된 모델을 제한된 타겟 데이터로 미세조정하여 최종 예측기를 생성합니다.
데이터셋
본 프레임워크는 Cambridge University Estates 건물 에너지 아카이브로 검증되었습니다—강의실, 사무실, 실험실, 박물관 등 약 120개 완전 익명화 건물의 24년간(2000–2023) 시간별 전력 사용량 데이터입니다. 모든 건물 정보는 완전히 익명화되어 있으며, 각 건물은 무작위 수치 인덱스로만 식별됩니다.
89개의 결측값 없는 건물을 대상으로 16개월 구간을 선정했으며, 처음 14개월은 모델 개발에, 마지막 2개월은 테스트에 사용합니다.
결과
학습된 유사도가 운영 패턴을 포착

2D 시각화 결과, 학습 공간에서의 근접도가 실제 운영 유사도와 상관관계를 보여줍니다—가장 가까운 건물은 거의 동일한 주간 패턴을 보이고, 가장 먼 건물은 타겟과 양립 불가능한 불규칙적 프로파일을 보입니다.
소스 선택 전략 검증

89개 전체 건물에 걸쳐 세 가지 가설이 검증되었습니다:
- H1: Closest 전략이 Farthest 전략보다 일관되게 우수한 성능
- H2: Closest 전략에서 성능 최적점(sweet spot) 존재
- H3: Farthest 전략은 소스 증가에 따른 단조 성능 향상

프레임워크 견고성

Closest 전략은 거의 모든 사례에서 성능 향상을 달성했으며, 성능 저하는 3개 사례(최대 2.2%)에 불과했습니다. 이는 다양한 건물 유형에 걸친 뛰어난 안정성을 보여줍니다.
예측 성능

전이학습 모델은 우수한 안정성과 일반화 능력을 보여줍니다. 최적 구성 모델(Closest 4)은 더 높은 피크 예측 정확도를 달성하는 반면, No-TL 기준선은 불규칙한 변동과 체계적인 피크 수요 과소예측을 보입니다.
연합학습과의 비교
| 지표 | 연합학습 (FL) | PPTL 프레임워크 |
|---|---|---|
| 프라이버시 방식 | 구조적 지역성 (무신뢰) | 규제 준수 (신뢰) |
| 통신량 | 100 라운드에 ~608 MB | ~3.1 MB (FL의 0.51%) |
| 클라이언트 연산 | GPU급 하드웨어 필요 | 로컬 학습 불필요 |
| Non-IID 견고성 | 취약 | 설계상 견고 |
| 개인화 | 범용 글로벌 모델 | 타겟 특화 모델 |
주요 기여
- 메타데이터 프리 전이학습 프레임워크 — 익명화된 시계열 데이터만으로 효과적인 전이학습 구현.
- 전이 가능성 지표로서의 표현 거리 — 코사인 거리가 전이 성공을 안정적으로 예측 (99.2% 향상율).
- 엔지니어링 리스크로서의 부정적 전이 — 데이터 양–질 트레이드오프를 체계적 의사결정으로 전환.
- FL 보완적 확장 가능 배포 — 0.51% 통신 대역폭, 서버 사이드 연산.
저자
- 최원준 (전남대학교 건축학부) — 공동 제1저자, 교신저자
- 이상원 (Dartwork) — 공동 제1저자
- Max Langtry (University of Cambridge)
- Ruchi Choudhary (University of Cambridge)
사사
이 연구는 한국연구재단(NRF) 연구비(No. RS-2023-00277318, RS-2025-00512551) 지원으로 수행되었습니다 (과학기술정보통신부).