1. 서 론
1.1 연구의 배경 및 필요성
1.2 연구의 목적
2. 관련 연구
2.1 건설 분야에서의 AR 활용
2.2 AR 정합 기술
2.3 AR 정합 기술 성능 평가
2.4 건설 분야에서의 AR 정합 기술 성능 평가
3. 연구 방법
3.1 초기화 및 추적 단계 성능 평가
3.2 초기화 단계 실험 설정
3.3 추적 단계 실험 설정
4. 실험 결과 및 분석
5. 결 론
1. 서 론
1.1 연구의 배경 및 필요성
건설 산업은 생산성 정체, 숙련된 인력의 은퇴로 인한 지적 자산 손실, 전통적인 2D 도면 기반 작업 방식의 비효율성 등 고질적인 문제들에 직면해 있으며 빌딩 정보 모델링(Building Information Modeling, BIM), 디지털 트윈(Digital Twin)과 같은 디지털 기술들이 혁신적인 대안으로 제시되고 있다. 이 기술들은 작업 현장과 사무실 간의 다양한 정보 교류를 가능하게 하고, 작업 효율성과 안전성을 향상시킬 잠재력을 가지고 있다. 최근의 건설 산업은 이러한 페이퍼리스(Paperless) 기반의 정보 교류 기술들을 필두로 한 디지털 전환의 흐름 속에 있다. 그러나 이와 같은 디지털 자산들의 가치는 현장 작업자가 복잡한 3D 데이터를 직관적으로 이해하고 활용할 수 있을 때 비로소 가치를 갖는다. 이러한 관점에서 증강현실(Augmented Reality, AR) 기술은 3D 모델과 같은 복잡한 데이터를 현실 공간에 직관적으로 시각화하여 정보에 대한 접근성을 극대화하는 핵심적인 차세대 사용자 인터페이스(UI)라 할 수 있다. 최근 건설 분야에서는 시공 계획 검토, 안전 관리, 교육 훈련 등 다양한 목적으로 AR 기술이 활용되고 있다.
AR 기술은 전통적인 2D 도면이나 컴퓨터 화면으로 3D 모델을 확인하는 것과 비교할 수 없는 직관적 경험을 제공할 수 있으며, 이는 복잡한 구조물의 형상을 이해하는 데 탁월한 대안이 될 수 있다. 연구에 따르면 BIM만으로는 현장의 자동화 및 데이터 활용 요구를 완전히 충족시키기 어려우며, AR과 같은 신기술과의 융합이 필수적이다(Hosamo et al., 2022). 건설 분야에 AR 기술을 도입하면 의사소통 및 협업 개선, 정보 이해도 향상, 생산성 증대, 안전성 강화, 그리고 효율적인 정보 관리 등 다양한 효과를 얻을 수 있다. 이러한 이점들은 여러 메타 분석 연구를 통해 입증되었다(Harikrishnan et al., 2021; Kolaei et al., 2022; Khan et al., 2023; Xu et al., 2024).
AR 기술의 근원적인 가치는 가상의 디지털 모델을 현실 세계의 정확한 위치에 얼마나 정밀하게 정합시키느냐에 달려 있다. 가상 모델과 실제 구조물 사이에 일정 수준 이상의 오차가 존재하게 되면, AR은 유용한 도구가 아니라 오히려 혼란을 야기하는 장애물이 될 수도 있다. Xu et al. (2024)은 3D 모델 정합 정확도를 AR 기술의 주요 기술적 장벽 중 하나로 명시하고 있으며 Kolaei et al. (2022) 또한 AR을 위한 위치 파악 과정(registration)을 건설 현장에서 AR을 사용하는 데 있어 가장 중요한 문제 중 하나로 지적한다.
1.2 연구의 목적
기존의 증강현실(AR) 정합 기술 연구는 주로 컴퓨터 비전 분야에서 수행되어 왔으며, 알고리즘의 기술적 정확도나 일반적인 사용자 경험을 평가하는 데 초점을 맞추어 왔다. 그러나 이러한 연구들은 건설 현장의 고유한 환경적 특성(대규모 구조물, 복잡한 부재 형상, 급변하는 조명 조건 및 다양한 재질 등)을 충분히 고려하지 못하는 한계가 있다. 특히, 학계에서는 새로운 알고리즘 제안이 주를 이루는 반면, 실무자가 즉시 도입할 수 있는 상용 AR 라이브러리(VisionLib, ARCore, ARKit 등)의 성능을 건설 분야의 요구사항에 맞춰 정량적으로 분석한 연구는 매우 드물다. 대부분의 선행 연구는 특정 기술의 적용 가능성을 보이는 사례적, 정성적 분석에 머물러 건설 분야 연구자나 실무자가 기술에 대한 현장 적용성을 예측하고, 실효성을 객관적으로 판단하는 데 어려움을 준다. 개발사에서 제공하는 일반적인 사양의 성능 지표만으로는 복잡하고 동적인 건설 환경에서의 안정성과 정확성을 보장할 수 없기 때문이다.
특히 건설 분야는 대규모 구조물과 복잡한 공간적 조건을 가지고 있기 때문에, 실제 현장을 대상으로 한 정합 성능 평가에는 근본적인 제약이 따른다. 구조물의 규모가 크기 때문에 실험 환경을 정밀하게 통제하기 어렵고, 반복적인 검증 역시 쉽지 않다. 이러한 한계를 극복하기 위해 본 연구는 구조물 모형을 활용하였다. 모형은 축소된 형태로 실제 건설 구조물의 주요 특성을 재현할 수 있으며, 정합 성능을 평가하기 위한 반복적 실험과 데이터 수집이 용이하다. 즉, 모형은 건설 분야의 환경적 특수성을 반영하면서도 실험적 연구를 수행할 수 있는 현실적 대안이라 할 수 있다. 나아가 본 연구는 모형 기반 실험을 출발점으로 삼아, 향후 실제 건설 구조물로 연구 대상을 확장하여 건설 분야에 특화된 정량적 평가 지표를 적용·검증하는 것을 최종 목표로 한다.
이러한 맥락에서 본 연구의 목적은 건설 분야에서 활용될 수 있는 AR 정합 기술의 성능 비교를 통해 각 기술들의 적용 가능성을 확인하고 정량적 평가 지표의 설계 가능성을 탐색하는 데 있다. 이를 위해 가장 보편적으로 사용되는 AR 정합 기술인 마커 방식과 마커리스 방식을 비교하였다. 마커리스 방식은 상용 AR 라이브러리인 VisionLib (Visometry, 2025)를 활용하여 모형 기반 AR 정합 실험을 수행하고, 초기화(Initialization)와 추적(Tracking) 단계에서의 성능을 정량적으로 측정하였다. 본 연구는 완성된 평가 체계를 제시하는 것이 아니라, 건설 맞춤형 정량적 평가 지표 개발의 필요성을 강조하고 그 가능성을 실험적으로 검토하는 파일럿 연구의 성격을 지닌다.
본 연구의 주요 기여는 다음과 같다. 첫째, 건설 분야에서 AR 정합 기술의 정량적 성능 평가의 필요성을 논의하였다. 둘째, 구조물 모형과 3D 모델 간의 정합 실험을 통해 건설 환경에서 사용 가능한 AR 정합 기술들의 성능을 정량적으로 검토하였다. 셋째, 이러한 결과를 바탕으로 건설 분야 맞춤형 정량적 평가 지표 설계의 가능성과 향후 연구 방향을 제시하였다.
2. 관련 연구
2.1 건설 분야에서의 AR 활용
최근 건설 산업에서는 BIM 기술과 AR을 융합하여 시공 검토, 작업자 교육, 안전 관리, 설계 의사소통 등 다양한 응용 사례가 보고되고 있다(Amin et al., 2023). 예를 들어, Lin et al. (2015)은 AR 기반 BIM 시각화를 통해 설계 검토 과정의 효율성을 향상시킬 수 있음을 보여주었으며, Park and Kim (2013)은 AR을 활용한 안전 교육 시스템을 구축하여 작업자의 이해도를 높이는 연구를 수행하였다. 이러한 연구들은 건설 분야에서 AR 기술이 실질적인 가치를 제공할 수 있음을 입증한다. 그러나 대부분의 연구는 AR 시스템의 개발 및 응용 가능성에 집중하였고, 정합 기술 자체의 성능을 정량적으로 분석하는 시도는 상대적으로 부족하였다.
2.2 AR 정합 기술
AR 정합 기술은 가상 객체와 실제 환경의 좌표계를 일치시키는 AR 시스템의 핵심 기술로, 초기화와 추적 단계로 구분할 수 있다. 컴퓨터 비전 분야에서는 주로 마커(marker) 기반 정합, 마커리스(markerless) 정합, 그리고 3D 모델 기반 정합 기법 등이 연구되어 왔다. 성능 평가는 보통 정합 오차, 위치 및 자세 정확도, 처리 속도 등과 같은 정량적 지표를 활용하여 이루어진다(Henderson and Feiner, 2011; Reitmayr and Schmalstieg, 2006). 대부분의 AR 응용 연구에서는 정합 성능에 대해서는 간접적으로 평가하는 경우가 많다. 예를 들어, 사용자 경험, 설문조사, 몰입감 평가, 작업 효율성(작업 시간 단축, 오류 감소 등)과 같은 정성적 지표가 활용된다. 그렇기 때문에 이러한 지표들을 통해 AR 정합 알고리즘의 기술적 성능을 직접적으로 판단하기 어렵고, 건설 현장의 특수성을 반영하는 데 한계가 있다. 이러한 맥락에서 본 연구는 모형 기반 실험으로 AR 정합 성능의 초기화와 추적 단계 성능을 정량적으로 관찰하고, 향후 건설 맞춤형 AR 정합 기술의 성능 지표 설계로 확장하기 위한 근거를 마련하고자 한다.
2.2.1 마커 기반(Marker-based)
마커 기반 방식은 특정 도면 혹은 이미지와 같은 실제 환경에 배치된 특정 물리적 마커를 이용하여 명확한 패턴을 읽어 들여 초기화 및 추적을 실행하는 방식이다. 카메라가 이러한 마커를 인식하면, 시스템은 마커의 위치와 방향을 파악하고 이를 기반으로 3D 모델을 실제 환경에 정합시킨다(Kalaitzakis et al., 2021). ARTag, AprilTag, ArUco 등은 이러한 마커 시스템의 대표적인 예시이다(Fiala, 2005; Olson, 2011; Garrido-Jurado et al., 2016; Romero-Ramirez et al., 2018). 마커 기반 AR은 컴퓨팅 과정에서 전반적으로 낮은 비용을 요구하는 효율적인 시스템으로 빠르면서도 안정적인 추적 및 정합 결과를 제공할 수 있다. 다만, 프로젝트 전반에 걸쳐 다수의 마커를 설치해야 할 필요가 있으며, 프로젝트가 진행됨에 따라 마커를 지속적으로 유지 및 관리해야 한다는 단점이 있다. 이러한 과정은 마커를 부착하는 데 추가적인 시간과 노력을 필요로 하며, 작업 부하를 증가시키고 생산성 저하를 야기할 수 있다(Xu et al., 2024).
2.2.2 마커리스(Markerless)
특징 기반(feature-based) 방식으로 대표되는 마커리스 방식은 현실 환경에 특별한 인공 마커를 설치하지 않고, 주변 환경의 고유한 시각적 특징들을 활용하여 가상 객체를 정합시키거나 객체의 자세를 추정하는 기술이다. 이 방식은 카메라로 캡처된 2D 이미지의 환경 텍스처, 코너, 에지 등과 같은 자연 특징점들을 감지하고 매칭하는 것을 기반으로 한다(Sheng et al., 2024). 구체적인 기술로는 SIFT (Scale Invariant Feature Transform)와 같은 특징점 추출 기법을 사용하여 이미지로부터 특징점들을 감지하고 일치시키거나, SfM (Structure from Motion)과 같은 SLAM(Simultaneous Localization and Mapping) 방식을 활용하여 카메라의 자세를 지속적으로 추정함으로써 환경의 3D 모델을 생성하고 가상 객체를 정합한다(Liu et al., 2016; Chen et al., 2018; Wang et al., 2018). 최근에는 다양한 환경에서의 일반적인 성능을 확보하기 위해 이미지 특징을 찾아내는 과정에서 전통적인 방식을 벗어나 매우 다양한 방식들을 적용하고 있으며 트랜스포머 기반의 특징들을 이용하는 방법도 연구되고 있다(Örnek et al., 2024). 마커 기반 AR이 특정 물리적 마커에 의존하는 것과 달리, 주변 환경 자체를 활용하는 접근 방식이기 때문에 마커의 감지 범위에 얽매이지 않고 넓은 지역이나 대규모 프로젝트 현장에서도 유연하게 적용할 수 있고, 연속적인 위치 추정이 가능하다. 하지만 텍스처와 같은 시각적 특징이 부족하거나 반사 및 조명 변화가 다양하게 일어나는 동적인 환경에서는 정합에 어려움이 있을 수 있다.
2.2.3 모델 기반(Model-based)
모델 기반 방식은 3D 모델의 형상 정보(윤곽선, 실루엣, 템플릿 등)을 직접 참조해 대상 객체의 자세를 추정하는 방식이다. 텍스처가 부족해도 대상의 윤곽선만을 활용해 초기화가 가능하기 때문에 조명 변화나 재질 영향에 있어서 다른 접근 방식들보다 상대적으로 강건하게 작동할 수 있다. 예를 들어, Comport et al. (2006)은 직선, 원, 원통, 구와 같은 도형의 윤곽선을 이미지에 투영하고 이를 통해 생성되는 이미지 오차를 최소화하는 방향으로 반복적인 계산을 통해 대상의 자세를 추정해 나가는 방식을 소개했다. Wuest and Stricker (2007)는 CAD 모델을 렌더링해 대상의 윤곽선을 생성한다. 이 윤곽선을 이미지에 투영하고, 윤곽선의 법선 방향으로 그래디언트(gradient) 최대치를 탐색해 2D-3D 대응점 집합을 구성하여 대상의 자세를 추정한다. 이러한 방법을 통해 저텍스처 및 반사가 많은 산업 환경에서도 실시간 자세 추정이 가능함을 보였다.
건설 분야에서는 CAD, BIM과 같은 정밀한 설계 모델을 활용할 수 있는 여건이 비교적 잘 갖춰져 있으므로, 형상 정보를 활용하는 모델 기반 방식을 적용하는 데 있어 유리한 측면이 있다. 다만 시공 공차, 설계 변경, 가려짐 등으로 모델과 실물 간 불일치가 발생하면 오차가 커지거나 작동이 불가해질 수도 있기 때문에 이러한 점을 고려한 초기화 과정이 무엇보다 중요하다. 본 연구에서 모델 기반 마커리스를 선택해 초기화 및 추적 성능 지표를 확인하고자 하는 이유도 여기에 있다.
본 연구에서 활용한 VisionLib 역시 이러한 모델 기반 추적 방식을 사용한다. 구체적으로, 3D 모델로부터 외곽선, 실루엣 등 형상 정보를 추출하여 '라인 모델(line model)'을 생성한다. 이후, 카메라 이미지에서 에지 픽셀(edge pixels)을 검출하고, 이미지에 투영된 라인 모델과 실제 이미지의 에지 픽셀 간의 대응 관계(correspondences)를 탐색한다. 시스템은 이 대응점들의 기하학적 오차를 최소화하는 방향으로 반복적인 최적화 과정을 거쳐 객체의 자세를 추정하게 된다. 이러한 방식은 텍스처 정보 없이 형상만으로 객체를 인식할 수 있어 건설 분야에 적합하지만, 기술적 원리에 내재된 한계가 있다. VisionLib의 모델 기반 정합 알고리즘은 3D 모델의 투영된 외곽선과 이미지 상에서 검출된 그래디언트가 높은 픽셀들을 정합시키는 원리로 작동하기 때문에 이 과정에서 알고리즘은 투영된 선의 법선 방향을 따라 가장 강한 그래디언트를 가진 픽셀을 대응점 후보로 찾는다. 하지만 실제 객체가 아닌 배경에 모델의 실루엣과 유사한 형태의 강한 에지가 존재할 경우, 알고리즘이 이를 실제 객체의 에지로 오인하여 잘못된 대응점을 형성할 수 있다.
2.3 AR 정합 기술 성능 평가
기존 AR 정합 기술들은 마커 기반, 마커리스(SLAM·특징점), 모델 기반(윤곽선, 템플릿) 등으로 각자의 접근 방식으로 각자가 전제하는 제약 조건을 활용해 대상 객체 혹은 카메라의 6자유도 자세를 추정해 왔다. 다만 이들 연구의 상당수는 AR을 위한 정합 자체보다는 특정 객체의 6자유도 자세 추정 정확도를 주목적으로 삼고 있다. 예컨대 컴퓨터 비전 분야에서는 LINEMOD (Brachmann et al., 2014), YCB-Video (Calli et al., 2015), T-LESS (Hodan et al., 2017) 등의 자세 추정을 위한 벤치마크 데이터셋과 BOP 벤치마크 챌린지(Hodan et al., 2018) 등을 통해 다양한 조명, 가려짐, 저텍스처 상황에서의 자세 추정 성능을 경쟁적으로 평가해 왔다. 지표 또한 ADD, VSD, MSSD 등 3D 좌표계 기준의 오차를 중심으로 정교하게 발전시켜 왔다(Guan et al., 2024).
이러한 흐름은 정합 알고리즘의 기술적 진보를 견인하는 데 크게 기여했지만, 사용자 화면에 실제로 표시되는 AR 정합 결과물의 품질, 즉 실제 사용자가 바라보는 화면에서 얼마나 정확하게 보이는가에 대해서는 직접적으로 평가할 수 있는 지표가 될 수 없다. 이러한 기존의 연구들은 작은 일상 소품 수준의 비교적 작은 크기의 물체를 대상으로 하고 있으며 조도, 배경, 가려짐 등의 상황을 통제하기 쉬운 소규모 실내 환경에서의 성능을 다룬다. 이와 같은 설정은 알고리즘 비교의 공정성과 반복성을 높일 수 있다는 장점이 있지만, 대형 구조물, 야외 환경 변화, 접근성 제약이 빈번하게 발생하는 건설 환경으로의 일반화 가능성을 보장하지 못한다. AR 정합 결과물의 품질 역시 마찬가지다. 작은 물체 대상의 조건 혹은 실내 조건에서의 3D 좌표계 기준 지표로 우수한 성능을 얻었다고 해도, 실제 사용자가 보는 화면에서의 정합 정확도와 시각적 일치성이 건설 현장 스케일과 환경 변화 아래에서 동일하게 확보된다고 단정할 수 없다.
2.4 건설 분야에서의 AR 정합 기술 성능 평가
이러한 관점에서 AR 정합 결과물의 화면상 품질 자체에 주목한 연구들이 등장하고 있다. Gomez-Jauregui et al. (2019)는 모바일 AR에서 사용자에게 제시되는 AR 결과물이 시각적으로 어긋나는 문제가 빈번함에도 불구하고, 그 불일치를 실제 좌표계에서 일관되게 정량화하는 방법이 부재하다는 점을 지적하고, 수학적 평가 절차를 제안하였다. El Barhoumi et al. (2022)는 건설 환경에서 AR 정합 결과물의 품질에 대한 정량적 평가 방법이 부재하다는 문제에서 출발하여 마커 기반, 마커리스, 지오레퍼런스 기반 등 여러 배치 및 정합 방식을 하나의 워크플로우 안에서 비교 및 평가하고, 각 방식의 정확도와 안정성을 수치로 제시하며 건설 분야 적용 가능성을 논의하였다.
그럼에도 불구하고 현재까지 축적된 관련 연구는 규모와 범위 면에서 여전히 제한적이며, 서로 다른 현장, 대상, 플랫폼 간에 직접 비교 가능한 대표적 정량 지표와 사례 연구가 충분히 제시되어 있지 않다. 다시 말해, AR 정합 결과물의 품질을 객관적으로 가늠할 수 있는 표준화된 정량 지표와 이를 광범위하게 검증한 벤치마크 사례가 부족하다는 한계가 남아 있다.
이러한 배경에서, 실제 건설 현장 적용을 고려하는 연구자나 실무자가 특정 AR 정합 기술을 선택할 때 참고할 수 있는 객관적이고 정량적인 비교 데이터가 부족하다는 한계가 있다. 특히, 안정성이 검증된 마커 방식과 유연성이 높은 모델 기반 방식 사이의 성능 트레이드오프(trade-off)를 실증적으로 분석한 연구는 찾아보기 어렵다. 따라서 본 연구는 축소 구조물 모형에서 두 방식을 직접 비교하고, 결과를 토대로 뷰 기반 지표의 적용 가능성을 논한다.
3. 연구 방법
3.1 초기화 및 추적 단계 성능 평가
본 연구는 구조물 모형 환경에서 대표적인 AR 정합 방식인 마커 기반 방식과 모델 기반 마커리스 방식의 성능을 정량적으로 비교 및 관찰하는 것을 목적으로 한다. 연구의 장기적인 목표는 건설 분야에 적합한 AR 기술의 실효성을 검증하는 것이며, 본 연구는 그 첫 단계로 두 방식의 핵심 단계인 초기화와 추적 단계의 성능을 정량 지표로 비교 및 관찰하는 것을 목적으로 한다.
실험에 활용된 구조물 모형은 교량 구조물 중 교각의 일반적인 형태로 제작되었으며, Figure 1(a)와 같다. 실험에 사용할 3D 모델을 바탕으로 PVC 소재로 제작되었으며, 외형 치수는 300(W)×200(D)×400(H) mm이다. 모형과 모델의 정합 과정을 수행하기 위해 모델 좌표계의 원점과 축을 모형의 기준점에 일치시켜 스케일과 방향을 사전에 교정해 두었다.
카메라 내부 파라미터(초점거리, 주점, 왜곡 계수)는 사전 캘리브레이션을 통해 입력했으며, 실험에 사용된 VisionLib 라이브러리에서 사용되는 여러 파라미터들은 모두 기본값(Visometry, 2025)을 적용하였다.
초기화 단계의 성능 평가는 몇 가지 독립변수를 설정하고, 각 조건에 따른 성능을 측정하였다. 모형과 카메라 간의 거리 , 카메라가 모형을 바라보는 관측각 𝜙, 모형과 모델 기준점 간의 초기 오프셋 𝛿를 독립변수로 설정하고, 각 조건에서 초기화 성공률 과 초기 정합 오차 를 측정한다. 초기화 실패 혹은 제외 기준은 픽셀 기반 오차 임계치로 정의한다. 관측각은 카메라가 모형을 바라보는 시점각을 수치화한 값이며, 본 연구에서는 로 설정하였다. 는 정면 관측, 𝜙가 커질수록 사선 관측이 된다.
초기화에 성공했을 때와 추적 과정에서의 성능 평가를 위한 모형과 모델의 정합 오차는 픽셀 단위로 계산하였다. 모형과 모델에서 공통되는 대응점들을 설정하고, 해당 대응점들 간의 픽셀 오차를 계산하였다. Figure 1(b)에서 보이는 바와 같이 모형과 모델 간의 대응점들은 대상의 모서리 부분들로 설정했으며 그 개수는 총 20개다.
초기화와 추적 단계에서의 정확도를 평가하기 위한 지표로 정합 오차를 사용하였다. 정합 오차는 실제 모형과 3D 모델에 설정된 대응점들 간의 이미지 내에서의 픽셀 단위 평균 절댓값 오차로 산출하였다. 대응점 집합에 대해 프레임 에서의 평균 절댓값 오차(MAE)는 다음 수식 1과 같이 정의한다.
여기서 는 초기화, 추적 과정에서 추정된 자세로 이미지 상에 투영된 3D 모델의 각 대응점들의 픽셀 좌표이고, 는 기준(ground truth) 픽셀 좌표이다. 기준 픽셀 좌표는 실험에 사용된 모든 영상 프레임에 대해 수작업을 거쳐 레이블링되었다. 초기화 평가에서는 각 위치에서 촬영된 한 개 이미지의 평균 오차 로 초기화 단계에서의 정합 품질을 판단하고, 추적 평가에서는 초기화 단계에서와는 달리 시나리오별로 촬영된 영상으로부터 시계열 를 종합해 정확도를 판단한다.
3.2 초기화 단계 실험 설정
각 관측 거리 와 관측각 𝜙의 조합(총 9개 경우)에 대해 동일한 배치 및 촬영 조건을 유지하고, 𝛿 수준을 변화시키며 반복 시도 30회를 수행한다. 와 𝜙에 따른 모형과 카메라의 위치 구성은 Figure 2와 같다. 초기화 단계 성능 평가 실험은 아래의 절차에 따라 진행하였다.
1.각 조건에서 촬영된 영상을 이미지 입력으로 하여 VisionLib 알고리즘에 제공한다.
2.VisionLib 알고리즘이 작동하면 오프셋 𝛿가 최대값부터 0.01 m 단위로 감소하며 수렴 조건에 도달할 때까지 대기하고, 실패할 경우 조건을 변경한다.
3.초기화에 성공하면 해당 프레임에서의 평균 오차 와 오프셋 𝛿를 기록한다.
4.거리와 관측각에 대한 조합에 따라 각 30회 씩 실험을 반복한다.
모델 기반 정합 방식의 특성상 알고리즘 내부적으로 초기화에 성공했다고 판단하는 경우에도 실제로는 정합되었다고 판단하기에는 품질에 못 미치는 경우들이 발생할 수 있으므로, 이런 결과들은 기준에 따라 실패로 간주하였다. 이때의 기준은 ≥10 pixel(이하 px)로 설정하였다. 이 기준을 정합 정확도 품질 기준으로 정의했으며 이러한 기준을 정한 이유는 다음과 같다.
VisionLib의 정합 알고리즘은 모델 기반 방식으로, 모델의 실루엣을 기반 정보로 하여 입력 영상에서 이미지 특징들을 모델의 실루엣과 비교하여 정합을 시도한다. 이미지 특징 비교 과정에서는 픽셀 단위 그래디언트를 기준으로 활용하는데, 입력 영상의 배경에서 실루엣과 유사한 그래디언트 패턴이 반복되는 경우에는 오탐이 발생할 가능성이 있다. 여러 파라미터들을 조정하여 이러한 현상을 방지할 수 있으나 알고리즘의 특성상 최적의 파라미터를 찾아 설정하더라도 오탐의 가능성을 완벽히 배제할 수는 없다. 따라서, 이러한 오탐 결과를 최대한 배제하기 위해 일정 수준 이하의 정합 정확도를 보이는 경우는 정합 실패로 간주하였다.
정합 실패로 간주하기 위한 정합 정확도의 기준은 마커 기반 방식의 정합 성능 실험 결과를 활용하여 마련하였다. 먼저, 9개의 모든 실험 조건에서 마커 기반 방식의 평균 픽셀 오차를 측정한 결과, 전체 평균 오차는 6.76 px를 기록했다. 전체 실험 결과는 Table 1에 표기하였다. 본 연구에서는 이 값을 기준으로, 마커 방식 대비 모델 기반 방식의 성능이 현저히 낮은 경우를 실패로 간주하여 두 방식 간 유의미한 비교가 이루어지도록 하고자 하였다. 이를 위해 마커 기반 평균 오차에 약 50%의 허용 마진을 더한 10 px (≈ 6.76 px × 1.5)을 최종 임계값으로 설정하고, 모델 기반 방식의 초기화 결과가 이 값을 초과할 경우 실패로 분류하였다.
Table 1.
Mean absolute error from marker-based registration results
3.3 추적 단계 실험 설정
초기화 성능이 순간의 정합 성공 여부와 품질을 주로 다루는 반면, 추적 성능은 시간을 따라 연속적으로 변화하는 관측 조건에 의해 결과가 좌우된다. 하지만 카메라 움직임, 피사체 가려짐, 텍스처 변화, 자연스러운 조명 변동, 모션 블러 등의 모든 조건에 대한 실험을 진행하기는 어렵다고 판단하였다. 따라서 본 연구에서는 추적 성능을 측정하기 위해서 다양한 환경 변화가 반영될 수 있는 몇 가지 시나리오로 구성된 영상들을 촬영하여 실험 데이터로 사용하였다.
각 시나리오는 모형을 다양한 관찰 조건 하에서 촬영하도록 구성하였다. 주된 요소는 배경에 존재하는 트래킹 방해 요소와 카메라의 이동 속도다. 이 두 가지 조건을 달리할 수 있도록 총 5개의 시나리오를 구성하고, 각 시나리오는 30 fps로 10 초 이상의 길이로 촬영되었으며 그 길이는 조금씩 다르지만 300 frame 이상의 분량을 갖는다. 각 시나리오별 영상의 구성은 다음 Table 2와 같다.
Table 2.
Tracking scenarios and acquisition conditions for the video dataset
| Scenario | Frames | Tracking interference | Camera speed | |
| Level | Clutter index | |||
| 01 | 303 | Low | 0.64% | Normal |
| 02 | 313 | Low | 0.71% | Normal |
| 03 | 300 | Medium | 6.16% | Normal |
| 04 | 319 | Medium | 7.72% | Slow |
| 05 | 502 | High | 29.15% | Normal |
각 시나리오의 핵심 변수인 ‘트래킹 방해 요소’는 VisionLib 알고리즘의 기술적 특성을 고려하여 설계되었다. 2.2.3절에서 설명한 바와 같이, 모델 기반 방식은 객체의 외곽선과 이미지의 에지 픽셀을 대응시켜 자세를 추정한다. 이러한 원리에 기반하여, 본 연구는 실제 객체가 아닌 배경에 에지가 많을수록 잘못된 대응점을 형성하여 추적 성능을 저해할 것이라는 가설을 세웠다. 이에 따라 트래킹 방해 요소를 배경의 에지 분포 정도에 따라 저/중/고(Low/Medium/High)로 분류하였다. 에지 분포 정도는 이미지 전체 픽셀에 대한 에지 픽셀의 비율로 정량화하였다. 측정의 일관성을 위해 모든 시나리오 영상에 동일한 임계값을 적용한 에지 검출 필터를 일괄적으로 사용하였다.
‘카메라 이동 속도’는 특수한 장비를 활용해 매 순간 정밀하게 제어하지는 못하였으나, 영상 내에서 대상 객체가 이동하는 평균 픽셀 속도를 기준으로 느린 속도(Slow)와 중간 속도(Normal)로 구분하여 시나리오를 구성하였다. 이때, 촬영 각도 및 대상과의 거리는 초기화 실험과 달리 특정 값으로 통제하지 않았다. 추적 성능은 사용자가 객체를 중심으로 자유롭게 움직이는 동적인 상황에서 더 중요한 지표이므로, 고정된 시점에서 측정하기보다 다양한 환경 변화를 최대한 반영하는 것이 더 현실적인 성능 검증이라 판단했기 때문이다. 다만, 객체가 화면 밖으로 완전히 벗어나거나 육안으로도 각 부재를 구분하기 어려울 정도로 작아지는 극단적인 상황(약 3m 내외)은 실험에서 배제하였다.
추적 단계에서는 초기화의 영향을 배제하고 추적 성능만을 분리해 보기 위해, 각 영상의 첫번째 프레임에서 사용자가 입력 가능한 가장 정확한 자세를 VisionLib에 입력하고 이를 정답(initial ground) 자세로 설정한다. 추적 정확도는 모형과 모델에서 정의된 대응점 20개를 기준으로 평가한다. 이 대응점들은 초기화 단계에서 설정된 대응점들과 동일한 구성이다. 초기 프레임에서는 사용자가 주입한 정답 자세를 바탕으로 모델 투영을 생성하고, 매 프레임들에 대해서 자동 트래킹을 통해 프레임 에서의 각 대응점의 투영된 픽셀 좌표 를 집계한다. 이렇게 VisionLib을 통해 추정된 자세로부터 계산된 각 픽셀 좌표들은 각 프레임의 기준 좌표(ground truth) 와 비교하여 초기화 성능 평가에서와 마찬가지로 수식 1에 의해 매 프레임 단위로 평균 오차를 계산한다.
본 연구의 추적 성능 분석은 두 방식의 직접적인 비교 대신 모델 기반 마커리스 방식의 성능을 심층적으로 관찰하는 데 집중하였다. 이는 두 방식의 추적 성능 저하 양상이 질적으로 다르기 때문이다. 마커 기반 방식의 추적 성능은 마커가 시야 내에 명확히 인식되는 동안에는 오차가 매우 낮은 안정적인 상태를 유지하다가, 마커가 가려지거나 시야를 벗어나는 순간 추적이 완전히 실패하는 이진적인 특성을 보인다. 반면, 모델 기반 방식은 카메라의 움직임, 조명 변화 등 외부 환경 요인에 따라 오차가 점진적으로 증가하거나 불안정해지는 점진적 성능 저하 특성을 나타낸다. 따라서 두 방식의 핵심적인 성능 차이가 초기화의 신뢰성(마커)과 추적의 점진적 안정성(모델 기반)에 있다고 판단하고, 본 연구에서는 실증적 데이터가 더 필요한 후자의 성능을 심층적으로 분석하는 데 초점을 맞추었다.
4. 실험 결과 및 분석
초기화 단계에서는 거리 와 관측각 의 9개 조합 각각에 대해 30회 씩 총 270회의 초기화 실험을 수행하였다. 각 조합별 평균 오차 (수식 1), 초기화 성공률 , 그리고 초기화 시점의 오프셋 𝛿를 Table 3에 정리하였다. 이 표에서 , 는 각각 정합 정확도 품질 기준에 따른 실패 경우들을 제외한 뒤, 초기화에 성공한 경우들에 대해서만 데이터를 집계한 값이다.
Table 3.
Initialization comparison (Marker vs Markerless)
초기화 결과 분류는 마커 기반 평균 오차를 기준으로 삼아 이루어졌다. 즉, 초기화가 알고리즘 상으로는 성공했다고 판단하더라도 ≥6.76 이면 초기화에 실패한 것으로 간주하였다. 그 결과, 270회 중 122회가 성공, 148회가 제외로 집계되었다(성공률 45.2%). 참고로, 동일한 270회의 시도에서 마커 기반 방식의 초기화 성공률은 100%로, 모든 경우에서 안정적으로 초기화에 성공하였다. 주목할 점은 알고리즘 상으로 완전 실패에 해당하는 사례가 한 건도 없었다는 것이다. 다시 말해, 제외로 분류된 148회는 모두 오차 기준에 미달하여 배제된 경우에 해당한다. Figure 3(a)는 초기화에 성공한 경우, Figure 3(b)는 실패로 분류된 경우에 해당하는 예시다.
Table 3의 실패 사례를 제외한 결과(w/o failed cases)를 분석한 결과, 전반적으로 거리 와 관측각 𝜙가 커질수록 초기 프레임의 오차가 증가하는 경향을 확인하였다. 분류 기준을 보수적으로 설정했음에도 성공군 내에서의 거리와 관측각에 따른 품질 저하율이 마커에 비해 상대적으로 낮다는 점을 확인할 수 있다. 모델 기반 방식이 마커 기반 방식과 비교하여 관측 조건 변화에 비교적 덜 민감하다고 해석할 수 있다. 성공군에서 관측된 평균 오프셋 𝛿는 0.06 m 수준으로, 이는 실험 조건하에서 VisionLib 초기화의 초기화 성공 범위가 비교적 협소함을 나타낸다. 알고리즘의 특성상 실제 객체와 3D 모델의 이미지상 위치가 충분히 근접해야 성공적인 초기 정합이 이뤄지며, 초기 오프셋이 큰 경우에는 시스템상으로 초기화가 완료되었다고 보고하더라도 오탐 결과일 가능성이 높다. 따라서 VisionLib은 초기화 단계에서 고품질의 초기화 결과를 보장하지는 못하며, 이에 따라 안정적인 추적을 가능케 하기 위해서는 초기화 단계에서 사용자의 확인 및 개입이 필요하다고 볼 수 있다.
추적 실험에서는 각 시나리오별 영상 5개에 대하여 각각 결과를 정확도를 집계하였다. 해당 결과는 다음 Table 4와 같다. 사용된 라이브러리의 특성상 모든 프레임에 대한 정합 결과를 실시간으로 추출할 수 없어, 전체 1,737개 프레임 중에서 렌더링이 완료되어 결과가 계산된 일부 프레임 487개만을 샘플링하여 분석하였다.
Table 4.
Tracking results
| Scenario | Results count | Correspondences count |
Mean Absolute Error (pixel) |
| 01 | 83 | 1,007 | 3.84 |
| 02 | 85 | 1,112 | 3.52 |
| 03 | 92 | 1,188 | 3.05 |
| 04 | 100 | 1,444 | 3.66 |
| 05 | 127 | 1,601 | 3.21 |
| All | 487 | 6,352 | 3.46 |
본 연구에서 정합 품질의 기준으로 제시한 10 px 임계값을 기준으로, 각 시나리오에서 결과가 집계된 프레임들의 평균 오차는 임계의 절반 이하에 머물렀고, 전체 평균 역시 같은 범주에 속하였다. 이는 초기화 단계에서 정답 자세를 입력해 올바른 초기 상태를 보장해 주기만 하면, 이후의 추적 구간에서는 VisionLib의 모델 기반 마커리스 추적이 다양한 관찰 조건과 장면 변화에도 불구하고 비교적 안정적인 정합 상태를 유지한다는 의미로 해석될 수 있다. 시나리오별로 집계된 정확도에서 어느 정도 편차가 존재하기는 했으나 추적에 실패하거나 정합 정확도 품질 기준에 미달되는 경우는 없었다. 또한, 그 오차는 모두 5 px을 넘지 않아 조건 변화에 따른 평균 성능 저하가 제한적이었고, 결과적으로 AR 정합 시스템의 운영 관점에서 충분한 여유 마진을 확보했다고 해석할 수 있다. 다만, 이 결과가 전체 추적 구간의 성능을 완벽히 대변한다고 단정할 수는 없다. 비록 결과가 집계된 구간에서는 추적 실패나 품질 기준 미달 사례가 발견되지 않았으나, 샘플링으로 인해 집계되지 못한 프레임에서의 일시적인 추적 불안정성이나 실패 가능성을 완전히 배제할 수는 없다는 한계가 있다. 다만, 본 연구의 시나리오에는 대상 객체의 일부가 가려지거나, 촬영 시야에 객체의 일부만 들어오는 경우와 같은 극단적인 상황이 포함되지 않았다. 이는 실제 대규모 구조물에서 빈번히 발생하는 문제로, 모델 기반 방식의 실용성을 확인하기 위해 반드시 검증이 필요한 부분이다. VisionLib과 같은 모델 기반 방식은 원리상 객체의 전체적인 형상 정보를 활용하므로, 정보가 부족한 이러한 상황에서는 정합 결과를 생성하지 못하거나 정확도가 크게 저하될 수 있다. 본 연구에서는 이러한 가혹 조건에서의 성능을 평가하기에 앞서, 통제된 환경에서 기술 자체의 기본적인 추적 성능을 먼저 확인하고자 하였기에 해당 시나리오를 의도적으로 배제하였다. 후속 연구에서는 더 다양한 상황들을 포함한 시나리오 구성을 통해 정합 알고리즘 자체뿐 아니라 이를 보조하기 위한 다양한 보조 기능들과의 복합적인 작동 상황에서의 정확성과 견고성을 보완적으로 평가할 필요가 있다. 그럼에도 현재의 결과만으로도, 실제 적용에서 초기화 품질을 확보할 수 있는 방식과 절차를 적절히 따른다면 추적 단계의 유지 성능은 충분히 안정적일 수 있다는 점은 분명하다.
5. 결 론
본 연구는 BIM, 디지털 트윈과 같은 디지털 자산의 현장 활용 가치를 극대화하는 핵심 사용자 인터페이스인 증강현실 기술에 사용되는 AR 정합 기술에 주목하였다. AR 기술의 근원적인 가치가 가상 모델과 실제 구조물 간의 정밀한 정합(Registration)에 달려 있음에도 불구하고, 기존 연구는 주로 알고리즘 자체의 기술적 정확도나 일반 사용자 경험 평가에 머물러 건설 현장의 고유한 환경적 특수성을 반영한 정량적 성능 분석이 부족하다는 한계를 제기하였다. 이에 본 연구는 건설 현장에 즉시 도입 가능한 상용 모델 기반 AR 라이브러리(VisionLib)의 실증적 성능을 분석하고, 건설 분야에 특화된 정량적 평가 지표 설계 가능성을 탐색하는 것을 목적으로 하였다.
이를 위해 본 연구에서는 건설 구조물 모형을 활용하여 모델 기반 마커리스 정합 방식의 핵심 단계인 초기화 및 추적 단계의 성능을 정량적으로 측정하였다. 특히, 2D 디스플레이를 통해 사용자에게 보여지는 이미지에서의 정확도와 정밀도가 중요함을 고려하여, 모형과 3D 모델 간 대응점들에 기반한 평균 픽셀 오차 를 주요 정량 지표로 사용하였다. 또한, 마커 기반 정합 방식의 평균 오차(6.76 px)를 바탕으로 보수적인 정합 정확도 품질 기준(10 px)을 설정하여 성능을 검증하였다.
초기화 단계의 실험 결과, 270회 시도 중 최종적으로 45.2%의 성공률(122회 성공, 148회 기준 미달로 제외)을 보였다. 성공 사례들의 초기 오프셋 𝛿는 평균 0.06 m 수준으로 관측되어, 해당 라이브러리가 추적 단계에서 안정적인 성능을 보장하기 위해서는 비교적 협소한 초기화 범위 내에서 고품질의 초기화 결과를 확보해야 함을 시사한다. 다만, 성공군 내에서는 거리 와 관측각 𝜙이 증가함에도 불구하고 정합 품질 저하율이 마커 기반 방식에 비해 상대적으로 낮아, 모델 기반 방식이 관측 조건 변화에 비교적 덜 민감할 수 있음을 확인하였다.
추적 단계의 실험에서는 정답 자세를 입력하여 초기화 과정을 배제하고 추적 모듈 단독의 성능을 관찰하였다. 분석 결과, 5개의 시나리오에서 평균 오차는 모두 정합 정확도 품질 기준(10 px)의 절반 이하에 머물렀으며, 이는 올바른 초기 상태가 보장된다면 모델 기반 마커리스 추적이 다양한 관찰 조건에서도 비교적 안정적인 정합 상태를 유지할 수 있음을 의미한다. 비록 평균값만으로는 일시적인 정합 손실이나 불안정성을 포착하는 데 한계가 있을 수 있으나 현재의 결과는 실제 현장 적용 시 초기화 품질만 확보된다면 추적 단계의 유지 운용은 충분히 안정적이고 예측 가능하다는 점을 명확히 보여준다.
이러한 결과들을 종합할 때, 본 연구의 주요 기여는 다음과 같다. 첫째, 건설 현장 적용을 목적으로 마커 기반 방식과 상용 모델 기반 마커리스 방식의 성능을 정량적 지표(평균 픽셀 오차)를 통해 직접 비교한 실증적 연구라는 점이다. 이를 통해 각 방식의 장단점을 객관적 데이터로 제시하였다. 둘째, 모델 기반 정합 방식의 좁은 초기화 범위와 안정적인 추적 성능 간의 트레이드오프 관계를 실증적으로 규명하였다. 실험 결과, 모델 기반 방식은 초기화만 정확히 보장된다면 다양한 환경 변화 속에서도 안정적인 추적이 가능했지만, 초기화 성공 조건 자체가 매우 협소함(평균 오프셋 0.06m)을 확인하였다. 셋째, 이러한 비교 분석 결과를 바탕으로 향후 건설 분야에 특화된 AR 정합 성능 평가에 고려되어야 할 핵심 요소들을 제시했다는 점이다. 단순히 3D 좌표계 오차뿐만 아니라, 초기화 성공 범위, 다양한 관측 조건(거리, 각도)에 따른 성능 변화, 추적 안정성 등을 종합적으로 측정하는 것이 중요함을 본 연구 결과가 시사한다.
물론 본 연구는 정밀하게 제어된 구조물 모형을 대상으로 하여 실제 건설 현장에서 발생하는 급변하는 조명, 복잡한 배경에 의한 가려짐, 다양한 부재의 재질 및 텍스처 변화와 같은 환경적 특수성을 온전히 반영하지 못하는 명백한 한계를 갖는다. 또한, 추적 성능 평가가 평균 오차에 국한되어 시계열에서의 일시적인 추적 실패 가능성이나 재초기화 필요성을 야기하는 변동성을 충분히 포착하지 못했다는 제약이 있다. 따라서 후속 연구에서는 건설 현장 특수성이 반영된 실험 환경을 구성하여 모델 기반 AR 정합 방식이 실제로 이러한 환경에서 다른 방법들보다 강건하게 작동하는지 확인하고, 연구 대상을 실제 건설 구조물로 확장하여 실증적 데이터를 확보해야 하며, 성능 평가를 위한 시나리오 구성을 더 다양하게 구성해야 할 필요가 있다. 또한, 지표를 보완하여 분산, 신뢰구간, 임계 내 비율, 그리고 재초기화 및 손실 관련 지표 등을 함께 제시함으로써 시간적 견고성을 종합적으로 평가할 필요가 있다. 이러한 추가적인 연구를 통해 건설 현장의 요구사항에 특화된 정량적 AR 성능 평가 체계를 완성할 수 있을 것이다.





