1. 서 론
1.1 연구의 배경
1.2 연구 목적
1.3 연구 방법
2. 이론적 배경 및 선행연구
2.1 BIM 연구 동향 분석의 필요성
2.2 선행연구 고찰
3. 연구 방법론: LDA와 BERTopic 기반 통합 분석
3.1 데이터 수집 및 전처리
3.2 통합 토픽 모델링 설계
3.3 분석의 신뢰성 및 한계
4. LDA 및 BERTopic 기반 BIM 기술 흐름 분석
4.1 시계열 흐름 분석: LDA 기반 BIM 연구 동향
4.2 단계별 기술 응용 분석: 설계-시공-운영
4.3 BERTopic을 활용한 주제 간 연결 구조 분석
4.4 국내 BIM 연구와 국외 건설 디지털 기술 연구의 특성 분석
5. 결 론
5.1 주요 연구 결과
5.2 연구의 시사점 및 기여도
5.3 연구의 한계
1. 서 론
1.1 연구의 배경
BIM (Building Information Modeling)은 건축물의 전체 생애주기에 걸쳐 설계, 시공, 운영, 유지관리 등 다양한 단계에서 정보를 통합하고 활용할 수 있는 핵심 기술로 자리 잡았다. 초기 BIM은 3차원 모델링 중심의 설계 도구로 활용되었으나, 최근에는 인공지능(AI), 시뮬레이션, 클라우드, 센서 기술 등과 융합되며 그 응용 범위가 건설 산업 전반으로 확장되고 있다. 이러한 기술적 진화는 BIM이 단일 도구를 넘어 다단계 기술 생태계의 플랫폼으로 변화하고 있음을 의미한다. 특히 국내에서는 BIM 도입을 촉진하기 위한 정책적 지원이 확대되고 있으며, 민간 부문에서도 대형 프로젝트를 중심으로 공정 최적화, 공기 단축, 비용 절감 등의 효과가 보고되고 있다(Kang, 2024).
그러나 현재까지의 BIM 연구 동향 분석은 주로 단일 기술이나 특정 시점에 국한되어 이루어지는 경우가 많았으며, 기술이 건설 프로젝트의 각 단계에서 실제로 어떤 역할을 수행해왔는지를 종합적으로 분석한 연구는 부족한 실정이다. 특히 설계(Design), 시공(Construction), 운영(Operation)이라는 건설 프로젝트의 핵심 단계별로 BIM 기술이 어떻게 적용되고 발전해 왔는지에 대한 시계열적 분석과 구조적 이해가 필요하다. 이러한 단계별 접근은 BIM 기술이 각 단계에서 해결하고자 하는 문제와 창출하는 가치가 다르므로 더욱 중요하다. 또한 BIM의 도입 시기와 제도적 기반이 다른 국내와 국외에서는 BIM 및 건설 디지털 기술에 관한 연구 접근법이 다르게 발전해 왔다. 국내에서는 BIM 기술 자체의 도입과 표준화에 집중한 연구가 주를 이루는 특징이 있고, 국외에서는 BIM을 포함한 건설 디지털 기술 전반의 융합적 접근이 활발하다. 이러한 접근법의 차이는 단순한 우열의 문제가 아니라, 각 지역의 건설 산업 환경, 기술 도입 시기, 제도적 기반의 차이를 반영하는 것으로 해석해야 한다. 이는 단순한 기술 도입을 넘어 각 국가의 건설 산업 환경과 정책적 맥락이 BIM 기술의 발전 방향에 영향을 미치고 있음을 시사한다. 따라서 국내외 연구 동향을 비교 분석함으로써 각 지역의 특성과 전략적 차이를 파악하는 것이 필요하다.
최근 텍스트 마이닝 기법의 발달은 이러한 복잡한 연구 동향을 체계적으로 분석할 수 있는 방법론적 가능성을 제시하고 있다. 특히 LDA (Latent Dirichlet Allocation)를 통한 시계열 주제 분석과 BERTopic (BERT-based Topic Modeling)을 통한 문맥 기반 의미망 분석은 기존의 정성적 문헌 분석이 포착하지 못한 패턴을 정량적으로 도출할 수 있다. Park (2020)은 세무 분야에서 LDA와 BERT 모델을 활용하여 구조와 의미의 결합 가능성을 제시한 바 있으나 BIM 분야에서 이러한 방법론을 통합적으로 적용하여 설계 시공 운영 단계별 분석을 수행한 연구는 찾아보기 어렵다.
따라서 본 연구는 2000년부터 2024년까지 발표된 국내외 BIM 관련 논문을 대상으로, 설계 시공 운영 3단계로 구분하여 기술 적용 흐름을 실증적으로 분석하고자 한다. 구체적으로 LDA를 통해 단계별 시기별 연구 주제의 변화를 정량적으로 도출하고, BERTopic을 통해 기술적 의미군의 구조를 문맥기반으로 해석한 후, 두 분석 결과를 통합적으로 검토할 것이다. 이를 통해 BIM 기술이 각 단계에서 어떻게 진화해 왔는지, 그리고 각 지역의 고유한 연구 특성과 발전 방향을 규명하고자 한다.
1.2 연구 목적
본 연구의 목적은 텍스트 마이닝 기법을 활용하여 다음과 같은 분석을 수행하는 것이다. 주 연구로 국내 BIM 연구의 25년간 시계열적 진화 패턴과 단계별 특성 분석을 진행하는 것이고 보조 연구로써 국외 건설 디지털 기술 연구의 개괄적 동향을 파악하는 것이다. 방법론적으로 LDA와 BERTopic을 결합한 기술 동향 분석 프레임 워크 제시하고자 한다. 본 연구는 두 데이터 셋의 직접적 수치 비교보다는, 각각이 보여주는 고유한 연구 특성과 방법론적 유효성 검증에 주목한다. 이를 통해 BIM 기술 분야의 연구 흐름과 주제 진화 양상을 체계적으로 파악하고자 한다.
첫째, 국내 BIM 연구와 국외 건설 디지털 기술 연구의 각각의 특성을 대상으로 논문을 수집하여 시계열 텍스트 데이터베이스를 구축하고, LDA와 BERTopic을 활용한 통합 분석 프레임워크를 설계한다.
둘째, LDA를 활용하여 5년 단위 시계열 구간별 주제 흐름을 도출하고, 국내 저널과 국제 저널 간의 토픽 구성과 변화 패턴을 비교 분석한다.
셋째, 설계-시공-운영 단계별로 주요 키워드의 출현 빈도와 시간적 변화를 분석하여 각 단계에서의 기술 발전 양상을 파악한다.
넷째, BERTopic을 통해 문맥 기반의 주제 클러스터 구조를 시각화하고, 국내외 연구의 주제 간 연결성과 융합 특성을 비교한다.
본 연구는 기존의 단편적인 키워드 빈도 분석을 넘어서 정량적 토픽 분석과 의미적 구조 분석을 결합함으로써 BIM 기술 연구 동향의 다차원적 이해를 도모하고자 한다. 이러한 분석 결과는 BIM 기술분야의 현황을 체계적으로 파악하고 향후 연구 방향을 모색하는데 기초 자료로 활용될 수 있을 것이다.
1.3 연구 방법
본 연구는 2000년부터 2024년까지 발표된 BIM 관련 학술 논문을 대상으로 LDA와 BERTopic을 결합한 텍스트 마이닝 분석을 수행한다.
첫째, 국내외 BIM 관련 학술 논문을 체계적으로 수집하여 시계열 텍스트 데이터 베이스를 구축한다.
둘째, LDA를 활용하여 5년단위 시계열 구간별 주제 흐름을 도출하고 국내 저널과 국제 저널 간의 토픽 구성과 변화 패턴을 비교 분석한다.
셋째, 설계-시공-운영 단계별로 주요 키워드의 출현 빈도와 시간적 변화를 분석하여 각 단계에서의 기술 발전 양상을 파악한다.
넷째, BERTopic을 통해 문맥 기반의 주제 클러스터 구조를 시각화하고, 국내외 연구의 주제 간 연결성과 융합 특성을 비교한다.
상세한 데이터 수집 전략, 전처리 과정, 분석 방법론은 3장에서 기술한다.
1.3.1 데이터 수집 및 전처리
국내 저널 문헌은 한국학술지인용색인(KCI)에서 ‘BIM’을 주요 키워드로 하여 수집하였으며, 국제 저널 문헌은 ScienceDirect 데이터베이스에서 건설 분야 AI 및 디지털 기술 관련 복합 키워드로 수집하였다.
본 연구는 초기 설계에서 국내외 BIM 연구의 직접 비교를 목표로 하였으나, 데이터 수집 과정에서 다음과 같은 제약이 발견되었다.
국내 학술 데이터베이스에서는 ‘BIM’ 중심의 키워드가 적절하나, 국외 데이터베이스에서는 건설 디지털 기술이 더 포괄적 개념으로 사용됨으로 인해 동질적 비교 대상 구성에 한계가 발생한다.
따라서 본 연구는 다음과 같이 접근법을 조정하였다.
국내 데이터는 BIM 연구의 심층 분석(주 분석 대상)으로 국외 데이터는 건설 디지털 연구의 참고적 검토 진행하고 직접 비교보다는 각각의 고유 특성 규명을 분석 목적으로 두고 있다.
이러한 한계에도 불구하고, 본 연구가 제시하는 LDA-BERTopic 통합 분석 방법론과 25년 장기 시계열 분석은 향후 기술 동향 연구에 기여할 것으로 기대된다.
수집된 문헌의 제목, 초록, 키워드를 결합하여 분석 대상 텍스트를 구성하였다. 전처리 과정에서는 불용어 제거, 소문자 변환, 특수문자 제거 등의 표준화 작업을 수행하였다. 또한 ‘study’, ‘research’, ‘method’ 등의 일반적 학술 용어와 함께 도메인 특정 불용어를 제거하여 분석의 정확도를 향상시켰다.
1.3.2 분석 방법론
본 연구에서는 LDA (Latent Dirichlet Allocation)와 BERTopic을 각각 독립적으로 적용하여 서로 다른 관점에서 연구 동향을 분석하였다.
LDA 분석에서는 각 시기-지역 조합(총 10개 단위)을 독립적인 코퍼스로 처리하였으며, 비교 일관성을 위해 토픽 수를 3개로 고정하였다. 시계열 비교를 위해서는 인접 구간 간 코사인 유사도를 기반으로 헝가리안 알고리즘을 적용하여 토픽 정렬을 수행하였다. 각 토픽의 상대적 중요도는 상위 5개 키워드의 확률 합을 정규화한 가중치로 산출하였다.
BERTopic 분석에서는 BERT 기반 문맥 임베딩을 통해 문서 간 의미적 유사성을 고려한 클러스터링을 수행하였다. UMAP을 활용한 차원 축소와 HDBSCAN을 통한 클러스터링을 통해 주제 간 연결 구조를 시각화 하였다.
1.3.3 단계별 분석
건설 생애주기에 따른 기술 적용 특성을 파악하기 위해 수집된 문헌을 설계, 시공, 운영 단계로 분류하였다. 분류는 각 문헌의 키워드와 초록 내용을 기반으로 수행하였으며 ‘design’, ‘modeling’, ‘simulation’ 등은 설계 단계, ‘construction’, ‘management’, ‘safety’ 등은 시공 단계, ‘operation’, ‘maintenance’, ‘facility’ 등은 운영 단계로 분류하였다. 단계별 키워드 출현 빈도는 백만 토큰당 빈도(PPM)로 정규화하여 비교하였다.
본 연구는 LDA와 BERTopic이라는 서로 다른 텍스트 마이닝 기법을 병행 적용함으로써 국내외 건설 기술 연구 동향의 정량적 변화 패턴과 의미적 연결 구조를 다각도로 분석하고자 한다. 다만 국내외 검색 전략의 차이로 인해 직접적 비교에는 한계가 있으나, 각 지역의 건설 기술 연구 특성과 발전 방향을 파악하는 데는 의미가 있을 것으로 기대된다.
2. 이론적 배경 및 선행연구
2.1 BIM 연구 동향 분석의 필요성
BIM (Building Information Modeling)은 건축물의 전 생애주기를 포괄하는 디지털 정보 모델링 기술로서, 기획·설계·시공·운영·유지관리 등 모든 단계에서의 정보를 통합적으로 관리하고 활용할 수 있는 핵심 기반 기술로 자리 잡고 있다. BIM 기술은 2000년대 초반 3차원 모델링 중심의 시각화 기능에서 시작하여 이후 설계 변경 관리, 시공 시뮬레이션, 유지관리 최적화 등으로 응용 범위가 확대됐다.
특히 최근에는 BIM이 인공지능, 사물인터넷, 디지털 트윈 등 첨단 기술과 융합되며 기술의 외연이 급속히 확장되고 있다. 생성형 AI를 활용한 설계 자동화, 컴퓨터 비전 기반 시공 품질 관리, IoT 센서와 연계된 실시간 시설 모니터링 등 다양한 융합 기술에 실제 프로젝트에 적용되고 있다(Kang, 2024). 이러한 급속한 기술 발전과 응용 범위의 확장은 BIM 관련 연구의 양적 증가와 주제의 다변화를 초래하고 있다.
방대한 BIM 관련 문헌의 체계적 분석을 통해 기술 발전의 흐름과 연구 동향을 파악하는 것은 여러 측면에서 중요하다. 첫째, 연구자들에게는 현재까지의 연구 성과를 종합적으로 이해하고 향후 연구 방향을 모색하는데 도움이 된다. 둘째, 산업계에서는 기술 발전 방향을 예측하고 투자 전략을 수립하는데 유용한 정보를 제공한다. 셋째, 정책 입안자들에게는 기술 발전 단계를 파악하고 적절한 지원 정책을 수립하는 데 필요한 근거 자료를 제공할 수 있다.
2.2 선행연구 고찰
2.2.1 BIM 연구 동향 분석 관련 선행연구
앞서 논의한 BIM 연구 동향 분석의 필요성에 따라, 연구자들은 방대한 문헌 데이터를 체계적으로 분석할 수 있는 방법론을 지속적으로 발전시켜 왔다. 특히 BIM 기술의 확산과 연구량의 증가로 인해 기존의 정성적 문헌 고찰만으로는 한계가 드러나면서, 정량적 분석 기법의 도입이 본격화되었다. 이러한 변화는 크게 세 단계로 구분할 수 있다. 초기 주제 구조 탐색, 서지 계량적 확장, 지역별 특성화 분석이다.
초기 주제 구조 탐색 단계(2010년대 중반)에서는 BIM 연구의 정량적 분석은 Yalcinkaya and Singh (2015)의 Latent Semantic Analysis (LSA)적용으로 본격화 되었다. LSA는 단어-문서 행렬의 특이값 분해를 통해 잠재적 주제를 도출하는 방법으로, 이들은 2000년대 초반부터 2014년까지의 BIM 관련 문헌을 분석하여 설계와 시공 단계 연구가 핵심을 이루고 있음을 실증적으로 확인하였다. 특히 이 연구는 BIM이 단순한 3D 모델링 도구에서 정보 통합 플랫폼으로 개념적 진화를 거쳤음을 정량적으로 입증한 초기 시도라는 의의가 있다.
그러나 LSA 기법의 한계로 인해 시간에 따른 주제 변화를 추적하기 어려웠고, 분석 대상이 주로 영어권 저널에 집중되어 지역별 차이를 파악하는 데는 제약이 있었다. 또한 LSA는 단어의 동시 출현 빈도에만 의존하여 문서의 확률적 생성 과정을 고려하지 못하는 근본적 한계를 가지고 있었다.
서지계량적 확장 단계(2010년대 후반)에는 BIM 분야에서 본격적으로 적용되기 시작한 서지계량학적 접근이 시도되면서 분석의 규모와 정교함이 향상되었다. Zhao (2017)는 Web of Science 데이터베이스를 활용한 분석을 통해 협업, 에너지 분석, 최적화 등이 BIM 연구의 주요 키워드로 확산하고 있음을 시각화하였다. 이는 이전 연구에서 확인된 설계-시공 중심 구조에서 성능 평가와 운영 최적화로 연구 관심이 확장되고 있음을 보여주었다. 동시에 Santos et al. (2017)은 2005~2015년 10년간의 체계적 문헌 고찰을 통해 연구 주제의 클러스터화를 시도하였다. 이들의 분석에서 주목할 점은 BIM 연구가 기술적 구현에서 조직적 활용으로, 그리고 개별 프로젝트에서 산업 차원의 혁신으로 발전하고 있다는 흐름을 제시한 것이다. 하지만 이러한 서지계량적 접근들은 키워드 빈도나 인용 관계에 의존하여 연구 내용의 질적 변화나 방법론적 진화를 깊이 있게 분석하는 데는 한계를 보였다.
지역별 특성화 분석의 등장(2010년대 말~현재)에서는 최근 BIM 기술 도입의 지역적 편차와 정책적 맥락이 연구 동향에 미치는 영향에 관한 관심이 증가하고 있다. Saka and Chan (2019)의 아프리카 BIM 연구 메타 분석은 이러한 변화를 보여주는 사례다. 이들은 기술 도입 초기 단계에 있는 지역에서는 정책적 제약과 인프라 부족이 연구 방향에 영향을 미친다는 점을 확인하였다. 이는 기존의 ‘글로벌 표준’을 전제로 한 BIM 연구 동향 분석이 지역별 현실을 제대로 반영하지 못할 수 있음을 시사한다. 실제로 국내연구의 경우 Kim and Lee (2023)가 확인한 바와 같이 BIM, IFC, LCA, Interoperability 등 표준화와 상호 운용성에 대한 관심이 높은 특성이 있고 국외 연구에서는 AI, 디지털 트윈, 스마트 시티 등 융합 기술에 관한 관심이 상대적으로 높은 특성을 보였다. 또한 최근의 융합 기술 연구들도 주목받고 있다. Chen et al. (2020)은 BIM과 인공지능 융합연구를 분석하여, 머신러닝 기반 자동 설계, 컴퓨터 비전을 활용한 시공 모니터링, 예측적 유지관리가 주요 응용 분야로 성장하고 있음을 확인하였다. Liu et al. (2019)는 BIM과 IoT 융합연구를 분석하여 실시간 데이터 수집과 스마트 빌딩 운영이 새로운 연구 영역으로 부상하고 있다고 보고하였다.
기존 연구의 한계로 지금까지의 BIM 연구 동향 분석들은 몇 가지 공통된 한계를 보인다. 첫째, 시계열적 일관성의 문제다. 대부분의 연구가 특정 시점의 스냅샷을 제공할 뿐, 주제의 출현-성장-쇠퇴-변화하는 동적 과정을 체계적으로 추적하지 못했다.
둘째, 방법론적 단일성이다. LSA, 서지 계량, 네트워크 분석 등 단일 기법에 의존함으로써 분석 결과의 다각적 해석이 제한되었다.
셋째, 생애주기 단계별 분석의 제한성이다. 초기 연구들이 확인한 설계-시공 중심 구조에서 벗어나 운영 단계까지 포괄하는 분석이 시도되고 있으나, 단계별 기술 적용 특성과 진화 양상을 체계적으로 비교한 연구는 여전히 부족하다.
이러한 한계들은 BIM 기술이 성숙기에 접어들면서 나타나는 복잡성과 다양성을 기존의 분석 방법론으로는 충분히 포착하기 어렵다는 점을 시사한다.
반면 BERTopic (Grootendorst, 2022)은 BERT (Bidirectional Encoder Representations from Transformers) 기반 문맥 임베딩을 활용하여 문서의 의미적 유사성을 고려한 주제 분석이 가능하다. 이는 기존 LSA나 키워드 빈도 분석에서 놓칠 수 있는 연구 주제 간의 의미적 연결 구조를 파악하는 데 효과적이다.
2.2.2 연구 동향 분석 방법론 관련 선행연구
앞서 확인한 기존 BIM 연구 동향 분석의 한계를 시계열적 일관성 부족, 방법론적 단일성, 생애주기 단계별 분석의 제한성을 해결하기 위해서는 보다 정교한 텍스트 마이닝 접근이 필요하다. 특히 BIM 연구의 복잡성과 다양성을 고려할 때, 단일 방법론에 의존하는 것보다는 서로 다른 강점이 있는 방법론들을 결합하는 것이 효과적일 수 있다.
이러한 맥락에서 LDA와 BERTopic의 결함은 BIM 연구 동향 분석에 적합한 접근법을 제공할 수 있다. LDA (Blei et al., 2003)는 확률 기반 토픽 모델링을 통해 장기 시계열 데이터에서 토픽의 정량적 변화를 추적하는 데 강점을 가진다. 특히 시간 구간별 토픽 정렬(topic alignment) 문제를 체계적으로 해결할 수 있어 BIM 기술의 25년간 진화 과정을 일관성 있게 분석하는데 유용하다.
반면 BERTopic (Grootendorst, 2022)은 BERT 기반 문맥 임베딩을 활용하여 문서의 의미적 유사성을 고려한 주제 분석이 가능하다. 이는 기존 LSA나 키워드 빈도 분석에서 놓칠 수 있는 연구 주제 간의 의미적 연결 구조를 파악하는 데 효과적이다. 특히 BIM과 AI. IoT, 디지털 트윈 등의 융합 기술 연구에서 나타나는 복합적 주제들을 보다 정확하게 식별할 수 있다는 장점이 있다.
건설 분야에서도 이러한 복합적 접근의 필요성이 인식되고 있다. Li et al. (2021)과 Zhang et al. (2020)은 토픽 모델링과 네트워크 분석을 결합하여 건설 분야 연구 동향을 분석한 바 있다. 그러나 지금까지는 LDA와 BERTopic을 체계적으로 결합하여 BIM 연구의 장기 시계열 분석과 지역별 비교에 적용한 사례는 찾아보기 어렵다.
따라서 본 연구에서 제안하는 LDA-BETopic 병행 접근은 BIM 연구 동향의 정량적 변화 패턴과 의미적 연결 구조를 동시에 파악할 수 있는 방법론적 기여를 제공할 수 있을 것으로 기대된다.
2.3.3 연구의 차별성
본 연구는 앞서 확인한 기존 연구의 한계를 바탕으로 다음과 같은 차별적 접근을 제시한다.
첫째, 장기 시계열 종단 분석이다. 2000~2024년의 25년간 데이터를 일관된 방법론으로 분석하여 BIM 기술의 전체적인 진화 과정을 추적한다. 특히 5년 단위 구간 설정과 헝가리안 알고리즘을 활용한 토픽 정렬을 통해 시간적 연속성을 확보한다.
둘째, LDA와 BERTopic을 병행 분석이다. 확률 기반 정량 분석과 문맥 기반 의미 분석을 결합하여 단일 방법론의 한계를 보완한다. 이를 통해 토픽의 시간적 변화와 의미적 연결 구조를 동시에 파악할 수 있다.
셋째, 국내외 체계적 비교이다. 국내(KCI)와 국외(Science Direct)데이터를 동일한 분석 틀에서 비교하여 지역별 연구 특성과 발전 전략의 차이를 정량적으로 규명한다.
넷째, 생애주기 단계별 세분화이다. 설계-시공—운영 단계로 키워드 출현 패턴과 시간적 변화를 분석하여 각 단계에서의 기술 적용 특성을 체계적으로 파악한다.
이러한 접근을 통해 기존의 단편적 분석을 넘어 BIM 연구 동향을 시간, 지역, 생애주기라는 다차원 관점에서 종합적으로 조망하고자 한다.
3. 연구 방법론: LDA와 BERTopic 기반 통합 분석
3.1 데이터 수집 및 전처리
본 연구는 국내외 BIM 관련 논문을 대상으로 체계적인 문헌 수집과 텍스트 마이닝 분석을 수행하였다. 데이터 수집은 각 지역의 건설 기술 연구 특성을 고려하여 차별적 전략을 적용하였다.
국내 문헌은 한국학술지인용색인(KCI)에서 ‘BIM’, ‘Building Information Modeling’, ‘빌딩 정보 모델링’ 키워드로 검색하여 수집하였다. 국외 문헌은 Science Direct 데이터베이스에서 건설 분야 AI 및 디지털 기술과 관련된 복합 키워드 조합을 활용하여 수집하였다. 이러한 접근은 최근 BIM 기술이 인공지능, 디지털 트윈, IoT 등과 융합되어 발전하고 있는 현실을 반영한 것이다.
국내 데이터베이스에서는 'BIM' 키워드가 건설 정보화 연구를 대표하는 반면, 국외에서는 건설 디지털 기술이 더 포괄적으로 사용되어 각기 다른 검색 전략을 적용하였다. Table 1은 국내(kCI)와 국외(ScienceDirect) 문헌의 논문의 규모, 중복제거 과정, 적합성 필터링 결과 그리고 최종 분석 대상 건수를 정량적으로 제시한다. 이를 통해 본 연구는 시계열 분석과 단계별 토픽분석에 필요한 표본 규모와 자료 신뢰성을 확보하였다.
Table 1.
Data collection and preprocessing results
수집된 문헌의 제목, 초록, 키워드를 결합하여 분석 대상 텍스트를 구성하였다. 전처리 과정에서는 특수문자 제거, 소문자 변환, 불용어 제거 등의 표준화 작업을 수행하였으며, ‘study’, ‘research’, ‘method’ 등의 일반적 학술 용어와 함께 도메인 특정 불용어를 제거하여 분석의 정확도를 향상시켰다. 언어별로는 영어는 표제어 변환을 한국어는 형태소 분석을 통한 명사 추출을 적용하였다.
건설 생애주기에 따른 기술 적용 특성을 파악하기 위해 수집된 문헌을 설계, 시공, 운영 단계로 분류하였다. 분류는 각 문헌의 키워드와 초록 내용을 기반으로 수행하였으며, ‘design’, ‘modeling’, ‘simulation’ 등은 설계 단계, ‘construction’, ‘management’, ‘safety’ 등은 시공 단계, ‘operation’, ‘maintenance’, ‘facility’ 등은 운영 단계로 분류하였다. 복수 단계에 해당하거나 명확한 분류가 어려운 경우는 복합/기타로 처리하였다.
시계열 분석을 위해 전체 기간을 5년 단위로 구간화 하였다. 초기 구간의 상대적 소 표본 문제는 해석 시 신중하게 고려하되 기술 발전의 단계적 특성을 파악하는 데 필요한 기간으로 포함하였다.
3.2 통합 토픽 모델링 설계
3.2.1 통합 분석 프레임워크 설계
본 연구는 LDA와 BERTopic을 병행 적용하는 통합 분석 프레임워크를 구축하였다. 이는 확률 기반의 정량적 토픽 분석과 문맥 기반의 의미적 구조 분석을 결합하여 연구 동향의 다차원적 이해를 도모하기 위한 것이다.
LDA (Latent Dirichlet Allocation)분석에서는 각 시기-지역 조합을 독립적인 코퍼스로 처리하여 시간에 따른 토픽 구성 변화를 추적할 수 있도록 설계하였다(Blei and Lafferty, 2006). 비교 일관성을 위해 토픽 수를 모든 분석 단위에서 8개로 고정하였으며, 이는 예비 분석을 통해 토픽 일관성과 해석 가능성이 최적화되는 지점으로 확인되었다(Röder et al., 2015). 시계열 비교를 위해서는 인접 구간 간 코사인 유사도를 기반으로 한 헝가리안 알고리즘을 적용하여 토픽 정렬을 수행하였다.
BERTopic분석(Devlin et al., 2019) BERT 기반 문맥 임베딩과 Sentence-BERT (Reimers and Gurevych, 2019)에 기반하여 문서 간 의미적 유사성을 고려한 클러스터링을 수행하였다. UMAP을 활용한 차원 축소와 HDBSCAN을 통한 클러스터링을 적용하였으며, 각 클러스터의 대표 키워드를 c-TF-IDF 가중치로 추출하여 주제를 해석하였다. 시각화는 2차원 축소 공간에서 문서를 점으로 표시하고 연도별 색상 구분을 통해 시간에 따른 주제 변화를 관찰할 수 있도록 하였다.
각 토픽의 상대적 중요도는 해당 토픽에 할당된 문서 수의 비율로 산출하여 시기별 변화를 추적하였다. 코퍼스 크기 차이를 보정하기 위해 키워드 빈도는 백만 토큰당 출현 빈도(PPM)로 정규화하였으며, 토픽 가중치는 각 시기-지역 블록 내에서 정규화하여 비교하였다. 각 분석 기법의 비교를 위해 LDA와 BERTopic의 특징·강점·적용 목적을 Table 2에 정리하여 제시하였다. 이는 두 모델의 역할 분담과 분석 구조를 명확히 하는 데 목적이 있다.
Table 2.
Characteristics and application purposes of analysis methods
3.2.2 결과 시각화 및 해석 방법
본 연구의 다층적 분석 결과를 체계적으로 제시하기 위해 네 가지 상호 보완적 시각화 기법을 적용하였다. 각 기법은 서로 다른 분석 관점을 제공하여 BIM 기술 동향의 종합적 이해를 가능하게 한다.
시계열 변화 분석을 위해서는 LDA 토픽 가중치 변화 차트를 활용하였다. 이 차트에서는 Y축의 정규화된 가중치(합계=1.0)는 시기별 토픽의 상대적 중요도를 나타내며, 색상 영역의 두께 변화를 통해 연구 패러다임의 전환을 추적할 수 있다. 다만 상대적 비중이므로 한 토픽의 증가가 반드시 절대적 연구량 증가를 의미하지는 않는다는 점에 유의해야 한다.
키워드 수준의 세부 분석에는 히트맵을 사용하여 개별 키워드의 시간적 부상과 쇠퇴 패턴을 시각화하였다. 색상 강도(0-1 스케일)는 3.2.1 절에서 설명한 PPM 정규화된 출현 빈도를 나타내며, 코퍼스 크기 차이를 보정하고 토픽 가중치는 각 시기-지역 블록 내에서 정규화하여 비교하였다. 해석 기준으로는 색상 강도가 0.0-0.2는 제한적 출현, 0.3-0.5는 안정적 활용, 0.6-1.0은 핵심 키워드이다.
의미적 연결 구조 분석을 위해서는 BERTopic 기반 산점도를 적용하였다. 토픽 간 관계 구조는 Gephi 기반 네트워크 그래프를 활용하여 시각적으로 분석하였다(Bastian et al., 2009). BERT 문맥 임베딩을 UMAP으로 2차원 투영한 이 시각화에서 점들 간의 거리는 연구 주제의 의미적 유사성을 반영한다. 명확한 클러스터 형성은 독립적 연구 영역을, 연속적 분포는 주제 간 융합적 특성을 시사하며, 점의 색상(연도)을 통해 특정 주제의 시간적 발전을 추적할 수 있다.
3.3 분석의 신뢰성 및 한계
분석 결과의 신뢰성을 확보하기 위해 다단계 검증을 수행하였다. 데이터 품질 측면에서는 유효한 텍스트 비율이 국내 99.3 %, 국외 99.6%로 높은 수준을 확보하였다. 모든 정량적 지표는 코퍼스 크기를 보정한 상대 지표를 사용하여 비교 가능성을 확보하였으며, 재현성을 위해 모든 분석에서 시드값을 고정하고 파라미터를 문서화 하였다.
본 연구는 다음과 같은 한계를 가진다. 첫째, 국내외 검색 전략의 차이로 인해 직접적 비교에는 제약이 있으나, 각 지역의 연구 특성 파악에는 의미가 있다. 둘째, 시기별 표본 크기의 편차가 크므로 해석 시 추세 분석을 중심으로 하고 절대적 수치보다는 상대적 변화에 주목한다. 셋째, 키워드 기반 분류 결과, 설계 29.4%, 시공 22.0%, 운영 16.9%로 분류되었으며 나머지 31.7%는 다중 단계 특성 또는 분류 모호성으로 인해 기타로 분류되었다. 이는 BIM 기술의 통합적 특성을 반영하는 것으로 해석된다. Table 3은 본 연구에서 확인된 주요 한계 유형과 이에 대한 대응 방안을 정리한 것으로, 3.3절에서 언급한 한계 내용을 구조화하여 제시한다.
이러한 한계에도 불구하고 본 연구는 기존의 단편적 키워드 분석을 넘어 LDA와 BERTopic을 결합한 다차원적 접근을 통해 BIM 기술 연구 동향의 시계열적 변화와 의미적 구조를 체계적으로 분석할 수 있는 방법론적 기반을 마련하였다. 분석 과정과 한계를 투명하게 공개하여 결과 해석 시 독자의 판단을 돕고자 하였다.
Table 3.
Major limitations and countermeasures of the study
4. LDA 및 BERTopic 기반 BIM 기술 흐름 분석
4.1 시계열 흐름 분석: LDA 기반 BIM 연구 동향
4.1.1 분석 대상 및 방법
본 연구의 시계열 분석은 2000년부터 2024년까지 수집한 BIM 관련 문헌을 대상으로 한다. 분석의 시간 단위는 5년으로 설정하여 2000~04, 2005~09, 2010~14, 2015~19, 2020~24의 5개 구간으로 구분하였다. 지역별 차이를 파악하기 위해 국내와 국외 문헌을 분리하여 분석하였으며, 이에 따라 총 10개의 분석 단위(5개 시기 x 2개 지역)가 구성되었다.
전처리 과정에서는 각 문헌의 제목, 초록, 키워드를 결합하여 분석 대상 텍스트를 구성하고, 일반 불용어 및 도메인 특정 불용어를 제거하여 토픽 모델링의 정확도를 향상시켰다. LDA 모델링은 각 시기 지역 조합을 독립적인 코퍼스로 처리하여 수행하였다.
토픽 수는 모든 분석 단위에서 3개로 고정하였다. 이는 예비 분석을 통해 토픽 일관성과 해석 가능성이 최적화되는 지점으로 확인되었으며, 시계열 비교의 일관성을 확보하기 위한 것이다. 시계열 비교를 위해서는 인접 구간 간 코사인 유사도를 기반으로 헝가리안 알고리즘을 적용하여 토픽 정렬을 수행하였다.
토픽의 상대적 중요도는 각 토픽의 상위 5개 키워드 확률의 합을 전체 합으로 나눈 비율로 산출하였다. 이를 통해 문헌 수의 차이에 따른 편향을 최소화하고 토픽 간 상대적 비중을 비교할 수 있도록 하였다.
4.1.2 국내 분석 결과
국내 BIM 연구의 시계열 분석 결과, 전 기간에 걸쳐 세 개의 주요 토픽이 공존하는 구조를 나타내었다(Figure 1). 시간의 경과에 따라 BIM 기술 표준화에서 시작하여 시공 및 운영 단계로 확장되고, 최근에는 인공지능 기술과의 융합이 나타나는 진화 양상을 보였다. 절대 연구량은 지속적으로 증가하였으며, 특히 2015년 이후 급격한 성장을 보였다(Figure 2).
(1) 2000~2004년: 디지털 전환 초기 단계
이 시기는 표본 수가 제한적이어서 해석에 주의가 필요하다. 주요 키워드로는 전자문서, 웹, ECM(Enterprise Content Management) 등이 나타났으며, BIM 관련 용어의 출현 빈도는 상대적으로 낮았다. 이는 BIM 도입 이전의 디지털 건설 기술 기반 구축 시기로 해석된다.
(2) 2005~2009년: BIM 개념 도입 및 표준화
‘building’, ‘information’, ‘modeling’, ‘design’, ‘IFC’ 등의 키워드가 상위에 등장하며 BIM 개념이 본격적으로 도입되었다. 이 시기의 연구는 주로 설계 단계와 정보 모델링에 집중되었으며, 시공이나 운영 관련 연구는 제한적이다.
(3) 2010~2014년: 설계-성능 분석 연계
BIM/IFC 중심 구조가 유지되면서 ‘simulation’, ‘performance’, ‘energy’ 등 성능 기반 설계 관련 키워드의 비중이 증가 하였다. 설계 단계의 BIM 모델이 에너지 분석, 구조 해석 등 다양한 시뮬레이션과 연계되기 시작했다.
(4) 2015~2019년: 시공 및 운영 단계로의 확장
‘construction’, ‘management’, ‘project’ 관련 키워드가 증가하며 설계-시공 간 통합이 강화되었다. 동시에 ‘operation’, ‘facility’ 등 운영 단계 관련 연구가 가시화되어 BIM의 전 생애주기 적용이 본격화되었다.
(5) 2020~2024년: 인공지능 기술과의 융합
기존 BIM 핵심 구조가 유지되는 가운데 ‘learning’, ‘AI’, ‘recognition’ 등 인공지능 관련 키워드가 새롭게 등장하였다. 이들 기술은 안전 관리, 품질 예측. 스마트 유지관리 등의 응용 분야와 결합되어 BIM 연구의 새로운 방향을 제시하고 있다.
종합하면, 국내 BIM 연구는 BIM 표준을 중심으로 한 기술 기반의 조기 정착, 설계에서 시공과 운영으로 이어지는 단계적 확장, 최근 인공지능 기술과의 융합이라는 특징을 보인다. 다만 초기 구간의 결과는 표본 수가 적어 해석에 주의가 필요하며, 2015년 이후의 문헌 수 급증은 양적 성장과 질적 다양화가 동시에 진행되었음을 시사한다.
4.1.3 국외 건설 디지털 기술 연구 동향
국외 BIM 연구의 시계열 분석 결과, 전 기간에 걸쳐 세 개의 주요 토픽이 공존하는 구조를 나타내었다(Figure 3). 그러나 시간의 경과에 따라 전통적인 시공 관리 중심에서 에너지, 디지털 트윈, AI 기술 중심으로 연구의 무게중심이 이동하는 양상을 보였다. 절대 연구량은 지속적으로 증가하였으며, 특히 2015년 이후 급격한 성장을 보였다(Figure 3).
(1) 2000~2004년: 시공 관리 정보화 초기 단계
이 시기의 주요 키워드는 ‘construction’, ‘information’, ‘management’, ‘design’으로 시공 관리의 정보화가 중심을 이루었다. 동시에 ‘vision’, ‘image’, ‘robot’, ‘learning’ 등 컴퓨터 비전과 자동화 관련 용어가 출현하여, 향후 기술 융합의 가능성을 시사했다.
(2) 2005~2009년: BIM 개념 정착과 시공 관리의 병행
‘building’, ‘information’, ‘modeling’, ‘design’ 관련 키워드가 안정적으로 정착하면서 BIM 도입과 표준화 논의가 본격화되었다. 이 시기에는 BIM 기술과 전통적인 시공 관리 연구가 병행되는 구조를 보였다.
(3) 2010~2014년: 에너지 성능과 시뮬레이션 연구 확대
BIM 기반 구조가 유지되는 가운데 ‘energy’, ‘simulation’, ‘time’ 관련 연구가 증가하였다. 설계 단계의 성능 평가와 시뮬레이션 기술이 강화되었으며, 이는 운영 단계를 고려한 통합적 접근의 시작을 의미한다.
(4) 2015~2019년: 도시 규모 적용과 디지털 기술의 부상
‘construction’ 관련 연구는 지속되었으나 상대적 비중은 감소하였다. 대신 ‘digital’, ‘city/cities’, ‘twin’ 등 도시 규모의 디지털 기술 적용이 증가하였으며, ‘learning’, ‘AI’ 관련 연구가 본격적으로 등장하기 시작했다.
(5) 2020~2024년: 인공지능 기술과 디지털 트윈의 확산
최근 구간에서는 에너지 성능, 디지털 트윈, 도시 규모 응용이 크게 확대되었다. ‘AI’, ‘learning’, ‘recognition’ 관련 기술이 다양한 응용 분야와 결합되어 예측적 시설관리, 시공 자동화, 스마트 도시 운영 등으로 확산하였다.
종합하면, 국외 BIM 연구는 BIM 표준의 조기 정착, 성능 평가와 시뮬레이션의 체계화, 도시 규모 응용과 디지털 트윈으로의 확장, 인공지능 기술과의 본격적 융합이라는 특징을 보인다. 특히 2015년 이후 절대 연구량의 증가와 함께 주제의 다양화와 기술 융합이 가속화되었다. 이는 융합 기술 중심의 발전 특성을 보여준다.
4.2 단계별 기술 응용 분석: 설계-시공-운영
다음 단계별 분석은 키워드 기반으로 명확히 분류된 문헌(전체의 68.3%)을 대상으로 하며, 각 단계에서 나타난 기술 적용 특성을 파악하는 데 목적이 있다. 분석은 국내 저널과 국제 저널로 구분하여 수행하였으며, 단계별로 주요 키워드의 출현 빈도와 시간적 변화를 분석하였다.
4.2.1 설계(Design) 단계
Figure 4(Korea Design)에서 확인할 수 있듯이 ‘bim’ 키워드가 2005~2009년 구간에서 최고 강도(약 0.5)를 보이며 BIM 기반 설계 체계의 도입과 정착이 주요 주제였다. ‘design’ 키워드는 2010~2014년 이후 지속적으로 높은 강도를 유지하고 있다.
히트맵의 색상 강도(0-1 scale)는 백만 토큰당 정규화된 키워드 출현 빈도를 나타내며, 진한 색상일수록 해당 시기의 핵심 개념임을 의미한다.
2010~2014년부터 ‘modeling’과 information 키워드와 함께 성능 기반 설계로의 전환이 나타났다. 2020~2024년 에는 ‘AI’, ‘learning’ 키워드가 새롭게 등장하여 데이터 기반 설계와 생성형 설계로의 전환이 확인되었다.
반면 국제 저널에서는 Figure 5(International Design)에서 보듯이 성능 최적화와 생성형 설계연구가 더 이른 시기에 더 집중적으로 나타났다. design 키워드가 2000~2004년부터 지속적으로 높은 강도를 보이며, construction 키워드도 초기부터 강하게 나타난다. AI 키워드는 2015~2019년부터 본격적으로 나타나기 시작하여 2020~2024년 최고 강도에 도달하였다. energy와 digital 키워드가 2010~2019년에 동시다발적으로 증가하였으며, 2020~2024년에는 인공지능 기술이 설계 의사결정, 형상 생성, 도시 규모 설계와 통합되는 양상을 보였다.
4.2.2 시공(Construction) 단계
국내 저널에서는 Figure 6(Korea Construction)에서 보듯이 ‘construction’ 키워드가 2000~2004년 최고 강도(약 0.6)를 보인 후 점진적으로 감소하는 패턴을 나타내었다. bim과 building 키워드는 2005~2009년 이후 꾸준히 비중을 유지하며 공정 관리 중심의 연구 구조가 유지되었다. management와 IFC 키워드가 지속적으로 나타나는 것으로 보아 표준 기반의 관리 체계가 중요한 역할을 하고 있음을 확인할 수 있다.
국제 저널에서는 Figure 7(International Construction)에서 construction 키워드가 2000~2004년 최고 강도(약 0.4)를 보인 후 감소하는 양상을 보였다. 주목할 점은 building과 energy 키워드가 초기부터 나타나며, digital과 learning 키워드가 2010 ~2014년 이후 가시화되기 시작한다는 것이다. 2015~2019년부터 시공 자동화와 컴퓨터 비전 기반 모니터링이 확대되었고, 2020~2024년에는 AI 키워드가 본격적으로 등장하여 디지털 트윈과 4D 시뮬레이션을 통한 설계-시공-운영 데이터 연동이 강화되었다.
4.2.3 운영(Operation) 단계
운영 단계에서는 각 연구 영역의 기술 적용 범위와 수준에서 뚜렷한 특성 차이가 관찰되었다. Table 4에서 확인할 수 있듯이 운영 단계 연구 비중은 국내 2.5%에 비해 국외 22.6%로 약 9배의 차이를 나타낸다.
Table 4.
Distribution of papers by lifecycle stage
Figure 8(Korea Operation)에서 management 키워드가 2010~2014년 이후 지속적으로 높은 강도(0.4-0.6)를 유지하며 이는 건축물의 운영 효율성과 유지관리 체계를 중심으로 한 시설관리(Facility Management) 연구가 국내 운영 단계 연구의 핵심축을 형성하고 있음을 시사한다. 'maintenance' 관련 용어의 꾸준한 등장 역시 전통적 유지관리 중심 연구가 여전히 주류를 이루고 있음을 보여준다.
반면 ‘smart’나 ‘digital’ 관련 키워드는 2020년 이후에야 가시적으로 등장하기 시작했으며, 이는 스마트 기술 및 디지털 트윈 도입의 지연 현상을 반영한다. 국내 연구는 여전히 관리 측면의 연구 비중이 높고, 실시간 데이터 기반 운영이나 예측적 유지관리(Predictive Maintenance)로의 전환은 최근 들어 점진적으로 확산하는 단계로 평가된다.
Figure 9(International Operation)의 키워드 분석 결과, 국외 운영 단계 연구는 스마트 운영 및 예측적 관리 기술 중심으로 빠르게 전환되고 있음을 확인할 수 있다. 2015년 이후 ‘smart’ 키워드의 출현 빈도가 급격히 증가하였고, 이는 운영 효율화 및 지능형 관리 체계 구축을 위한 기술적 진화를 반영한다. ‘energy’ 키워드는 2010년대 중반 이후 지속적으로 증가하여 에너지 효율 최적화(Energy Optimization) 연구가 운영 단계의 주요 연구 축으로 자리 잡았음을 보여준다. 2020~2024년 ‘digital’ 키워드가 최고 강도에 도달하며, 이는 Digital Twin 기술의 본격적인 운영 단계 통합을 의미한다. ‘AI’ 관련 키워드의 꾸준한 성장세는 최근 운영 단계 연구가 인공지능 기반의 예측·최적화 시스템 구축으로 확장되고 있음을 시사한다.
운영 단계 연구 비중의 현저한 격차는 기술 성숙도 차이로 보여준다. 국외는 BIM을 디지털 트윈과 AI 운영 플랫폼으로 확장하는 4차 산업 기반 운영 지능화 단계로 진입하지만, 국내는 아직 관리 중심의 BIM 적용 단계에 머물러 있다. 다만 2020년 이후 ‘smart’, ‘digital’, ‘AI’ 관련 키워드가 꾸준히 증가하고 있어 국내 연구 역시 운영 단계의 디지털 전환 초입기로 평가할 수 있다. 이러한 패턴은 각 지역의 BIM 기술 발전 경로와 연구 생태계의 특성을 반영하는 것으로 해석된다.
4.3 BERTopic을 활용한 주제 간 연결 구조 분석
4.3.1 분석 방법
본 절에서는 LDA 분석을 보완하기 위해 BERTopic을 활용하여 BIM 연구 주제들의 의미적 연결 구조를 분석하였다. BERTopci은 사전 훈련된 언어모델(BERT)의 문맥적 임베딩을 기반으로 문서를 클러스터링하는 방법으로, 단어의 동시 출현 빈도에 의존하는 LDA와 달리 문맥적 의미를 고려한 주제 도출이 가능하다.
분석 절차는 다음과 같다. 첫째, 각 문헌의 제목과 초록을 결합한 텍스트를 BERT 모델(Bert-Base-Multilingual)로 임베딩 하였다. 둘째, UMAP (Uniform Manifold Approximation and Projection)을 사용하여 고차원 임베딩을 2차원으로 축소하였다. 셋째, HDBSCAN (Hierarchical Density-Based Spatial Clustering)으로 문서를 클러스터링하였다. 마지막으로 각 클러스터의 대표 키워드를 c-TF-IDF 가중치로 추출하여 주제를 해석하였다.
시각화는 2차원 축소 공간에서 문서를 점으로 표시하고, 연도 구간별 색상 구분을 통해 시간에 따른 주제의 변화를 관찰할 수 있도록 하였다. 국내 저널과 국제 저널 데이터를 분리하여 독립적으로 분석하였다.
4.3.2 클러스터 구조 분석 결과
BERTopic 분석을 통해 인구 문서들의 의미적 클러스터 형성 패턴을 분석한 결과, 클러스터 구조, 주제 간 연결성, 시간적 진화 측면에서 뚜렷한 특성과 관찰되었다.
분석 결과, 각 연구 영역에서 서로 다른 클러스터 형성 특성이 나타났다. 국내 BIM 연구에서는 Figure 10에서 확인할 수 있듯이 8개의 명확하게 구분되는 클러스터가 형성되었으며, 클러스터 간 평균 유사도는 0.32로 측정되어 상대적으로 독립적인 주제 구조를 보였다.
문서들이 대각선 방향으로 구조화된 배치를 나타내며, ‘BIM 표준 및 IFC’, ‘에너지 성능 분석’, ‘시공 관리’ 등의 클러스터가 명확한 경계를 가지고 분포하였다.
반면 국외 건설 디지털 기술 연구에서는 Figure 11에서 보듯이 문서들이 보다 연속적이고 분산된 분포 양상을 나타내었다. HDBSCAN 알고리즘을 통해 통계적으로는 여러 클러스터가 식별되었으나, 시각적으로 클러스터 간 경계가 국내 연구에 비해 불분명하였다. 클러스터 간 평균 유사도는 0.48로 국내 연구보다 높게 측정되어 주제 간의 연결성은 상대적으로 강함을 보여주었다.
클러스터 연결성 분석에서 두 연구 영역은 대조적인 패턴을 보였다. 낮은 클러스터 간 유사도(0.32)를 보인 국내 연구는 각 주제 영역이 상대적으로 독립적으로 발전하는 전문화 지향적 특성을 나타내었다. 높은 클러스터 간 유사도(0.48)를 보인 국외 연구는 주제 간의 활발한 교류와 융합을 통한 혁신 추구 특성을 보여주었다. 두 연구 영역의 클러스터 구조 차이는 Table 5에서 정량적으로 비교되며, 식별된 클러스터 수, 클러스터 간 유사도, 시각적 경계 명확성 등 핵심 지표를 통해 국내 ·국외 연구의 구조적 특성이 보다 명확하게 드러난다. 연도별 색상 분포 분석을 통해 각 영역의 고유한 주제 진화 패턴이 확인되었다. 국내 연구는 초기 BIM 표준 클러스터에서 시작하여 시간이 지남에 따라 에너지 분석, 시공 관리, AI 융합으로 체계적으로 확장하는 단계적 진화를 보였다. 국외 연구는 초기부터 다양한 클러스터에 분산 배치되어 시작하며, 시간이 지남에 따라 클러스터 간 연결이 강화되는 융합적 진화 패턴을 나타내었다.
Table 5.
Quantitative comparison of cluster analysis
이러한 분석 결과는 국내 연구가 주제별 전문화를 통한 발전을, 국외 연구가 주제간 융합을 통한 발전을 추구하는 경향이 있음을 시사한다. 다만 이러한 차이는 연구 주제의 본질적 특성 외에도 데이터 수집 전략의 차이, 학술 문화의 차이, 사용된 분석 알고리즘의 특성 등이 복합적으로 적용한 결과일 수 있다.
특히 국외 데이터의 경우 시각적으로 클러스터 경계가 불분명한 영역이 존재하므로, 해석 시 신중함이 요구되며 향후 연구에서는 다양한 클러스터링 알고리즘과 평가 지표를 통한 교차검증이 필요하다.
4.3.3 주제 진화 패턴과 기술 융합 특성
앞서 분석한 클러스터 구조를 바탕으로 시간에 따른 주제 진화 패턴을 심층 분석한 결과, 각 연구 영역에서 서로 다른 기술 융합 방식과 혁신 경로가 확인되었다.
연도별 색상 분포 분석을 통해 새로운 주제의 출현과 확산 방식에서 뚜렷한 차이가 관찰되었다. 국내 BIM 연구에서는 새로운 주제가 기존 클러스터의 인접 영역에서 점진적으로 출현하는 패턴을 보였다.
2000~2009년 BIM 표준 클러스터에서 시작하여 2010~2014년 에너지 분석 클러스터로 확장, 2015~2019년 시공 관리 클러스터로의 이동이 단계적으로 진행되었다.
국외 건설 디지털 기술 연구에서는 새로운 주제가 여러 기존 클러스터 영역에 동시다발적으로 출현하는 분산형 확산 패턴을 나타내었다. 특히 2015~2019년 IoT 관련 연구와 2020~2024년 AI 관련 연구가 기존의 여러 클러스터 영역에 동시에 등장하여 기존 주제들과 융합하는 양상을 보였다.
BERTopic 분석에서 도출된 클러스터 간 연결 패턴을 통해 기술 융합 메커니즘의 차이를 확인할 수 있었다.
국내 연구에서는 기존 클러스터의 경계가 유지되면서 새로운 기술이 추가되는 ‘적층형 융합’ 특성을 보였다.
예를 들어 AI 관련 키워드가 2020~2024년에 등장했지만 기존 BIM, 에너지, 시공 클러스터의 경계를 크게 변화시키지 않으면서 각 영역에 개별적으로 적용되는 양상을 나타내었다.
국외 연구에서는 새로운 기술의 도입이 기존 클러스터 구조를 재편하는 ‘융해형 융합’ 특성을 보였다. 디지털, 트윈, IoT, AI 등의 기술이 도입되면서 기존 클러스터 간 경계가 모호해지고 새로운 하이브리드 주제 영역이 형성되는 것으로 관찰되었다.
주제별 문서 수 증가율 분석에서도 서로 다른 혁신 확산 패턴이 확인되었다. 국내 연구에서는 새로운 주제가 도입된 후 안정화 기간을 거쳐 점진적으로 확산하는 ‘계단식 성장’ 패턴을 보였다. BIM 표준 관련 연구가 2005~2009년에 정점을 이룬 후 안정화되고, 에너지 성능 분석이 2010~2014년에 부상한 후 안정화되는 순차적 발전을 나타내었다.
국외 연구에서는 새로운 기술이 도입되면 급속한 확산을 보이는 ‘지수적 성장’ 패턴을 나타내었다. 특히 2015년 이후 디지털 기술 관련 연구가 기하급수적으로 증가하면서 기존 연구 주제들의 상대적 비중을 빠르게 변화시키는 것으로 관찰되었다.
개별 기술 키워드의 출현-성장-성숙-쇠퇴 주기 분석에서도 각 영역의 특성이 드러났다. 국내 연구에서는 한번 확립된 기술이 지속적으로 활용되는 ‘누적 형 발전’ 특성을 보였다. ‘BIM’, ‘IFC’, ‘Modeling’ 등의 핵심 키워드가 전 기간에 걸쳐 꾸준한 활용도를 유지하면서 새로운 기술과 공존하는 양상을 나타내었다.
국외 연구에서는 기술 간 대체와 융합이 활발한 ‘순환형 발전’ 특성을 보였다. 초기의 ‘Construction Management’ 중심에서 ‘Energy Simulation’, ‘Digital Twin’, ‘AI’로의 빠른 전환이 이루어지면서 이전 기술들이 새로운 맥락에서 재해석되거나 새로운 기술에 흡수되는 패턴을 보였다.
이러한 분석 결과는 각 연구 영역이 서로 다른 혁신 철학과 기술 발전 전략을 추구하고 있음을 시사한다. 국내 연구의 안정성과 체계성, 국외 연구의 역동성과 융합 성은 각각의 고유한 가치와 기여 방식을 나타내는 것으로 해석된다.
4.4 국내 BIM 연구와 국외 건설 디지털 기술 연구의 특성 분석
4.4.1 국내 BIM 연구의 고유 특성
앞서 수행한 LDA 시계열 분석, 단계별 키워드 분석, BERTopic 클러스터 분석 결과를 종합하여 국내 BIM 연구의 고유한 특성을 다음과 같이 도출하였다.
시계열 발전 패턴의 특성으로는 국내 BIM 연구는 BIM 표준 중심의 안정적 구조를 유지하면서, 새로운 기술을 점진적으로 수용하는 특성을 보였다. LDA 분석 결과, 3개 토픽의 상대적 비중이 25년간 급진적 변화 없이 체계적으로 진화하였으며, 이는 표준화(60%), 활용 확대(45%), 신기술 융합(30%)의 단계적 발전 경로를 나타낸다.
생애주기 단계별 특성은 단계별 키워드 분석에서 국내 연구는 각 단계의 핵심 기능에 집중하는 경향을 보였다. 설계 단계에서는 ‘BIM’, ‘IFC’, ‘modeling’ 등 기본적인 정보 모델링 키워드가 지속적으로 높은 비중을 차지하였으며 시공 단계에서는 ‘construction’, ‘management’, ‘safety’ 등 관리 중심의 키워드가 주를 이루었다. 운영 단계는 상대적으로 연구 비중이 낮았으나(16.9%) ‘maintenance’, ‘facility’ 등 시설관리 중심의 접근을 보였다.
4.4.2 국외 건설 디지털 기술 연구의 고유 특성
LDA 분석에서 도출된 토픽 가중치의 시기별 변화를 분석 결과, 각 연구 영역에서 고유한 패턴이 나타났다. 국내 BIM 연구는 BIM 표준 관련 토픽이 지속적으로 높은 비중을 유지하면서 인공지능 관련 토픽이 점진적으로 증가하는 패턴을 보였다. 국외 건설 디지털 기술 연구에서는 디지털 트윈과 도시 규모 응용 관련 토픽의 비중이 2000~2004년 0.21에서 2020~2024년 0.41로 크게 증가하여 연구 중심의 이동이 관찰되었다.
특히 2015년 이후 국제 저널에서는 전통적인 시공 관리 중심 토픽의 상대적 비중이 감소하면서 신기술 융합 관련 토픽이 급속히 확산하는 양상을 보였다. 이는 국내 저널이 기존 BIM 프레임워크 내에서의 점진적 발전을 추구하는 것과 대비되는 특징이다.
4.4.3 단계별 키워드 분포비교
설계, 시공, 운영 단계별로 상위 키워드의 출현 빈도를 분석 결과, 각 연구 영역의 고유한 초점을 확인할 수 있었다. 국내 BIM 연구는 각 단계에서 전통적인 BIM 관련 키워드가 높은 빈도 특성을, 국외 건설 디지털 기술 연구에서는 자동화, 최적화, 예측 분석 등 고도화된 기능 관련 키워드가 상대적으로 높게 특성이 관찰되었다.
2020~2024년 기간을 기준으로 살펴보면, 설계 단계에서 국내 BIM 연구는 ‘BIM’, ‘IFC’, ‘modeling’ 등의 기본적인 정보 모델링 키워드가 주를 이루었다. 국제 저널에서는 ‘generative’, ‘optimization’, ‘energy’ 등 생성형 설계와 성능 최적화 관련 키워드가 높은 빈도를 보였다.
시공 단계에서는 국내 저널이 ‘construction’, ‘management’, ‘safety’, 등 관리 중심의 키워드에 집중하지만, 국외 건설 디지털 기술 연구에서는 ‘automation’, ‘robotics’, ‘vision’ 등 자동화 기술 관련 키워드가 두드러졌다. 운영 단계에서도 국내 저널의 ‘maintenance’, ‘facility’, ‘monitoring’과 국제 저널의 ‘digital twin’, ‘predictive’, ‘IoT’ 간의 대조가 뚜렷하게 나타났다.
4.4.4 클러스터 구조 특성 비교
BERTopic 분석 결과와 각각 연구의 영역에서 고유한 클러스터 구조 특성이 관찰되었다. 국내 BIM 연구는 평균 8.2개의 명확하게 구분되는 클러스터를 형성하며 클러스터 간 평균 유사도가 0.32로 독립적 주제 구분을 보였다. 국외 건설 디지털 기술 연구는 평균 12.4개의 클러스터를 형성하면서 클러스터 간 평균 유사도가 0.48로 주제 간 융합적 특성을 나타내었다. 이러한 차이는 각 연구 영역의 발전 전략과 혁신 접근법의 차이를 반영하는 것으로 해석된다.
4.4.5 특성 종합
분석 결과를 종합하면 각 연구 영역에서 다음과 같은 구조적 차이가 관찰되었다.
첫째, 토픽 진화 패턴에서 국내 BIM 연구는 BIM 표준 중심의 안정성 구조를 유지하면서 새로운 기술을 점진적으로 수용하는 경향을 보였다. 국외 건설 디지털 기술 연구에서는 디지털 트윈과 도시 규모 응용으로 연구 중심이 이동하며 보다 급진적인 변화를 나타내었다.
둘째, 키워드 분포에서 국내 BIM 연구는 각 단계의 핵심 기능에 집중하는 반면, 국외 건설 디지털 기술 연구에서는 자동화에 지능화된 고도 기능에 초점을 맞추고 있다. 이는 연구의 성숙도와 기술 적용 범위의 차이를 반영하는 것으로 해석된다.
셋째, 클러스터 구조에서 국내 BIM 연구는 명확한 주제 구분을 통한 전문화를 추구하는 반면, 국외 건설 디지털 기술 연구에서는 주제간 융합을 통한 다학제적 접근을 지향하고 있다.
이러한 차이는 각 지역의 연구 환경과 산업 발전 단계의 차이를 반영하는 것으로 보인다. 다만 본 분석은 게재 저널을 기준으로 분류하였으므로, 실제 연구 수행 지역과는 차이가 있을 수 있음을 고려해야 한다.
5. 결 론
5.1 주요 연구 결과
본 연구는 2000~2024년 BIM 관련 문헌을 국내 저널과 국제 저널로 분리하여 LDA와 BERTopic을 결합한 텍스트 마이닝 분석을 수행하였다. 총 45,708편의 문헌을 수집하여 11,924편을 최종 분석 대상으로 선정하였으며, 시계열적 변화와 의미적 구조를 다차원적으로 분석하였다.
첫째, 시계열 토픽 분석을 통해 각 연구 영역에서 고유한 발전 패턴을 확인하였다. 국내 BIM 연구는 표준 기반의 체계적 발전을 보이며 설계에서 시공, 운영으로 단계적 확장을 이루었다. 국외 건설 디지털 기술 연구는 시공 관리에서 출발하여 에너지 성능, 디지털 트윈, AI 기술로 빠르게 진화하는 혁신적 접근을 나타내었다. 각각은 고유한 기술 생태계와 발전 전략을 반영하는 것으로 해석된다.
둘째, 단계별 기술 응용 분석에서 설계-시공-운영 각 단계의 특성화된 발전 양상을 확인하였다. 국내 연구는 각 단계의 핵심 기능에 집중하는 경향을 보인 반면, 국외 연구는 단계 간 연계와 자동화, 지능화 기술에 상대적으로 높은 관심을 보였다. 운영 단계에서는 국내가 시설관리 중심인 반면, 국외는 예측적 유지관리와 스마트 시티 플랫폼으로의 확장이 두드러졌다.
셋째, 의미 구조 분석에서 국내외 연구의 서로 다른 네트워크 특성이 확인되었다. BERTopic 클러스터 분석 결과, 국내 연구는 상대적으로 독립적이고 경계가 명확한 클러스터 구조를 보여 주제별 전문화를 지향하는 것으로 나타났다. 국외 연구는 클러스터 간 중첩과 연결이 활발한 네트워크 구조를 보여 다학제적 융합을 추구하는 특성을 보였다.
5.2 연구의 시사점 및 기여도
본 연구의 시사점은 방법론적 측면과 실증적 측면으로 구분할 수 있다. 방법론적으로 LDA와 BERTopic을 결합한 다차원적 텍스트 마이닝 접근법을 통해 기술 동향 분석의 새로운 프레임워크를 제시하였다. 확률 기반의 시계열 토픽 분석과 문맥 기반의 의미적 클러스터 분석을 통합함으로써 기술 동향 연구에서 정량적 변화 패턴과 정성적 구조 특성을 동시에 파악할 수 있는 새로운 접근법을 제시하였다. 이러한 다차원적 접근은 향후 기술 동향 분석 연구의 방법론적 기반으로 활용될 수 있을 것이다.
실증적으로는 25년간의 장기 시계열 분석을 통해 기술 동향의 진화 과정을 체계적으로 추적하였다. 국내 BIM 연구는 표준 기반의 체계적 발전 특성을, 국외 건설 디지털 기술 연구는 융합 기술 중심의 혁신적 발전 특성을 보이는 것으로 확인되었다. 이는 각 지역의 기술 발전 전략과 연구 문화의 차이를 반영하는 것으로 해석된다.
본 연구는 직접적 비교보다는 각 지역의 건설 기술 연구 특성을 독립적으로 분석하여 다양한 발전 방향을 제시하는 데 중점을 두었다.
5.3 연구의 한계
본 연구는 다음과 같은 한계를 가지며, 이는 결과 해석 시 고려되어야 한다.
첫째, 데이터 수집 전략의 이질성으로 인한 직접 비교의 한계가 있다. 국내 문헌은 ‘BIM’ 중심의 특정 키워드로, 국외 문헌은 건설 분야 AI 및 디지털 기술 관련 복합 키워드로 수집하여 동질적 비교 대상 구성에 제약이 있었다. 이로 인해 본 연구는 직접적 수치 비교보다는 각 영역의 고유한 특성 파악에 중점을 두었다.
둘째, 시기별 표본 크기의 현저한 편차가 시계열 분석의 균형성에 영향을 미쳤다. 초기 구간(2000-2004)의 소 표본과 최근 구간(2020~2024)의 소 표본 문제와 최근 구간의 대표본 간 약 100배 차이로 인해 초기 패턴 해석에 신중함이 요구된다.
셋째, 키워드 기반 분류에서 약 31.7%가 명확한 단계 구분이 어려운 것으로 나타났다. 이는 BIM 기술의 통합적 특성과 연구 주제의 다양성을 반영하며, 단계별 분석 결과는 명확히 분류된 문헌의 특성으로 해석해야 한다.
넷째, 학술 데이터베이스 간 특성 차이(KCI와 Science Direct의 수록 범위, 품질 기준, 언어적 차이)가 분석 결과에 영향을 미칠 수 있다.
이러한 한계에도 불구하고, 본 연구가 제시한 LDA-BERTopic 통합 분석 방법론과 25년 장기 시계열 분석은 향후 기술 동향 연구 분야에 방법론적 기여를 할 것으로 기대된다. 향후 연구에서는 동일한 검색 전략을 체계적 데이터 수집과 다중 데이터베이스 통합 분석을 통해 이러한 한계들을 보완할 필요가 있다.













