계통수
Phylogenetic Tree
📖 정의
계통수는 생물 분류군 사이의 추론된 진화적 유연관계를 형태적·유전적·분자적 특성에 기반하여 나뭇가지 형태의 분기 다이어그램으로 나타낸 것이다. 계통수는 마디(node)와 가지(branch)로 구성된다. 외부 마디(잎 또는 끝단)는 현생 또는 멸종 종 같은 조작적 분류 단위(OTU)를, 내부 마디는 추론된 공통 조상에 해당하는 가상적 분류 단위(HTU)를 나타낸다. 가지는 이 마디들을 연결하며, 계통수 유형에 따라 진화적 거리, 시간 또는 단순한 분기 순서 정보를 담을 수 있다. 유근수(rooted tree)는 모든 분류군의 최근 공통 조상을 나타내는 단일 기저 마디(뿌리)를 가지며 진화 시간의 방향성을 내포하고, 무근수(unrooted tree)는 분류군 간 상대적 관계만을 보여줄 뿐 진화 방향을 제시하지 않는다. 계통분류학의 핵심 도구로서 계통수는 생물 다양성을 계층적으로 조직하고, 계통의 진화적 기원과 다양화에 관한 가설을 검증하며, 분자시계 방법을 통해 분기 시점을 교정하고, 역학·보전생물학·생물지리학 등 실용 분야에 정보를 제공하는 역할을 한다. 계통수는 명시적으로 가설적 구조물이며, 가용 데이터와 방법론에 기초한 최선의 추론을 나타내고, 새로운 증거가 나타나면 수정될 수 있다.
📚 상세 정보
역사적 발전
생물 간의 관계를 분기하는 나무 형태로 묘사하는 개념은 생물학사에 깊은 뿌리를 두고 있다. 찰스 다윈은 1837년 노트북 B에 "I think"라는 유명한 머리글과 함께 계통수와 유사한 최초의 도식을 스케치했다. 이 단순한 분기 도식은 종이 공통 조상으로부터 변형을 수반하며 유래한다는 그의 형성 중인 사상을 보여주었다. 1859년 『종의 기원』에서 다윈은 단 하나의 그림—조상 형태가 지질학적 시간에 걸쳐 수많은 후손 종으로 다양화하는 과정을 보여주는 가상의 분기 다이어그램—만을 포함시켰다. 다윈의 도식은 추상적이며 실제 분류군을 명명하지 않았지만, 이후 모든 계통수의 개념적 토대를 마련했다.
독일의 동물학자 에른스트 헤켈은 다윈의 원리에 기반하여 실제 분류군 이름이 명시된 계통수를 최초로 출판한 인물이다. 1866년 저서 Generelle Morphologie der Organismen에서 헤켈은 '계보나무(Stammbäume)'라 명명한 정교한 계통도를 제시했으며, 여기에는 세 개의 계(식물계, 원생생물계, 동물계)가 공통 뿌리에서 분기하는 상징적인 참나무 형태 도식이 포함되었다. 헤켈은 이 동일한 저작에서 '계통발생(Phylogenie)'이라는 용어도 처음 만들었다. 헤켈이 제시한 구체적인 분류군 배치 다수는 이후 수정되었지만, 나무 다이어그램으로 진화 역사를 나타내는 그의 근본적 접근법은 생물학의 핵심으로 남아 있다.
헨니히 혁명과 분기학
계통수 구축의 현대적 방법론은 독일의 곤충학자 빌리 헨니히(Willi Hennig, 1913–1976)에 의해 크게 형성되었다. 1950년 저서 Grundzüge einer Theorie der Phylogenetischen Systematik과 1966년 영문 개정판 Phylogenetic Systematics에서 헨니히는 이후 분기학(cladistics)으로 알려지게 될 원칙들을 체계화했다. 그의 핵심 기여에는 공유 파생 형질(공유파생형질, synapomorphy)만이 분류군 묶음의 유효한 증거가 된다는 주장, 모든 인정되는 분류군이 단계통군(monophyletic, clade)이어야 한다는 요구, 그리고 종 사이의 관계가 엄격하게 자매계통(clade) 관계로 해석되어야 한다는 원칙이 포함된다. 헨니히의 틀은 체계학을 주로 직관적인 학문에서 엄밀하고 검증 가능한 방법론으로 변환시켰다. 그의 이름을 딴 빌리 헨니히 학회(Willi Hennig Society)는 계통학 연구의 선도적 학술지인 Cladistics를 지속적으로 발행하고 있다.
구조적 구성 요소와 용어
계통수는 여러 구조적 요소로 이루어져 있다. 마디(Node)는 분기점으로, 말단(외부) 마디는 연구 대상 분류군을, 내부 마디는 추론된 조상을 나타낸다. 유근수에서 최상위 내부 마디는 뿌리(Root)로, 묘사된 모든 분류군의 최근 공통 조상을 상징한다. 가지(Branch, 또는 변)는 마디들을 연결하며 진화 시간을 통한 계통을 나타낸다. 동일 내부 마디에서 분기한 두 계통을 자매 분류군(Sister taxa)이라 한다. 한 마디에서 세 개 이상의 후손 계통이 분기하는 경우를 다분기(Polytomy)라 하며, 이는 일반적으로 관계가 해결되지 않음을 나타낸다. 기저 분류군(Basal taxon)은 뿌리에서 일찍 분기하여 분지 없이 남아 있는 계통이다.
가지 길이에 담기는 정보에 따라 여러 형식으로 제시된다. 분지도(Cladogram)는 가지 길이에 정량적 의미가 없으며 위상(분기 순서)만 보여준다. 계통도(Phylogram)는 가지 길이가 추론된 형질 변화량(예: 염기 치환 수)에 비례한다. 연대도(Chronogram, 시간 보정 계통수)는 가지 길이를 지질 시간 단위로 보정하며, 흔히 화석 데이터나 분자시계 방법을 이용해 교정된다. 등거리수(Ultrametric tree)는 모든 끝단이 뿌리로부터 동일 거리에 있는 특수한 경우로, 모든 현생 분류군이 최근 공통 조상 이래 같은 시간 동안 진화해왔다는 가정을 반영한다.
구축 방법
계통수는 다양한 분석 방법으로 구축되며, 크게 거리 기반 방법과 형질 기반 방법으로 나뉜다.
거리 기반 방법은 형질 행렬(예: 정렬된 DNA 서열)을 각 분류군 쌍 사이의 진화적 발산을 나타내는 거리 행렬로 변환한 뒤, 군집화 알고리즘을 적용해 계통수를 생성한다. 가장 널리 쓰이는 거리 방법은 1987년 사이토우(Saitou)와 네이(Nei)가 개발한 이웃결합법(Neighbor-Joining, NJ)이다. NJ는 계산 효율이 높고 대규모 데이터셋에서 잘 작동하여 일반적인 초기 분석 접근법으로 사용된다. 다만 서열 데이터를 거리로 변환하면 계통학적 정보의 상세함이 손실될 수 있다.
최대절약법(Maximum Parsimony, MP)은 1970–1971년 파리스(Farris)와 피치(Fitch)가 제안한 것으로, 관측 데이터를 설명하는 데 가장 적은 진화적 변화(형질 상태 전환)를 필요로 하는 계통수를 찾는다. 오컴의 면도날 원리에 기반하며, 개념적으로 단순하고 명시적 서열 진화 모형을 필요로 하지 않지만, 특정 조건—특히 계통 간 진화 속도가 크게 다른 경우—에서 통계적으로 비일관적(inconsistent)일 수 있다. 이 현상은 장가지 끌림(Long-Branch Attraction, LBA)으로 알려져 있으며, 1978년 펠젠슈타인(Felsenstein)이 이론적으로 처음 입증했다.
최대우도법(Maximum Likelihood, ML)은 1980년대 초 펠젠슈타인이 계통학에 도입했으며, 명시적 통계 모형(예: 일반시간역행 모형, GTR) 하에서 계통수를 평가한다. 각 후보 계통수 위상과 가지 길이 세트에 대해 관측 데이터가 생성될 확률(우도)을 계산하고, 가장 높은 우도를 가진 계통수를 최적 추정치로 선택한다. ML 방법은 통계적으로 견고하며 절약법보다 체계적 오류에 덜 취약하지만, 계산 부담이 크다.
베이즈 추론(Bayesian Inference, BI)은 1990년대 라날라(Rannala)와 양(Yang)이 계통학에 도입한 것으로, 사전확률분포와 데이터의 우도를 베이즈 정리로 결합하여 계통수 위상과 매개변수의 사후확률분포를 생성한다. 마르코프 연쇄 몬테카를로(MCMC) 표본추출로 계통수 공간을 탐색하며, MCMC 실행 중 가장 빈번하게 표본추출된 위상을 최선의 추정치로 채택한다. BI는 가지 지지도의 자연스러운 척도(사후확률)를 제공하며 복잡한 모형을 효율적으로 다룰 수 있다는 장점이 있다.
다중 유전자 데이터셋에는 두 가지 주요 통합 전략이 있다. 수퍼매트릭스(연결) 방법은 여러 유전자의 정렬 서열을 끝과 끝을 이어 하나의 결합 행렬로 만들어 분석한다. 수퍼트리(합체) 방법은 먼저 개별 유전자 계통수를 구축한 뒤 이를 단일 종 계통수로 통합하며, 불완전 계통 분류(incomplete lineage sorting) 등에 의한 유전자수-종수 불일치를 고려한다.
고생물학에서의 계통수
고생물학에서 계통수는 멸종 생물의 진화적 유연관계를 이해하는 데 필수적이다. 화석에서 DNA가 보존되는 경우는 드물기 때문에, 고생물학적 계통 분석은 주로 형태학적 형질—골격 해부, 치아, 피부 부속물 등 보존 가능한 구조의 특성—에 의존한다. 형태학적 형질 행렬은 전통적으로 절약법이나, 최근에는 이산 형태 데이터에 적합한 베이즈 방법(예: Mk 모형)으로 분석된다.
특히 강력한 접근법은 총증거 연대측정(Total-Evidence Dating 또는 Tip-Dating)으로, 화석 분류군의 형태 데이터와 현생 분류군의 분자 데이터를 단일 베이즈 분석에 통합한다. 이 접근법은 계통수 위상, 화석의 배치, 분기 사건의 절대 시기를 동시에 추론한다. 공룡류, 초기 포유류, 고생대 무척추동물 등의 집단에 널리 적용되고 있다.
계통수는 공룡 체계학에 변혁적 영향을 미쳤다. 수각류 내에서 조류(Aves)가 마니랍토라(Maniraptora) 내부에 깊이 자리잡고 있음을 보여주는 수정된 유연관계, 또는 조반목과 수각류가 하나의 분지를 이룬다는 2017년 배런(Baron) 등의 "조경류(Ornithoscelida)" 가설에 대한 논쟁 등은 모두 분기학적 계통 분석의 산물이다. 새로 발견된 화석 분류군을 기존 계통수에 배치하는 작업은 깃털, 비행, 초식 적응 등 주요 적응이 언제 어떻게 진화했는지에 대한 이해를 정교화한다.
분자시계와 분기 시간 추정
분자시계 개념은 1960년대 초 에밀 추커칸들(Emile Zuckerkandl)과 라이너스 폴링(Linus Pauling)이 제안했다(1962년, 1965년 주요 논문 발표). 그들은 헤모글로빈 단백질의 아미노산 치환 속도가 시간에 따라 대체로 일정한 것으로 보인다는 점을 관찰하여, 분자적 발산을 진화적 분기 시점 추정에 사용할 수 있음을 제안했다. 엄격한 분자시계 가정은 현대 분석에서 완화되었으나(진화 속도가 계통마다 다르므로), 그 기본 원리는 현재 분기 시간 추정의 핵심이다. 현대의 이완 시계(relaxed-clock) 베이즈 방법은 계통수 전반에 걸쳐 속도가 변하는 것을 허용하며, 화석 교정점을 사용해 상대적 분자 발산을 절대 지질 시간으로 변환한다.
대규모 생명의 나무 프로젝트
모든 생명을 포괄하는 종합적 계통수를 구축하려는 열망은 여러 대규모 협력 프로젝트를 추진해왔다. Open Tree of Life 프로젝트는 2015년 첫 번째 합성 계통수 초안을 발표했으며(Hinchliff et al., PNAS), 약 230만 개의 명명 종을 포괄했다. 이 계통수는 출판된 계통학 연구와 분류학 데이터를 합성하여 조립되었다. 최근 업데이트 기준 합성 계통수는 약 240만 개의 끝단을 포함하며, 이 중 약 87,000개 분류군의 관계가 1,200편 이상의 동료 심사 계통학 연구에 의해 뒷받침된다. 나머지 계통수는 계통학적 데이터가 가용하지 않은 부분에 분류학 데이터로 뼈대를 제공한다. Open Tree of Life는 온라인에서 무료로 접근 가능하며, 새로운 연구가 포함될 때마다 지속적으로 갱신된다.
기타 중요한 자원으로는 출판된 계통학 데이터의 저장소인 TreeBASE, 모든 종과 생물 집단에 대한 정보 페이지 제공을 목표로 한 Tree of Life Web Project (tolweb.org) 등이 있다.
한계와 과제
계통수는 가설이며, 여러 잘 알려진 오류 및 불확실성의 원인에 영향을 받는다. 장가지 끌림(LBA)은 빠르게 진화하는 계통이 수렴적 치환으로 인해 잘못 묶이는 현상으로, 특히 절약법 분석에서 발생한다. 유전자수-종수 불일치는 불완전 계통 분류, 유전자 중복·소실, 수평 유전자 전달 등의 과정으로 인해 개별 유전자의 진화 역사가 종의 역사와 다를 때 발생한다. 결측 데이터는 특히 보존이 불완전한 고생물학적 데이터셋에서 흔하며, 추론된 계통수의 해상도와 정확도를 떨어뜨릴 수 있다. 모형 오지정(데이터에 맞지 않는 진화 모형 사용)도 결과를 편향시킬 수 있다.
추론된 유연관계의 신뢰도를 평가하기 위해 여러 통계적 척도가 사용된다. 부트스트랩 지지도(1985년 펠젠슈타인이 도입)는 데이터 행렬에서 형질을 재표본추출하여 주어진 분지군을 회복하는 재표본 데이터셋의 비율을 측정한다. 사후확률은 베이즈 분석에서 데이터와 모형이 주어졌을 때 특정 분지군의 확률을 나타낸다. 브레머 지지도(쇠퇴지수)는 절약법 분석에서 특정 분지군이 더 이상 회복되지 않으려면 몇 단계가 추가로 필요한지를 측정한다.
체계학을 넘어선 응용
계통수는 분류학을 넘어 광범위한 응용 분야를 가진다. 역학에서는 병원체 유전체의 계통 분석이 감염병의 기원, 전파 경로 및 진화를 추적하는 데 사용된다—MRSA, 에볼라, SARS-CoV-2 유행 추적에서 입증된 바와 같다. 보전생물학에서는 계통적 다양성 지표가 보호해야 할 종과 지역의 우선순위를 정하는 데 도움을 주어, 진화 역사의 최대량이 보존되도록 한다. EDGE(진화적으로 구별되고 전 세계적으로 멸종 위기에 처한) 프로그램은 계통적 독특성과 멸종 위험을 결합하여 보전 우선순위 종을 식별한다. 비교생물학에서는 계통수가 형질 진화, 적응, 형질 간 상관 변화에 관한 가설을 검증하기 위한 통계적 틀을 제공하며, 계통학적 독립대조(phylogenetic independent contrasts)와 계통학적 일반최소자승법(PGLS) 같은 방법이 사용된다. 생물지리학에서는 시간 보정 계통수와 지리 데이터를 결합하여 현재 생물 다양성 분포를 형성한 분산 및 분단 역사를 밝힌다.