Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1229-6457(Print)
ISSN : 2466-040X(Online)
The Korean Journal of Vision Science Vol.26 No.3 pp.185-193
DOI : https://doi.org/10.17337/JMBI.2024.26.3.185

Reliability and Compatibility of Stereotests

Dae-Gwang Wi, Jung-Ho Youn, Ki-Seok Lee
Dept. of Optometry, Yeoju Institute of Technology, Professor, Yeoju
* Address reprint requests to Dae-Gwang Wi (https://orcid.org/0000-0002-6058-0567) Dept. of Optometry, Yeoju Institute of Technology, Yeoju TEL: +82-31-880-5437, E-mail: mlux@yit.ac.kr
September 8, 2024 September 25, 2024 September 25, 2024

Abstract


Purpose : This study was to investigate the reliability and commutability of stereotests.



Methods : The subjects consisted of 30 who had never been diagnosed with any ophthalmic disease and had a corrected visual acuity of 20/20 or higher. After confirming the refractive error, stereopsis tests (Titmus, Lang II, Tieno, and Frisbee tests) were performed twice with an interval of at least one day. Reliability analysis between stereotests was performed using the intraclass correlation coefficient (ICC).



Results : Among the stereopsis test evaluated for reliablity through repeated measures, only the Frisby test (p=0.103, ICC=0.99) showed high reproducibility. A comparison between stereopsis tests showed good compatibility between the Frisby and TNO tests(p=0.358, ICC= 0.89). In cases where a small difference of less than 20 seconds was shown, it also accounted for the largest proportion of all comparisons of inspection stereotests at 42%.



Conclusion : It is recommended that the progress of stereopsis testing be maintained consistently between visits, but depending on the characteristics of the testing methods, it is necessary to evaluate them together with stereopsis testing that has good reliability and compatibility. The results of this study showed that the Frisby test had good reliability and compatibility, so it is thought to be useful to evaluate it together with other tests.



입체시 검사의 신뢰도와 호환성

위대광, 윤정호, 이기석
여주대학교 안경광학과, 교수, 여주

    Ⅰ. 서 론

    입체시는 융합상태에서 양안의 망막에 투영된 이미지 사이의 시차를 바탕으로 물체의 상대적인 깊이를 시피질에서 처리하는 능력으로 가장 높은 수준의 양안시기능의 중요한 기준이 된다고 할 수 있다. 입체시의 평가 목적은 환자의 양안시 상태의 정상 여부와 함께 이전 소견과 비교해서 변화되었는지를 판단하기 위해 현재 양안시 상태를 평가하는 것이다. 또한, 입체시 감소의 확인으로 간헐성 외사시 수술 여부를 결정하는 것과 같이 안과적으로도 매우 중요하게 활용되고 있다.1)

    입체시 검사는 시기능 평가의 매우 중요한 필수 요소라고 할 수 있고, 검사 결과가 미치는 영향을 고려하면 정확한 평가와 해석이 필요하다.

    입체시 검사는 현재 매우 다양한 검사방법들이 있다. 현재 많이 사용되고 있는 입체시 검사는 티트무스 검사, 랑 검사, 란도트 검사, 티엔오 검사 등이 주로 사용되고 있다. 임상에서 주로 사용되는 입체시 검사법들은 측정 가능한 범위를 포함하여, 단안단서의 존재, 편광필터의 사용, anaglyph 안경사용, 실제 깊이를 활용하는 등의 각기 다른 방법으로 이미지를 표현하고 있어 원리 측면에서 크게 다르다.2)

    입체시 검사시 다양한 검사방법들을 모두 사용할 수 없기 때문에 각 입체시 검사법들이 가지고 있는 단안단서, 추측할 수 있는 가능성(선택 보기의 수), 측정 범위의 차이 등과 같은 한계점으로 인해 결과에 영향을 받을 수 있다.

    위와 같이 검사 원리 및 특성 차이로 인한 다른 검사들 간의 한계점뿐만 아니라 같은 검사방법 내에서도 한계점이 존재한다. 예를 들어, 최근 버전의 TNO 검사 결과가 이전 버전에 비해 더 낮은 입체시를 보인다고 하여 같은 검사 방법 내에서도 차이를 보이며,3) Titmus test의 경우는 가장 큰 시차인 3000″는 단안 주시로도 쉽게 인식할 수 있기 때문에 확인하는 과정이 필요하다.4) Frisby stereotest는 입체감 제공을 위한 검사용 안경을 착용하지 않고 시차를 이용하여 실제 깊이의 차이를 측정하는 검사로 임상에서 주로 사용하고 있는 편광안경을 이용한 검사들과는 차이를 보인다. 이와 같이 각 검사방 법에 대한 정의와 분석적 특이성이 존재하기 때문에 측정방법에 따른 결과 차이의 가능성이 존재한다. 하지만, 정밀한 검사방법 숙지 부족이나 검사자의 단순 선호도에 따라 재방문 시 다른 입체시 검사를 사용하는 등과 같이 검사방법들의 특성과 측정결과 차이가 고려되지 않은 한계성으로 인해 신뢰도가 낮다고 할 수 있다. 이는 치료나 처치에 적절한 검사방법을 효과적으로 사용하지 못할 수 있는 잠재적인 원인이 될 수 있으므로, 입체시의 측정은 더 정확하고 안정적으로 해야 한다. 검사의 방법론적 측면에서 검사용 안경을 통해 입체감을 제시하고 있는 검사와 검사용 안경을 착용하지 않고 시차를 이용하여 실제 깊이 차이를 측정할 수 있는 검사 간의 자료 또한 부족한 실정이다.

    따라서 본 연구에서는 각각의 입체시 검사법들의 재현성을 바탕으로 검사방법 간의 특성을 고려한 교환가능성(commutability)에 대해 확인하고자 하였다.

    Ⅱ. 대상 및 방법

    1. 대상자 선정

    본 연구의 대상자들은 안과적 질환이 없는 20세 이상 (평균연령 34.37±2.38, 남자 18명, 여자 12명)의 성인으로 하였다. 모든 대상자들의 양안시력은 0.1 logMAR (Snellen 시력 약 0.8)이상이고, 양안시력차이는 0.2 logMAR 미만인 사람을 대상으로 하였다. 양안 2디옵터 이상의 구면렌즈대응치 차이가 나는 경우는 대상에서 제외하여 굴절부등의 영향을 배제하였다. 또한, 대상자들에게 검사 진행 방법과 연구목적에 대해 충분히 설명을 한 후 동의를 얻어 진행하였다.

    2. 연구방법

    1) 굴절검사

    굴절이상검사는 자동굴절검사기(KR-800, Topcon, Japan)와 검영기(Elite™ Retinoscope, WelchAllyn, Germany)를 이용한 타각적 굴절검사 값과 포롭터(Reichert phoroptor 11625B, Reichert, USA)를 이용하여 자각적 굴절검사 값을 측정하였으며, 최대교정시력이 20/20 이상인 대상자만을 선정하여 입체시 검사를 진행하였다.

    2) 입체시 검사

    입체시 검사는 티트무스 검사(Titmus stereotest, Stereo Optical Co. Inc., USA), 랑Ⅱ 검사(Lang Ⅱ streotest, Haag-Streit Service Inc., USA), 티엔오 검사(TNO Stereotest, Lameris Tech., Netherlands), 프리즈비 검사(Frisby Stereotest, Clement Clarke, Harlow, England)를 실시하였으며 검사순서는 바이어스(bias)를 최소화하기 위해 무작위로 진행하였다.

    티트무스 검사는 편광안경을 착용한 후 두 단계 연속된 오답이나 무반응의 전 단계를 측정하였고, 측정 범위는 40초에서 3,000초까지 입체시를 측정하였다.

    티엔오 검사는 적록안경을 착용하고 두 단계의 그림 중 하나 이상을 잘못 표현하거나 반응을 하지 않는 전 단계의 시차를 한계점으로 측정하였고, 15초에서 480초 까지의 6단계를 이용하였다.

    랑Ⅱ 검사는 안경을 착용하지 않고 200초(달), 400초(자동차), 600초(코끼리)까지 3단계로 측정하였고, 단안으로도 인식할 수 있는 ‘별’ 그림에만 반응하는 경우는 입체시가 결여된 것으로 판단하였다.

    프리즈비 검사는 안경을 착용하지 않고 두께가 다른 세 장의 투명한 검사판(1.5 mm, 3 mm, 6 mm)에 그려진 네 개의 삼각형 무늬들을 보고 입체감을 인식할 수 있을 때까지 최소 이동간격을 10 cm로 하여 대상자로부터 150 cm까지 타겟을 이동시켜 입체감 인식 최대거리를 반영하여 입체시 임계값을 산출하였다.

    모든 입체시 검사는 양안 주시 불일치로 인한 시차를 피하기 위해 턱받침에 머리를 얹은 상태로 검사를 진행 하였으며, 훈련 효과를 피하기 위해 두 번째 검사는 최소 하루 이상의 간격을 두고 검사하였다.

    3. 통계분석

    모든 입체시 결과값은 정규 분포에 가깝도록 로그 변환 하여 통계 분석하였다. 입체시 검사 간 임계값의 차이는 Wilcoxon singed-rank를 사용하였다. 상관분석 유의수 준은 0.050 이하로 하였으며, 입체시 검사 간 다중비교의 유의 수준은 Bonferroni 교정을 사용하여 0.008로 하였다. 입체시 검사법 간의 신뢰도 분석은 급내상관계수 ICC(2,1)를 실시하였다.5) 통계처리는 SPSS software (ver 29.0, SPSS Inc., Chicago, USA)로 분석하였다.

    Ⅲ. 결 과

    1. 연구대상자의 일반적 특성

    Table 1은 연구에 참여한 대상자 30명(남자: 18명, 여자: 12명)의 등가구면굴절력과 입체시 검사 결과를 나타냈다. 대상자 전체 등가구면굴절력은 –3.70±4.47 D (남자: –3.13±3.23 D, 여자: –4.26±3.21 D)로 나타났다. 입체시 검사 결과 랑 Ⅱ 검사에서 가장 크게 나타났으며(test 1: 306.67±146.06, test 2: 306.67± 136.29), 프리즈비 검사에서 가장 작게 나타났다(test 1: 88.67±113.42, test 2: 76.00±70.92). 첫 번째 검사와 두 번째 검사 결과의 차이가 가장 큰 것은 티트무스 검사로 나타났다(test 1: 113.67±84.75, test 2: 79.33±42.79).

    2. 입체시 검사의 신뢰성

    Table 2는 각 입체시 검사의 첫 번째와 두 번째 측정 값과 일치도를 통해 신뢰도를 확인하였다. 검사를 반복 하였을 때 랑 Ⅱ 검사(p=0.791)와, 프리즈비 검사(p= 0.103)를 제외한 티트무스 검사(p=0.001)와 티엔오 검사(p=0.013)는 첫 번째 검사와 두 번째 검사 간 유의미한 차이를 보이지 않았다. 또한 측정자내 신뢰도를 위해 확인한 급내상관계수에서 프리즈비 검사는 0.99, 랑 Ⅱ 검사는 0.77로 나타났다.

    티트무스 검사에서만 두 번째 검사의 IQR이 더 낮게 나타났는데, 이는 학습효과가 있을 수 있다고 볼 수 있는 결과이다.

    Fig. 1에서는 각 입체시 검사의 첫 번째 검사와 두 번째 검사 간의 로그 값으로 환산된 입체시 결과를 나타내 었다. 점 왼쪽에 있는 숫자는 입체시의 결과 값이 두 개 이상 겹치는 경우를 표시했으며, 숫자가 없는 경우는 단일 결과값을 나타낸다. 랑 Ⅱ 검사와, 프리즈비 검사에서 겹치는 지점이 많은 것으로 보인다. 하지만 랑 Ⅱ 검사는 측정 가능 범위가 200초, 400초, 600초의 3 단계로 인한 결과로 볼 수 있다. 더 넓은 범위검사가 가능하고 밀집되어 있는 것은 프리즈비 검사로 나타났다. 각각의 입체시 검사는 같은 대상자에서도 검사의 특성 및 한계점으로 인해 같은 다른 결과를 보였고, 정확한 입체시의 임계값의 확인에는 프리즈비 검사가 좋은 것으로 나타났다.

    3. 입체시 검사 간의 비교

    입체시 검사 간의 비교에서는 연습효과를 최소화하기 위해 첫 번째 검사에서 얻은 결과 값을 이용하였다. 프리즈비 검사와 티엔오 검사(p=0.358, ICC=0.89), 티트무스 검사와 티엔오 검사(p=0.015, ICC=0.71)를 제외한 모든 검사 간의 비교에서 통계적으로 유의한 차이를 보였다(Table 3). 티트무스 검사와 티엔오 검사의 비교에서는 기존의 p<0.050 수준에서는 유의미 했지만 Bonferrioni 보정 후에는 의미 있는 차이를 보이지 않았으나 급내상관계수에서는 0.71의 낮은 신뢰도를 보였다. 또한 티트무스 검사와 티엔오 검사(mean bias: 0.11), 프리즈비 검사와 티엔오 검사(mean bias: 0.21)로 측정된 입체시 결괏값의 차이가 비슷하게 나타났으나 둘 모두에서 티엔오 검사가 조금 나쁘게 측정되는 것을 확인할 수 있었다.

    다른 검사와 달리 프리즈비 검사와 비교에서 전반적 으로 좋은 호환성을 보이는 경향으로 보였으며, 랑 Ⅱ 검사는 모든 검사와 비교에서 더 나쁘게 측정되는 경향을 보였다.

    중복된 결과 값을 반영하기 위해 검사 간의 입체시 결과 차이를 세 그룹으로 나누어 비교해 보았다. Table 2 에서 통계적으로 의미 있는 차이를 확인할 수 없었던 프리즈비 검사와 티엔오 검사에서 에서는 20초 이하의 차이를 보이는 경우가 42%, 20~100초의 차이가 47%를 보이는 반면, 티트무스 검사와 티엔오 검사에서는 80%의 대부분이 20~100초의 큰 차이를 보이는 경향으로 나타났다. 티트무스 검사와 프리즈비 검사에서 또한 20~100초의 차이를 보이는 경우가 73%로 많긴 했으나, 티트무스와 티엔오 검사 보다 20초 미만의 차이를 보이는 경우가 더 많아지는 경향을 확인할 수 있었다.

    Ⅳ. 고찰 및 결론

    입체시의 정상 기준은 검사방법이나 검사자에 따라 차이가 있으나 대체로 30~50초의 범위로 알려져 있다.6) 입체시 검사는 타겟의 유형에 따라 윤곽입체시와 난점입체시로 분류할 수 있다. 윤곽입체시와 편광안경을 사용하는 티트무스 검사는 3,000초까지 측정 가능하다. 난점입체시와 적록안경을 사용하는 티엔오 검사는 480초까지 측정 가능하며, 티트무스 검사의 단점인 단안단서(monocular clue)를 배제할 수 있는 특징이 있다. 난점 입체시와 회절격자를 이용하는 랑 Ⅱ 검사는 안경을 사용하지 않고 검사할 수 있어 어린아이에게 유용하나 검사 가능 범위 및 단계가 200, 400, 600초로 민감도가 떨어지는 편이라고 할 수 있다. Cho 등은 정상인 50명을 대상으로 진행한 티트무스 검사, 란도트 검사, 티엔오 검사에서 정상 입체시 기준을 각각 50, 50, 120초로 제시 하였고, 티엔오 검사와 다른 두 검사 간의 낮은 상관관계 또한 보고하여 같은 대상자에서 검사 방법에 따라 입체시 결과가 다르게 나타났다고 하였다.7) 또한 검사법에 따라 입체시의 민감도와 특이도가 다르다고 보고한 연구들도 있었다.8,9)

    입체시는 가장 고도의 기능에 속하는 양안시 기능의 척도라 할 수 있으나 위와 같이 검사 방법들의 특성 및 한계점으로 인한 신뢰도와 재현성을 고려하지 않고 단순 검사자의 선호도에 의존하여 진행되고 있는 실정이다. 이에 실제 임상에서 주로 사용되고 있는 검사들의 신뢰도와 검사들 간의 호환성을 확인해 보고자 하였다.

    본 연구에서 같은 검사로 두 번 검사했을 때 입체시 결과 값의 일치도를 통해 신뢰도를 확인한 결과, 프리즈비 검사와 티엔오 검사에서 의미 있는 차이를 확인할 수 없었고, 특히 프리즈비 검사이 경우 mean bias가 0.03 log seconds of arc(약 1.10 seconds of arc)로 가장 작은 차이를 보였다(p=0.103). 이는 정상 양안시를 갖는 성인을 대상으로 프리즈비, 티엔오, 란도트, 티트무스 검사 중 프리즈비 검사의 재현성이 가장 좋다고 보고한 연구와 같은 결과를 보였다.10) 또한 검사들의 측정자내 신뢰도 확인을 위해 급내상관계수에서도 프리즈비와 티엔오 검사가 각각 0.99와 0.93의 매우 높게 나타나 높은 신뢰도를 보였다.

    선행연구에 의하면 자극을 제시하는 방법의 차이로 인하여 깊이를 인식하는 지각의 차이 발생하는 가변성이 존재할 수 있다고 하였다.11) 또한 검사 진행 시 편광 안경과 적록 안경 등을 사용하는 방법으로 인해 오류가 발생 할 수 있고 입체시력을 감소시킨다고 하였다.12) 본 연구의 결과 모든 검사와 비교에서 랑 Ⅱ 검사가 입체시 력의 역치값이 더 높게(더 나쁘게) 측정되는 결과를 보였고, 이는 티엔오 검사가 더 안 좋게 측정된다는 선행 연구와 다르게 나타났다.13) 하지만 선행연구에서는 검사 범위가 가장 넓은 랑 Ⅱ 검사가 포함되어 있지 않았기 때문으로 생각된다.

    본 연구에서 입체시 검사 간의 비교를 통해 호환성을 확인한 결과 프리즈비 검사와 티엔오 검사(p=0.358, ICC=0.89)와 티트무스 검사와 티엔오 검사(p=0.015, ICC=0.71)를 제외한 모든 검사에서 통계적으로 유의한 차이를 보였다. 티트무스 검사와 티엔오 검사에서는 기존의 p<0.050 수준에서는 유의 했지만 Bonferrioni 보정 후에는 의미 있는 차이를 보이지 않았으나 급내상관 계수에서는 0.71의 상대적으로 낮은 신뢰도를 보였다.

    또한 입체시 검사들의 결과 차이를 정도에 따라 세 그룹으로 나누어 비교한 결과 랑 Ⅱ 검사와 비교한 나머지 검사들 모두에서 90% 이상이 100초 이상의 큰 차이를 보였다. 이는 랑 Ⅱ 검사의 측정 단위가 200, 400, 600초로 매우 크기 때문으로 생각된다. 프리즈비 검사와 티엔오 검사에서는 가장 작은 차이를 보였으며(<20초: 42%, 20~100초: 47%), 티트무스 검사와 프리즈비 검사의 비교에서도 상대적으로 작은 차이를 확인할 수 있었으나(<20초: 25%, 20~100초: 73%) 통계적으로는 두 검사 간의 유의한 차이를 보였고, 급내상관계수 또한 낮게 나타났다(p<0.001, ICC=0.77).

    본 연구의 결과 티트무스 검사는 검사 자체의 재연성이 좋지 않았고, 랑 Ⅱ 검사는 나머지 모든검사와 낮은 상관성을 보였다. 이는 티트무스 검사의 훈련효과와 랑 Ⅱ 검사의 측정 가능 범위의 한계로 생각되므로 티트무스 검사 및 랑 Ⅱ 검사와는 다른 검사와 상호 교환하여 사용하기에는 무리가 있어 보인다. 반면, 프리즈비 검사와 티엔오 검사는 상호 교환하여 사용할 수 있을 것으로 생각되며, 특히 프리즈비 검사는 다른 검사들과 높은 호환성을 갖는다고 할 수 있겠다. 이는 실제 깊이를 제공하고 입체시의 임계값을 측정할 수 있는 프리즈비 검사의 특성이 반영된 것으로 결과로 보인다.

    Ⅴ. 결 론

    1. 입체시 검사방법의 호환성은 편광안경, 적록안경 등의 검사방법이 같은 검사로 진행하는 것이 좋으나 검사의 재현성을 고려한 선택이 필요할 것으로 생각된다.

    2. 입체시 검사의 진행은 방문 간에 일정하게 유지되는 것이 좋으나 검사 방법들의 특성에 따라 다른 결과를 보이기 때문에 신뢰도 및 호환성을 반영한 동시 비교가 필요하다.

    3. 실제 깊이를 제공하여 입체시의 임계값을 측정할 수 있는 프리즈비 검사와 함께 평가하는 것이 더욱 정확한 입체시 평가에 유용할 것으로 사료된다.

    Conflict of interest

    The authors conclude that they have no interest in the products associated with this study.

    Figure

    KJVS-26-3-185_F1.gif

    Scatterplot of the first and second results of each stereotest. The numbers to the left of the dots indicates cases where the setreotest results overlap.

    KJVS-26-3-185_F2.gif

    Difference in results between stereotests. Group 1: <21 seconds of arc, Group 2: 21~100 seconds of arc, Group 3: >100 seconds of arc.

    Table

    General characteristics of the subjects

    SD<sup>†</sup>: standard deviation, SE<sup>*</sup>: spherical equivalent

    Median presented in seconds of arc and log values. Paired comparison(Wilcoxon signed-rank test) of stereo thresholds within each stereotest (N=30)

    IQR<sup>†</sup>: interquartile range, ICC<sup>*</sup>: intraclass correlation (below 0.50: poor, between 0.50 and 0.75: moderate, between 0.75 and 0.90: good, above 0.90: excellent)

    Paired analysis between second stereotests (Wilcoxon signed-rank test)

    <i>p</i> value<sup>†</sup>: significant at <0.008 (Bonferroni correction for multiple comparisons)
    Mean bias<sup>*</sup>: positive mean bias means the first test had a higher log seconds of arc

    Reference

    1. Stathacopoulos RA, Rosenbaum AL et al.: Distance stereoacuity: assessing control in intermittent exotropia. Ophthalmology 100(4), 495-500, 1993.
    2. O'connor AR, Tidbury LP: Stereopsis: are we assessing it in enough depth?. Clin Exp Optom. 101(4), 485-494, 2018.
    3. van Doorn LL, Evans BJ et al.: Manufacturer changes lead to clinically important differences between two editions of the TNO stereotest. Ophthalmic Physiol Opt. 34(2), 243-249, 2014.
    4. de La Cruz A, Morale SE et al.: Modified test protocol improves sensitivity of the stereo fly test. Am Orthopt J. 66(1), 122-125, 2017
    5. Koo TK, Li MY: A guideline of selecting and reporting intraclass correlation coefficients for reliability research. J Chiropr Med. 15(2), 155– 63, 2016.
    6. Nagata S: The binocular fusion of human vision on stereoscopic displays—field of view and environment effects. Ergonomics 39(11), 1273-1284, 2007.
    7. CHO YA, CHO SW et al.: Evaluation of criteria of stereoacuity for Titmus, Randot & TNO stereotests. J Korean Ophthalmol Soc. 40(2), 532-537, 1999.
    8. Yang JW, Son MH et al.: A study on the clinical usefullness of digitalized random-dot stereoacuity test. J Korean Ophthalmol Soc. 18(2), 154-160, 2004.
    9. Fawcett SL: An evaluation of the agreement between contour-based circles and random dot-based near stereoacuity tests. J AAPOS 9(6), 572-578, 2005.
    10. Antona B, Barrio A et al.: Intraexaminer repeatability and agreement in stereoacuity measurements made in young adults. Int J Ophthalmol. 8(2), 374, 2015.
    11. Leske DA, Birch EE et al.: Real depth vs randot stereotests. Am J Ophthalmol. 142(4), 699-701, 2006.
    12. Serrano-Pedraza I, Vancleef K et al.: Avoiding monocular artifacts in clinical stereotests presented on column-interleaved digital stereoscopic displays. J Vis. 16(14), 13-13, 2016.
    13. Mehta J, O’Connor A et al.: Test retest variability in stereoacuity measurements. Strabismus 31(3), 188-196, 2003.