Korean Translation of the GRADE Series Published in the BMJ, ‘GRADE: Grading Quality of Evidence and Strength of Recommendations for Diagnostic Tests and Strategies’ (A Secondary Publication)
Article information
Abstract
This article is the fourth translation of a GRADE series published in the BMJ, which graded the quality of evidence and strength of recommendations for diagnostic tests or strategies, as a comprehensive and transparent approach for developing recommendations. Randomized trials for diagnostic approaches represent the ideal study design for intervention studies. On the other hand, cross-sectional or cohort studies with a direct comparison of the test results with an appropriate reference standard can provide high-quality evidence. The guideline panel must be reminded that the test accuracy is a surrogate for patient-important outcomes, so such studies often provide a low quality of evidence for recommendations regarding diagnostic tests, even when the studies do not have serious limitations. Diagnostic accuracy studies showing that a diagnostic test or strategy improves important patient outcomes will require the availability of effective treatment, reduction of test-related adverse effects or anxiety, or improvement of the patients’ well-being from prognostic information. Therefore, it is important to assess the directness of the test results regarding the consequences of diagnostic recommendations that are important to patients.
GRADE: 진단검사(Tests and Strategies)의 근거수준(Quality of Evidence) 및 권고강도 Strength of Recommendation) 평가
중재(intervention) 효과의 근거수준 및 권고강도를 평가하기 위해 GRADE system을 이용한 것과 마찬가지로 진단검사에서 역시 GRADE를 이용할 수 있으며 이러한 과정에서 어떻게 환자에게 중요한 의료결과(patient-important outcome)를 고려하여 평가하는지에 대하여 본 논문은 설명하고자 합니다.
비록 진단 영역에 있어 권고는 중재에 대한 것과 마찬가지로 GRADE의 방법론적 기반을 공유하고 있으나 특유의 어려움(challenges)이 있는 것이 사실입니다. 권고의 기반으로서 진단 정확도(test accuracy)의 근거를 이용할 때 진료지침 개발 패널은 왜 주의가 필요한지 또 진단 정확도의 근거는 보통 근거수준 낮음(low quality of evidence)으로 평가되는지 저자들은 설명하고자 합니다.
1. 진단과정(Testing)은 치료과정(Patient Care)에 다양한 방식으로 기여합니다.
임상 의사는 증상, 영상검사, 그리고 생화학적 검사를 포함한 진단법을 신체의 생리학적 이상상태(derangement)를 평가하고, 질환을 진단하며, 환자의 상태를 추적하며, 예후를 예측하기 위해 이용합니다[1]. 본 논문은 질환(예, 결핵), 환자상태(target condition: 예, 철 결핍), 또는 증후군(예, 쿠싱 증후군) 유무를 판단하기 위한 진단검사에 집중하고자 합니다.
임상 의사는 보통 진단검사를 하나의 묶음(package)으로 또는 일련의 과정(strategy)으로 이용합니다. 예를 들면 수술이 가능한 폐암 환자에서, 임상 의사는 바로 가슴절개술(개흉술: thoracotomy)을 시행할 수도 있으며 또는 뇌, 뼈, 간, 부신의 영상학적 평가에 따른 추가적인 진단과정(strategy)으로 이용할 수도 있습니다. 그래서 우리는 평가(evaluating) 또는 권고(recommending)를 하나의 진단검사라기 보다는 진단과정으로 생각할 수 있습니다. 진단검사(test or strategy) 진료지침 개발 패널은 환자(P: patients), 진단검사(diagnostic intervention), 비교검사(C: comparison), 건강결과(O: outcome)를 반드시 구분하여야 합니다(Box) [2-5].
2. 진단 정확도는 환자에게 중요한 궁극적 의료결과(Patient-Important Outcome)의 대리결과(Surrogate Outcome)이다.
본 논문은 환자에게 중요한 의료결과에 대하여 진단검사가 미치는 영향에 대한 근거의 질을 평가할 수 있는 분석적 틀(framework)을 제공하고자 합니다. 보통 임상 의사는 진단검사를 시행할 때 검사가 질환을 가지고 있는지 없는지를 얼마나 잘 분류하는지를 의미하는 진단검사의 정확도(민감도 및 특이도)를 고려합니다. 그러나 기본적인 가정은 질환의 유무에 대한 정확한 진단이 건강결과에 어떤 영향을 미치는가에 대한 이해입니다. 이러한 가정을 설명하는 예로서, 수술이 가능한 폐암 환자에서 추가적인 영상검사는 가슴절개술의 이환율(morbidity)과 초기사망률(early mortality)을 고려할 때 무의미한 수술을 피할 수 있다는 것입니다. 심혈관질환 유무 평가를 위한 새로운 검사법(예, 고식적 혈관조영술에 대한 전산화 단층촬영)은 더 침습적이고 비싼 검사와 연관된 합병증을 줄일 수 있을 것입니다[6].
진단과정 평가를 위한 가장 좋은 방법은 (특히 검사 정확도가 높은 새로운 진단과정인 경우) 무작위 대조군 연구로서 연구자는 중재 검사군과 비교검사군을 무작위 할당하여 사망률, 이환율, 증상 및 삶의 질을 평가하는 것입니다(Fig. 1) [7-12].
환자에게 중요한 의료결과에 대한 대체 진단과정을 평가할 수 있는 진단검사연구(이상적으로 무작위 대조군 연구이나 관찰연구를 포함하여)가 존재할 때, 임상진료지침 개발 패널들은 이전 본 논문의 시리즈에서 언급된 GRADE 방벙론을 이용할 수 있습니다[13,14]. 그러나 그러한 연구가 존재하지 않는다면 진료지침 개발 패널들은 진단 정확도 연구를 이용할 수 밖에 없으며 환자에게 중요한 의료결과에 진단 정확도가 미치는 영향을 추론하여야만 합니다[15]. 중요한 임상 질문(key questions)은 위음성(false negative) 또는 위양성(false positive)의 감소 또는 이와 대응되는 진양성(true positive) 그리고 진음성(true negative)의 증가가, 진단검사 과정에 의해 환자가 얼마나 정확하게 분류되었는지, 질병군으로 분류되거나 비질병군으로 분류된 환자에서 어떤 건강결과가 발생하였는지 확인하는 것입니다(Table 1 and Appendix 1) [12].
3. 환자에게 중요한 의료결과 추론을 위한 간접적 근거(Indirect Evidence) 이용하기
환자에게 중요한 의료결과를 향상시키는 진단검사 또는 과정에 대한 근거로부터 추론은 효과적 중재의 이용가능성(availability)에 기반한다[1]. 대안으로, 심지어 효과적인 중재법이 없다고 하더라도 정확한 진단검사는 진단과 연관된 부작용 또는 불안을 낮출 수 있거나 또는 예후 정보제공을 통하여 환자에게 만족감(well-being)을 줄 수 있는 이점이 있을 수 있다.
예를 들면, 치료가 어려운 헌팅턴 무도병(Huntington’s chorea)의 유전자 검사는 진단의 확진 외에도 추후 증상의 발현할 때에 대한 계획을 세우기 위해 도움이 될 수 있다. 이러한 장점은 효과적 중재를 받는 것과 유사할 수 있으며 조기 검진을 통한 미래의 질환을 예측하여 준비하는 것은 조기 진단의 위해(downsides)와 함께 고려되어야 합니다[16-18]. 이번에는 바람직한 결과(desirable)와 바람직하지 않은 결과(undesirable consequences)의 균형에 영향을 줄 수 있는 요소에 대하여 근거의 질 관점에서 설명하고자 합니다. 결과를 분류하는 단순한 방법인 2×2 table로서 진양성, 진음성, 위양성, 위음성을 이용하여 설명하고자 합니다.
4. 주어진 근거의 질에 대한 판정(Judgement)
1) 연구 비뚤림 위험(Study design and limitations [risk of bias])
GRADE 방법론은 환자에게 중요한 의료결과에 대한 진단검사과정의 신뢰도를 표현하는 근거수준을 4가지로 분류합니다[14]. Table 2는 GRADE 방법론이 근거수준을 어떻게 평가하는지에 대하여 보여줍니다. 무작위 대조군 연구는 진단검사 연구의 임상 권고(recommendation)를 만들기 위해 이상적 연구설계입니다. 그럼에도 불구하고, GRADE 방법론은 진단검사에 타당한 다른 연구설계 역시 근거수준 ‘높음’으로 평가합니다. 그러나 그런 연구설계는 비뚤림 위험에 취약하며 환자에게 중요한 의료결과에 대한 간접적 근거를 제시함으로서 종종 권고를 위한 낮은 근거수준을 제공합니다(Appendix 2) [12].
진단검사에 대한 타당한 연구설계는 타당한 진단적 불확실성이 존재하는 대표성 있고(representative) 연속적으로(consecutive) 모집된 환자군을 모집한 것으로 예를 들면 일반적 진료현장에서 임상 의사가 그 진단법을 적용하게되는 환자군을 의미한다. 만약 이러한 기준을 충족하지 못한다면, 예를 들어 중증 환자군과 건강한 대조군을 모집한다면, 진단 정확도는 명백히 잘못 해석될 수 있을 것이다[19,20]. 타당한 연구는 우리가 연구하고자 하는 중재 검사와 적절한 참고표준검사(reference, 흔히 황금표준으로 불리는 [gold standard])를 비교하여야 한다. 모든 대상 환자군에서 그러한 비교를 시행하지 못한다면 비뚤림 위험은 높아진다. 만약 진단검사를 시행하는 또는 해석하는 연구자가 참고표준검사 또는 황금표준검사 결과를 먼저 인지하고 있다면 연구 비뚤림 위험은 역시 높아질 것이다. 진료지침 개발 패널들은 진단 정확도 연구의 비뚤림 평가를 위해 이미 개발된 도구를 사용하고 만약 심각한 비뚤림 위험(serious limitations)이 있다면 근거수준을 낮출 수 있다[21-25].
2) 직접성(Directness)
직접성을 평가하는 것은 진단검사에 대한 임상 권고를 개발하는 진료지침 개발 패널들에게 아마도 힘든 과정일 것입니다. 예를 들면, 새로운 검사가 낮은 위험도와 가격이 낮다면 하기 쉽겠지만, 위양성 및 위음성이 발생할 수 있습니다. 심혈관질환 진단을 위해 침습적인 혈관조영술을 전산화 단층촬영으로 대체하는 것을 생각해 봅시다(Tables 3, 4 and Appendices 3, 4) [5,12]. 진양성은 효과가 입증된 치료(약물요법, 혈관성형술[angioplasty] 및 스텐트, 혈관우회로 조성술[bypass surgery])를 시행할 수 있게 하며 진음성은 참고표준검사(여기서는 침습적 혈관조영술)의 부작용으로부터 환자를 보호할 수 있습니다. 반면에, 위양성은 명백한 불필요한 치료를 받는 부작용을 겪을 수 있으며 위음성은 심혈관계 질환의 발생 위험을 낮출 수 있는 치료를 받지 못하게 할 수 있습니다.
따라서 위양성과 위음성을 낮추는 것이 환자에게 도움이 될 것은 자명합니다. 진단에 불분명한 검사 결과의 영향은 다소 불분명하지만 명백히 바람직하지 않은 결과를 초래할 것입니다. 더군다나 비록 드물게 발생하기는 하나 침습적 혈관조영술의 부작용인 경색 또는 사망은 의심할 여지없이 중요할 것입니다. 임상진료지침 개발 패널들은 진단검사의 바람직한 결과와 바람직하지 않은 효과를 비교할 때 반드시 환자에게 이러한 결과들의 중요성을 고려하여야 합니다. 예를 들어 심혈관질환 위험도가 낮은 환자군에서 전산화 단층촬영은 많은 수의 위양성을 초래하여 불필요한 불안 및 추가적 검사를 야기할 수 있습니다(Table 4) [12]. 또한 전산화 단층촬영은 심혈관질환이 있는 환자의 1% (위음성)를 발견하지 못할 수 있습니다.
진단 관련 질문에 대하여 임상진료지침 개발 패널들은 다른 중재법에 대한 임상진료지침개발과정에서 마주치게 되는 비직접성과 관련된 일련의 문제들을 마주할 수 있습니다[2]. 진단 정확도는 환자집단에 따라 다르므로, 패널들은 연구에서 시행된 새로운 중재 검사, 참고표준검사 및 환자군이 권고가 사용되는 의료 환경(setting)과 환자집단에 비교할 만한 것인지 고려하여야 합니다.
마지막으로 두 가지 이상의 새로운 대체검사 및 진단과정을 평가할 때, 패널들은 이러한 진단과정이 참고표준검사와 직접적으로 (동일 연구에서) 또는 비적접적으로 (서로 다른 연구에서) 비교가 가능한지를 고려하여야 한다[26-28].
연구 근거수준 최종결과
Table 5는 침습적 혈관조영술의 대체 진단요법으로 전산화 단층촬영의 근거수준 및 근거표를 보여줍니다. 환자에게 중요한 의료결과에 대한 검사 결과(진양성, 위양성, 진음성) 근거의 직접성의 불확실성은 거의 보이지 않습니다(Table 1) [12]. 그러나, 검사 정확도에서의 제한점으로 위음성이 환자에게 중요한 의료결과에 해로운 결과를 초래하는 정도에 대한 불확실성은 근거수준을 ‘높음’에서 ‘중등도’로 낮추는 요인이 되었습니다(Table 5 and Appendix 5) [12]. 각각의 연구 간에 설명할 수 없는 이질성(heterogeneity)은 모든 의료결과에 대한 근거수준을 추가적으로 낮추는 요인이 되었습니다. 환자에게 중요한 의료결과에 대한 위음성의 영향(추론을 통한)에 대한 불확실성은 근거수준을 ‘높음’에서 ‘낮음’으로 낮추는 요인이 되었습니다(Table 1) [12].
권고 만들기
진단검사 부작용과 관련한 진양성, 진음성, 위양성 및 위음성 결과가 초래하는 환자에게 중요한 의료결과의 차이는 임상진료지침 개발 패널이 진단검사를 적용하거나 적용하지 않는 권고를 결정하는 요인입니다[13]. 권고강도(strength of a recommendation)에 영향을 미치는 다른 요인으로는 근거수준, 진단검사 그리고 환자에게 중요한 의료결과와 관련된 가치와 선호도의 불확실성(uncertainty), 그리고 비용입니다.
심혈관 전산화 단층촬영은 침습적 혈관조영술이 초래할 수 있는 심근경색 및 사망을 피할 수 있게 합니다. 그러나 이러한 부작용의 발생은 매우 드뭅니다. 따라서, 혈관조영술을 대체하는 진단방법으로 심혈관 전산화 단층촬영을 평가하는 임상진료지침 개발 패널들은, 적은 비용에도 불구하고, 침습적 혈관조영술을 대체하는 진단검사로서 전산화 단층촬영을 사용하지 않도록(agianst computed tomography) 약한 권고를 만들 수 있습니다. 이 권고는 많은 수의 위양성 및 위음성(효과적으로 치료될 수 있는 심혈관질환 환자를 놓칠 수 있는) 결과에 기반하고 있습니다. 또한 이 권고는 새로운 검사법에 대한 낮은 근거수준과 환자의 가치와 선호도에 기반하고 있습니다. 비침습적이고 부작용이 적은 검사에 대한 일반적 선호에도 불구하고 대다수의 환자들은 위양성 및 위음성이 초래하는 위험도를 고려할 때 좀 더 침습적인 검사(혈관조영술)를 선호할 것입니다.
결론
다른 중재(치료법)에 대한 권고처럼, 진단검사에 대한 근거수준 및 권고강도 평가를 위한 GRADE 방법론은 임상진료 권고를 만드는 데 있어 포괄적이고 투명한 방법을 제공할 것입니다. 검사 결과는 환자에게 중요한 의료결과에 대한 대리 지표임을 인지하는 것은 본 방법론의 핵심입니다. 이 방법론의 적용하기 위하여 임상 의사는 진단검사의 정확도가 어떠하든지 간에 그 결과가 환자의 의료결과의 개선을 가져오는지를 명확히 인식하는 것이 필요합니다.
Appendix
Acknowledgements
Notes
This article is the secondary publication (complete translation in Korean) of the article originally published in the BMJ in English (Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. 2008;336:1106-10). The Editor-in-Chief of Urogenital Tract Infection decided to publish this secondary publication for the reader’s sake, and it was approved by the BMJ. The BMJ Publishing Group takes no responsibility for the accuracy of the translation from the published English language original and is not liable for any errors that may occur.
CONFLICT OF INTEREST
No potential conflict of interest relevant to this article was reported.
AUTHOR CONTRIBUTIONS
J.H.J.: contacting BMJ editorial office to get the approval, translating the article, and drafting the manuscript, D.K.K, J.Y.K., H.J.J., and H.W.K.: helping to translate and draft the manuscript, E.C.H.: helping to translate and draft the manuscript, and final approval.