Skip to content

8. 연구 포털ᆞ분석

연구 포털은 승인된 연구자가 실제 데이터를 조회하고 분석을 수행하는 공간입니다.

연구자는 연구 포털을 통해 프로젝트를 관리하고, 제공된 데이터를 확인하며, 분석 결과를 저장 및 관리할 수 있습니다.

연구 포털은 단순한 파일 조회 공간이 아니라, 연구를 수행함에 있어 전 과정을 지원하는 통합 분석 플랫폼의 역할을 합니다.

본 장에서는 연구 포털의 구조, 데이터 조회 및 접근 방법, 분석 수행, 결과 관리 및 반출 신청 절차에 대해 설명합니다.

8.1 연구 포털 구조

연구 포털은 연구 수행에 필요한 기능을 중심으로 구성되어 있으며, 연구자는 승인된 연구 범위 내에서만 해당 기능을 사용할 수 있습니다.

8.1.1 프로젝트 관리 화면(My Page)

연구 포털에 로그인을 하면 My Page 화면이 나타나며, My Page에서 현재 진행 중인 연구를 확인하고 관리할 수 있습니다.

My Page 화면

  • Project Information
  • Dataset Shared Notification
  • Approved Set Summary
  • Approved Set Phenotype Attributes
  • Request for File Export
  • Research infra status

연구자는 “Edit” 버튼을 통해 각 위젯의 위치를 커스터마이징할 수 있습니다.

My Page 편집 화면

8.2 데이터 조회 및 접근

연구자는 승인된 데이터에 한하여 조회 및 분석을 수행할 수 있습니다.

데이터는 연구 환경 내에 제공되며, 연구자는 해당 데이터를 불러와 분석에 활용하게 됩니다.

8.2.1 코호트 브라우저

MYDATA 메뉴에서 MYDATA로 이동하면 연구자가 승인된 데이터셋을 기반으로 임상 데이터(Pheno Data) 및 유전체 데이터(Genomic Data)를 탐색하고, 선택된 대상자 집단의 특성을 시각적으로 분석할 수 있습니다.

MYDATA 화면

코호트 브라우저의 화면은 크게 4가지 영역으로 구성되어 있습니다.

  • 상단 영역: 승인된 프로젝트 및 데이터셋 선택
  • 좌측 영역: 임상 데이터 및 유전체 데이터 조건 및 필터 설정
  • 중앙 영역: 대상자 요약 정보 및 시각화 결과 제공
  • 우측 영역: 저장된 데이터셋 및 적용 조건 확인

각 세부 항목에 대해 아래와 같이 설명합니다.

상단 영역

  • Select Approved Set: 승인된 연구 프로젝트를 선택하는 영역. 연구자는 승인된 프로젝트 중 하나를 선택할 수 있으며, 선택된 프로젝트에 따라 접근 가능한 데이터 범위가 결정됨.
  • Select Data Set: 분석에 사용할 데이터셋을 선택하는 영역. 데이터셋은 연구 목적에 따라 구분될 수 있으며, 선택한 데이터셋에 따라 조회 가능한 대상자와 변수 정보가 달라질 수 있음.

좌측 영역

  • Pheno Data: 연구 대상자의 임상 정보 및 표현형 데이터를 기반으로 코호트를 탐색하는 기능이며, Phenotype 또는 Clinical term 기반으로 대상자 조건 설정 가능. Phenotype은 신장, 체중, 성별과 같은 실제 데이터 변수를 선택하여 조건을 설정하고, Clinical term은 ICD-10, SNOMED-CT, HPO와 같은 표준 임상 용어 체계를 기반으로 질병, 증상, 임상 개념을 검색함.
구분항목설명
Phenotype참여자ID연구 대상자를 구분하기 위한 고유 식별자
시점데이터가 수집된 시점 또는 방문 시점
가족ID가족 기반 연구에서 사용되는 식별 정보
신장대상자의 키
체중대상자의 체중
성별대상자의 성별
Clinical termDisease (ICD-10)질병 및 진단 코드 기반 검색
EMR (SNOMED-CT)전자의무기록 기반 임상 용어 검색
Ontology (HPO)표현형 및 증상 기반 검색
  • Genomic Data: 유전체(Genomic) 기반 조건을 사용하여 variant 및 대상자를 탐색함. 연구자는 염색체 위치, 유전자 정보, Variant 정보, Allele Frequency, Clinical Significance 등의 조건을 설정하여 원하는 variant를 검색함.
구분항목설명
Genomic InformationLocation특정 염색체 위치를 기준으로 variant 검색
Feature IDs특정 유전자 또는 annotation 기반 검색
dbSNP IDsdbSNP ID 기반 variant 검색
Variant TypeVariant 유형 기반 필터링
Statistical InformationgnomeAD Allele FrequencygnomeAD 데이터베이스 기반 대립유전자 빈도 필터링
Germline Classification생식세포(Germline) variant의 임상 중요도를 기준으로 필터링
- Benign: 병원성과 관련없음
- Likely benign: 병원성 가능성 낮음
- Uncertain significance: 의미 불명(VUS)
- Likely pathogenic: 병원성 가능성 높음
- Pathogenic: 병원성 variant
Somatic Classification체세포(Somatic) variant의 임상 중요도를 기준으로 필터링
- tier i – strong: 강한 임상적 의미
- tier ii – potential: 잠재적 임상 의미
- tier iii – uncertain significance: 의미 불명
- tier iv – benign/likely benign: 양성 가능성 높음

중앙 영역

  • Selected Participants: 현재 조건에 해당하는 대상자 수를 표시
  • Summary: 대상자 요약 정보
  • Plot: 변수 분포 시각화
  • Variants: Variant 정보 확인

우측 영역

  • Dataset List: 연구자가 생성하거나 저장한 데이터셋 목록 확인
  • Filtered Condition: 현재 적용된 필터 조건 확인
  • Save Dataset: 현재 필터링 된 결과를 새로운 데이터셋으로 저장 가능

8.3 분석 수행

연구자가 코호트 브라우저를 통해 연구 목적에 맞는 대상자를 선정했다면, 연구 수행을 위한 환경이 준비됩니다.

Research Infra 메뉴에서는 제공받은 분석 환경 목록을 확인할 수 있습니다.

Virtual computing EnvironmentHPC computing Environment

8.3.1 기본 분석 워크플로우

''' 코호트 선정  연구환경 준비  데이터 분석  유전체 해석  결과 저장 및 관리 '''

8.3.2 Analysis Tools

연구자는 Analysis Tools 메뉴를 통해 실제 분석을 수행할 수 있습니다.

Exomiser, Galaxy 툴을 제공하고 있으며, 각 툴을 선택하여 분석을 위한 세부 정보들 입력할 수 있습니다.

  • Exomiser: 환자의 phenotype과 VCF 유전체 변이 데이터를 기반으로 원인 후보 유전자를 우선 순위를 추려내는 분석 도구로 희귀질환 분석에 특화 Exomiser 설정

  • Galaxy: Workflow 기반의 bioinformatics 분석을 위한 플랫폼으로 NGS 분석 파이프라인을 GUI 형태로 실행 가능

8.3.3 Reference Genome Browser

Reference Genome Browser에서는 분석 결과를 유전체 위치 기반으로 시각적으로 확인할 수 있습니다.

8.4 결과 저장 및 관리

분석 결과는 연구 환경 내에 저장되며, 연구자는 결과 파일을 관리할 수 있습니다.

8.4.1 결과 파일 관리

연구자는 다음과 같은 결과 파일을 저장할 수 있습니다.

  • 분석 결과 테이블
  • 그래프 및 시각화 결과
  • 코드 파일
  • 리포트 파일

결과 파일은 연구별 디렉토리 내에 저장됩니다.

8.4.2 버전 관리

분석 결과는 버전 단위로 관리할 수 있습니다.

버전 관리는 분석 재현성과 결과 추적을 위해 중요합니다.

8.5 결과 반출 신청

연구 환경 내에서 생성된 분석 결과는 승인 절차를 거친 후 외부 반출이 가능합니다.

원본 데이터는 반출할 수 없으며, 분석 결과에 한하여 제한적으로 반출이 허용됩니다.

8.5.1 반출 절차

결과 반출은 일반적으로 다음과 같은 절차로 진행됩니다.

''' 반출 파일 선택  반출 신청  검토  승인  다운로드 '''

8.5.2 승인 프로세스

반출 신청 후에는 보안 및 개인정보 보호 기준에 따라 검토가 진행됩니다.

다음과 같은 항목이 확인될 수 있습니다.

  • 원본 데이터 포함 여부
  • 개인정보 포함 여부
  • 연구 목적과의 관련성
  • 승인 완료 후에만 파일 다운로드가 가능합니다.