1. 소개 ¶

이름 : Bioinformatics
참여 : 정희록
기간 : 2002. 3. 14 ~ 2002.8.xx
프로젝트 시작동기와 목적 : 본 연구는 차세대 Bio기술에서 컴퓨터 전공자로서 접근할 수 있는 기술인 Bioinformatics에 대한 기초를 닦는 것을 목적으로 한다.
프로젝트 진행 : 교재의 정리와 관련 웹사이트의 링크, 관련 문서 정리를 주축으로 하겠습니다. 단순 번역보다는 의미있는 재정리 과정에 노력을 기울일 예정입니다.
교재 : “Bioinformatics: A practical guide to the analysis of genes and proteins”, Second Edition edited by Baxevanis & Ouellette

2. 책정리 ¶

2.1. NCBI DataModel ¶

왜 Model을 이용하는가? 실제에 가까운 모델은 실제로 일어나는 일을 보다 더 잘 이해시키고 예측가능하게 한다.
이런 취지에서 NCBI는 sequence-related information에 관한 모델을 만들었다. 그리고 이런 모델을 이용해서 Entrez(data retrieval system)나 GenBank DB(DNA seq.를 저장해둔 DB, 두 가지는 유전자 연구의 중요한 data들이다.)와 같이 소프트웨어나 통합 DB시스템을 가능하게 만들었다.

=== GenBank flatfile & format VS NCBI data model===
GenBank flatfile은 DNA-centered의 보고서이다. DNA중심이라는 것은 어떤 단백질의 유전자 정보를 저장하고 있는 DNA영역이 DNA위의 coding region이라고 불린다. 반대로 대부분의 Protein seq. DB들은 Protein-centered의 관점이며, 이는 단백질과 유전자 사이는 accesion number(유전자를 접근하기위한 DB의 key값) ... 진행중

3. 용어 참조 ¶

3.1. NCBI 란 ¶

National Center for Biotechnology Information 분자 생물 정보를 다루는 국가적인 자료원으로서 설립되었으며, NCBI는 공용 DB를 만들며, 계산에 관한 생물학에 연구를 이끌고 있으며, Genome 자료를 분석하기 위한 software 도구를 개발하고, 생물학 정보를 보급하고 있습니다. - 즉, 인간의 건강과 질병에 영향을 미치는 미세한 과정들을 보다 더 잘 이해하기 위한 모든 활동을 수행

Established in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease.

3.2. Entrez 란 ¶

Entrez는 통합 데이터베이스 retrieval 시스템으로서 DNA, Protein, genome mapping, population set, Protein structure, 문헌 검색이 가능하다. Entrez에서 Sequence, 특히 Protein Sequence는 GenBank protein translation, PIR, PDB, RefSeq를 포함한 다양한 DB들에 있는 서열을 검색할 수 있다.
...진행중

4. 생물학기초 ¶

4.1. 뉴클레오티드(nucleotide)란 ¶

DNA와 RNA를 구성하는 nucleotide는 인산기(Phophate), 5 탄당(Sugar)인 디옥시로보스(deoxyribose), 4 종류의 질소 염기(Base) 중 하나를 포함하여 3개의 부위(Phophate, Sugar, Base)로 구성된 물질이다. 당은 인산과 염기를 연결시킨다. (용어설명. 중합 : 많은 분자가 결합하여 큰 분자량의 화합물로 되는 변화)
인산기는 ATP에(근육은 이 ATP를 소비해서 에너지를 낸다. 일종의 에너지원.) 있는 잘 알려진 산성기이다. DNA 분자를 구성할 때에는 당에 직접 연결된 하나의 인산기만 남는다. 5 탄당 디옥시로보스(deoxyribose)는 ATP의 5 탄당 리보스(ribose)와 매우 유사하다. deoxyribose는 ribose의 2번 탄소에 있는 -OH 기 대신 -H기를 가지고 있다. deoxyribose의 5개 탄소에는 1번에서 5번까지 숫자가 붙여진다.

http://165.194.27.148/BiologyBasic/DNA/fig1.jpg

[JPG external image]

DNA에 존재하는 4종류의 염기는 아데닌(adenine), 구아닌(guanine), 티민(thymine), 시토신(cytosine), 우라실(uracil)이다. 이들 중에서 피리미딘(pyrimidine)이라고 부르는 thymine, cytosine, uracil은 질소와 탄소로 구성된 6각형의 고리로 되어 있다. 퓨린(purine)이라고 부르는 adenine, guanine은 더 복잡하여, 질소와 탄소로 구성된 6각형과 5각형의 이중 고리로 이루어진다. nucleotide에서 이들 염기들은 deoxyribose의 1번 탄소에 공유결합으로 연결되어 있으며, 인산기는 5번 탄소에 역시 공유결합으로 연결되어 있다. adenine, guanine, cytosine, thymine, uracil은 각각 A, G, C, T,U 로 표기된다.<그림 1>

4.2. DNA VS RNA ¶

핵산(Nucleic acid)분자는 믿을 수 없을 정도로 긴 중합체이며, 각 분자는 구조 단위인 nucleotide를 수백만 개씩 포함 하고 있다.
Nucleic acid는 base의 종류와 5-carbon sugar의 종류, 분자 구조에 따라 DNA와 RNA로 분류된다.

핵산	염기의 종류	5턴당의 종류	분자 구조
DNA	A, G, C, T	Dioxyribose	2중 나선
RNA	A, G, C, U	Ribose	단일 사슬

4.3. DNA ¶

이 그림은 DNA의 모식도이다.

http://165.194.27.148/BiologyBasic/DNA/fig4.jpg

[JPG external image]

DNA는 a twisted ladder라고 표현되는데 사다리의 각각의 strand는 당과 인산의 결합을 의미하고, lung은 Base들의 결합을 의미한다. Base들은 사이의 결합은 수소결합을 이루는데, A와 T, C와 G가 결합이 이루어진다. 따라서 DNA를 분석해 base들의 수를 비교해보면 A와 T의 수가 같고, C와 G의 수가 같음을 알 수 있다. 이에 한쪽 가닥에 있는 nucleotide는 다른쪽 가닥의 nucleotide 서열을 결정하게 된다. 그래서 그 두 가닥을 상보적 (complementary) 이라고 한다. 즉, DNA 분자를 수직으로 그리면 한 가닥은 5'에서 3'으로 위에서 아래로 달리고, 다른 가닥은 5'에서 3'으로 아래로 위로 달린다.(5', 3' 효소라고 알고 있음, 정확힌 모름)

4.4. DNA Republication ¶

왓슨과 크릭은 DNA의 구조, 특히 쌍을 이룬 nucleotide의 상보성이 유전물질의 정확한 복제기작의 핵심임을 알았다. 그들은 "우리가 가정한 염기쌍 형성원리가 유전 물질의 복기작을 제시하고 있음을 느낄 수 이었다."라고 말하였다. 그들은 이중 나선의 두 가닥이 분리되고 그 각각의 가닥을 주형 (template)으로 하여 새로운 상보적 사슬이 형성된다는 단순한 복제모델을 만들었다.

4.5. DNA의 염색체내에서의 편성(Organization) ¶

인간의 염색체(chromosome)의 종류는 23개이다. 22개는 상염색체(autosome)이고 1개는 성염색체(sex chromosome)이다. 한 종류의 염색체는 서로의 쌍을 가지고 있다. 따라서 인간의 염색체군(genome)은 46개의 chromosome으로 구성되어 있다. chromosome은 세포내에서 대부분의 시간을 실타래(fiber)같은 형태로 있는데.. 이는 chromosome 기본단위인 뉴클레오솜(Nucleosome)들이 결합된 형태이다. 이 nucleosome은 하나의 히스톤(histone)단백질을 DNA가 두번 휘감은 형태이다. --작성중

4.6. Gene란 ¶

유전 형질을 말하며 유전에 관여하는 특정 물질이다. Gene의 모임이 Genome이다. 또한 이 Gene는 DNA에 그 내용이 암호화 되어 있다. 이미 알고 있을지도 모르겠지만, Gene이라는 것은 DNA의 염기 배열이다. 이 염기 배열(base sequence)이 어떤 과정을 통해서 대응되는 순서로 아미노산(amino acid)끼리의 peptide결합을 하여 단백질로 나타는 것을 유전 형질 발현이라고 한다.
우선 생물학의 핵심 이론이 Central Dogma(중심이론)에 대해 알아보겠다.
이 이론은 DNA가 어떻게 단백질을 생성하는 가를 보여주고 있다.
그림. 1
그림 1을 참조하면 DNA는 2중 나선형 구조로 되어있다. 이것이 세포 분열 과정에서 DNA에 유전암호를 복사한 mRNA로 바뀌며 이 mRNA가 Ribosome에 들어가면 tRNA는 mRNA에 담겨있는 DNA유전암호를 분석하여서 대응되는 amino acid를 가져온다. 이런 과정이 반복되고, amino acid사이에는 peptide결합을 이루면서 이는 단백질로 형질 발현이 된다. -- 진행중..

Bioinformatics를 공부하려는 사람들을 위해

절대 컴퓨터 지식만으로 승부걸려고 하지 말아야 할 것 입니다. 컴퓨터 지식만으로는 정말 기술자 수준 밖에 되지 못합니다. 그쪽 지식이 필요하다고 해도 이건 기술적 지식이라기보다는 과학, 즉, 전산학(Computer Science)의 지식이 필요합니다. 그리고 Bioinformatics를 제대로 공부하려면 컴퓨터 분야를 빼고도 최소한 생물학 개론, 분자 생물학, 생화학, 유전학, 통계학 개론, 확률론, 다변량 통계학, 미적분을 알아야 합니다. 이런 것을 모르고 뛰어들게 되면 가장자리만 맴돌게 됩니다. 국내에서 Bioinformatics를 하려는 대부분의 전산학과 교수님들이 이 부류에 속한다는 점이 서글픈 사실이죠.

제대로 된 안내를 받으려면, 원세연 박사님의 사이트를 추천합니다. http://www.bioinformatics.pe.kr/ -- 김창준

DeleteMe QnA를 읽어 보았는데 자신감이 '뚝' 떨어지는군요.(이것만이 아니어두 오늘 교재를 보는데 처음보는 생소한 단어들 때문에 사전 찾으랴, 사이트 돌아다니며 어떤 건지 알아보랴, 해맸는데..) 그래두, 이름을 세번이나 틀린 이 학문이 뭔지는 알고 싶고,:) 다음에 혹시 저와 비슷한 지식만 가진 사람이 이쪽에 관심을 가지고 연구를 할 때 도움이 될 수 있었으면 합니다.

DeleteMe 어서 프로젝트라 할정도의 성과를 만들어야겠군요.

프로젝트분류

Bioinformatics

Contents