๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๐Ÿงฌ Biology24

[ROSALIND] DNA ์„œ์—ด์—์„œ motif ์ฐพ๊ธฐ ๋ฌธ์ œ ์„ค๋ช… ์„œ๋กœ ๋‹ค๋ฅธ ์ข…์˜ ์œ ์ „์ฒด์—์„œ ๊ณตํ†ต์ ์œผ๋กœ ๊ฐ€์ง„ DNA ์„œ์—ด์ด ๋ฐœ๊ฒฌ๋œ๋‹ค๋ฉด ์ด ์„œ์—ด์€ ๋‘ ์ข…์—์„œ ๋ชจ๋‘ ๋น„์Šทํ•œ ๊ธฐ๋Šฅ์„ ํ•˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„œ์—ด์„ ๋ชจํ‹ฐํ”„(motif)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๋ถ„์ž์ƒ๋ฌผํ•™ ๋ถ„์•ผ์—์„œ๋Š” ์–ด๋–ค ์ƒ๋ฌผ์˜ ์œ ์ „์ฒด์—์„œ ์ด๋Ÿฐ ๋ชจํ‹ฐํ”„๋ฅผ ์ฐพ๋Š” ์ผ์„ ํ”ํžˆ ํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋ชจํ‹ฐํ”„์ฒ˜๋Ÿผ ์œ ์‚ฌํ•œ ์„œ์—ด์ด ์—ฌ๋Ÿฌ๋ฒˆ์ด๋‚˜ ํ•œ ์œ ์ „์ฒด์—์„œ ๋ฐœ๊ฒฌ๋˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋Š”๋ฐ ์ด๋Ÿฌํ•œ ์„œ์—ด์„ repeat์ด๋ผ ๋ถ€๋ฅธ๋‹ค. Repeat์€ ๋žœ๋ค์œผ๋กœ ์ƒ๊ฒจ๋‚œ ์„œ์—ด์ด๋ผ๊ธฐ์—๋Š” ์ •๋ง ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์ธ๊ฐ„ ์œ ์ „์ฒด์—์„œ ๊ฐ€์žฅ ํ”ํ•œ repeat์€ Alu repeat์ด๋ผ๋Š” ๊ฑด๋ฐ ์ด๊ฒƒ์€ 300 bp ์ •๋„์˜ ๊ธธ์ด์— ํ•œ ์‚ฌ๋žŒ์—๊ฒŒ์„œ 100๋งŒ๋ฒˆ ์ •๋„ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ Alu repeat์€ ์ข‹์€ ์—ญํ• .. 2023. 5. 28.
[ROSALIND] DNA์˜ ์ธํŠธ๋ก (intron) ์˜์—ญ ์ œ๊ฑฐ ํ›„ ๋‹จ๋ฐฑ์งˆ๋กœ ๋ฒˆ์—ญ ๋ฌธ์ œ ์„ค๋ช… DNA์˜ ์ „์‚ฌ ๊ณผ์ •(transcription)์€ DNA์˜ ์ผ๋ถ€๋ฅผ RNA๋กœ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋‹ค. ์„ธํฌ์˜ ํ•ต ๋‚ด์—์„œ RNA polymerase (RNAP)๋ผ๋Š” RNA ์ค‘ํ•ฉํšจ์†Œ๊ฐ€ DNA์˜ ๋‘ ๊ฐ€๋‹ฅ ์ค‘ ํ•œ ๊ฐ€๋‹ฅ์„ ํ…œํ”Œ๋ฆฟ(template strand)์œผ๋กœ ์‚ฌ์šฉํ•ด ์ƒ๋ณด์ ์ธ ์„œ์—ด์„ ๋งŒ๋“ ๋‹ค. ์ด ๋•Œ A์˜ ์—ผ๊ธฐ์Œ์œผ๋กœ T ๋Œ€์‹  U๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ด๋ ‡๊ฒŒ ์™„์„ฑ๋œ ์„œ์—ด์„ precursor mRNA (pre-mRNA)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. Pre-mRNA๋Š” intron๊ณผ exon์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š”๋ฐ ๋‹จ๋ฐฑ์งˆ๋กœ ๋ฒˆ์—ญ๋˜๊ธฐ ์ „์— intron ์˜์—ญ์€ ์ œ๊ฑฐ๋˜๊ณ  exon ์˜์—ญ๋ผ๋ฆฌ ์ด์–ด ๋ถ™์€ ์„œ์—ด์„ mRNA๋ผ ๋ถ€๋ฅธ๋‹ค. ์ด๋Ÿฌํ•œ intron ์ œ๊ฑฐ ๊ณผ์ •์€ spliceosome์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ๋‹ค์–‘ํ•œ RNA์™€ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์„ฑ์ด ์‹คํ–‰์‹œํ‚ค๋ฉฐ ์ด ๊ณผ์ •์„ splicin.. 2023. 5. 27.
[ROSALIND] ๋‹จ๋ฐฑ์งˆ ์งˆ๋Ÿ‰ ๊ตฌํ•˜๊ธฐ ๋ฌธ์ œ ์„ค๋ช… ๋‹จ๋ฐฑ์งˆ์€ ์•„๋ฏธ๋…ธ์‚ฐ(amino acid)์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค. ์•„๋ฏธ๋…ธ์‚ฐ์ด 2๊ฐœ ํ•ฉ์ณ์งˆ ๋•Œ peptide bond๊ฐ€ ํ˜•์„ฑ ๋˜๋Š”๋ฐ ์ด ๋•Œ ๋ฌผ ๋ถ„์ž(H2O) ํ•˜๋‚˜๊ฐ€ ๋น ์ง€๊ฒŒ ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ์—ฌ๋Ÿฌ ์•„๋ฏธ๋…ธ์‚ฐ์ด ์—ฐ๊ฒฐ๋œ ๊ฒƒ์„ polypeptide๋ผ ๋ถ€๋ฅด๊ณ , n๊ฐœ ์•„๋ฏธ๋…ธ์‚ฐ์ด ์—ฐ๊ฒฐ๋˜์—ˆ๋‹ค๋ฉด n-1๊ฐœ์˜ ๋ฌผ ๋ถ„์ž๊ฐ€ ๋น ์ง„ ๊ฒƒ์ด๋‹ค. Polypeptide์˜ ์–‘์ชฝ ๋์—๋Š” ๋‹ค๋ฅธ ์•„๋ฏธ๋…ธ์‚ฐ๊ณผ ๊ฒฐํ•ฉ๋˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•˜๋‚˜์˜ ๋ฌผ ๋ถ„์ž๊ฐ€ ๋‚จ์•„์žˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, polypeptide์˜ ์งˆ๋Ÿ‰๋Š” ๊ฐ residue(๋ฌผ ๋ถ„์ž๊ฐ€ ๋น ์ง„ ์•„๋ฏธ๋…ธ์‚ฐ)์˜ ๊ฐœ๋ณ„ ์งˆ๋Ÿ‰์™€ ๋ฌผ ๋ถ„์ž 1๊ฐœ(๋ฌผ ๋ถ„์ž์˜ monoisotopic mass๋Š” 18.01056 Da์ด)์˜ ์งˆ๋Ÿ‰์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ฏธ๋…ธ์‚ฐ์˜ ์งˆ๋Ÿ‰์„ ๊ณ„์‚ฐํ•  ๋•Œ monoisotopic mass๋ฅผ ์ด์šฉํ•˜๋Š”๋ฐ .. 2023. 5. 26.
[ROSALIND] DNA๊ฐ€ ๊ณต์œ ํ•˜๋Š” motif ์ฐพ๊ธฐ ๋ฌธ์ œ ์„ค๋ช… ์œ ์ „์ž(Gene)๋ž€ ๋‹จ๋ฐฑ์งˆ๋กœ ๋ฒˆ์—ญ๋  ์ˆ˜ ์žˆ๋Š” DNA์˜ ์˜์—ญ์„ ์–˜๊ธฐํ•œ๋‹ค. ๋ชจํ‹ฐํ”„(Motif)๋Š” ์œ ์ „์ž์˜ ๊ธฐ๋Šฅ๊ณผ ๊ด€๋ จ์žˆ๋Š” DNA์˜ ์ž‘์€ ๋‹จ์œ„์ธ๋ฐ ๋ชจํ‹ฐํ”„ ์„œ์—ด์€ ์ž˜ ๋ณด์กด๋ผ ์žˆ์–ด ๋ชจํ‹ฐํ”„๋ฅผ ํ†ตํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ์ข… ๊ฐ„์˜ DNA ์œ ์‚ฌ์„ฑ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฒˆ ๋ฌธ์ œ์—์„œ๋Š” ์—ฌ๋Ÿฌ DNA ์„œ์—ด๋“ค ๊ฐ„์— ๊ณต์œ ํ•˜๊ณ  ์žˆ๋Š” ์ตœ๋Œ€ํ•œ ๊ธด ๋ชจํ‹ฐํ”„๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค(๋ชจํ‹ฐํ”„๊ฐ€ ๊ธธ์ˆ˜๋ก ๊ณต์œ ํ•˜๋Š” ๊ธฐ๋Šฅ ๋˜ํ•œ ๋” ์œ ์‚ฌํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค!). ๋ฌธ์ œ (Finding a Shared Motif) ์ตœ๋Œ€ 100๊ฐœ์˜ DNA ์„œ์—ด( Rosalind_1 GATTACA >Rosalind_2 TAGACCA >Rosalind_3 ATACA ์˜ˆ์ƒ ๊ฒฐ๊ณผ AC ํ•ด๊ฒฐ def find_kmers(seq, k): return sorted([seq[i:i+k] f.. 2023. 5. 25.
[ROSALIND] ๋‹จ๋ฐฑ์งˆ motif ์ฐพ๊ธฐ ๋ฌธ์ œ ์„ค๋ช… ๋‹จ๋ฐฑ์งˆ์€ ๊ธฐ๋Šฅ์  ๋‹จ์œ„์ธ ๋‹จ๋ฐฑ์งˆ ๋„๋ฉ”์ธ(protein domain)์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค. ๋„๋ฉ”์ธ๋งˆ๋‹ค ํ•˜๋‚˜์˜ ๊ธฐ๋Šฅ์ด ์•Œ๋ ค์ ธ ์žˆ๊ณ , ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ๋ฐฑ์งˆ์€ ์—ฌ๋Ÿฌ ์—ญํ• ์„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— 1๊ฐœ ์ด์ƒ์˜ ๋„๋ฉ”์ธ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ฐ™์€ ๋„๋ฉ”์ธ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋‹จ๋ฐฑ์งˆ๋“ค์„ ๋ฌถ์–ด์„œ ์œ ์ „์ž๊ตฐ(gene/protein family)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๋‹จ๋ฐฑ์งˆ ๋„๋ฉ”์ธ์˜ ๊ธฐ๋Šฅ์„ ์ •์˜ํ•˜๋Š” ๋” ์ž‘์€ ๋‹จ์œ„๋กœ ๋ชจํ‹ฐํ”„(motif)๊ฐ€ ์กด์žฌํ•œ๋‹ค. ๋ชจํ‹ฐํ”„๋Š” ์ง„ํ™”์  ์ธก๋ฉด์œผ๋กœ ๋ดค์„ ๋•Œ๋„ ์ž˜ ๋ณด์กด๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฅธ ์ข… ๊ฐ„์—์„œ๋„ ์œ ์‚ฌํ•œ ๋ชจํ‹ฐํ”„์˜ ํ™•์ธ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋‹จ๋ฐฑ์งˆ ์„œ์—ด์€ ์„ธ๊ณ„์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ์‹ค์—์„œ ๋ฐœ๊ฒฌ๋˜๊ณ  ์˜จ๋ผ์ธ ์ƒ์—์„œ๋Š” UniProt์— ๋‹จ๋ฐฑ์งˆ ๋ฐ์ดํ„ฐ๊ฐ€ ์Œ“์ด๊ณ  ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋‹จ๋ฐฑ์งˆ์˜ ๊ตฌ์ฒด์ ์ธ ์„œ์—ด, ๊ธฐ๋Šฅ, ๋„๋ฉ”์ธ ๊ตฌ์กฐ, ๋‹จ๋ฐฑ์งˆ ๋ฒˆ์—ญ ํ›„ ๋ณ€ํ˜•(po.. 2023. 5. 23.
์ •๊ทœํ‘œํ˜„์‹ Regular Expression Goal 1. ์ •๊ทœํ‘œํ˜„์‹์ด๋ž€? 2. ํŒŒ์ด์ฌ์—์„œ ์ •๊ทœํ‘œํ˜„์‹ ์“ฐ๋Š” ๋ฐฉ๋ฒ• ์•Œ์•„๋ณด๊ธฐ ์ •๊ทœํ‘œํ˜„์‹์ด๋ž€? ์ •๊ทœํ‘œํ˜„์‹ (Regular expression)์€ ํ…์ŠคํŠธ์—์„œ ํŒจํ„ด ์ฐพ๊ธฐ๋ฅผ ํ•  ๋•Œ ์œ ์šฉํ•œ ๋„๊ตฌ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์—ฌ๋Ÿฌ RNA ์„œ์—ด ์ค‘ "AUG"๊ฐ€ ํฌํ•จ ๋œ ์„œ์—ด๋งŒ ์ถœ๋ ฅํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ์ •๊ทœํ‘œํ˜„์‹์„ ์จ์„œ ์•„์ฃผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. ํŒŒ์ด์ฌ์˜ ์ •๊ทœํ‘œํ˜„์‹ ํŒŒ์ด์ฌ์—์„œ๋Š” re ๋ผ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ด์šฉํ•œ๋‹ค. re ๋ชจ๋“ˆ์˜ ๋ฉ”์„œ๋“œ ๊ธฐ๋Šฅ ์˜ˆ์‹œ findall("ํŒจํ„ด", ๋ฌธ์ž์—ด) ํŒจํ„ด์ด ์ผ์น˜ํ•˜๋Š” ๋ชจ๋“ ๊ฑธ ๋ฆฌ์ŠคํŠธ ํ˜•ํƒœ๋กœ ๋ฐ˜ํ™˜ import re rna = "AUGCCAUGCUGA" first_start = re.search("AUG", rna) print(first_start) # search("ํŒจํ„ด", ๋ฌธ์ž์—ด) ํŒจํ„ด์ด ์ผ์น˜ํ•˜๋Š” ๋ถ€๋ถ„์„ objec.. 2023. 5. 23.
URL๋กœ FASTA ์„œ์—ด ๊ฐ€์ ธ์˜ค๊ธฐ ๋ณดํ˜ธ๋˜์–ด ์žˆ๋Š” ๊ธ€ ์ž…๋‹ˆ๋‹ค. 2023. 5. 22.
[ROSALIND] ๋‹จ๋ฐฑ์งˆ ์„œ์—ด๋กœ ๋ฒˆ์—ญํ•˜๊ธฐ ๋ฌธ์ œ (ํ’€์–ด๋ณด๊ธฐ) RNA ์„œ์—ด์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด๋กœ ๋ฒˆ์—ญํ•˜์‹œ์˜ค. ๋‹ค๋งŒ, RNA ์„œ์—ด์€ ํ•ญ์ƒ AUG๋กœ ์‹œ์ž‘ํ•˜๊ณ  stop codon์œผ๋กœ ๋๋‚˜๊ธฐ ๋•Œ๋ฌธ์— 3 frame์„ ๊ณ ๋ คํ•  ํ•„์š”๋Š” ์—†๋‹ค. ์˜ˆ์‹œ AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA ์˜ˆ์ƒ ๊ฒฐ๊ณผ MAMAPRTEINSTRING ํ•ด๊ฒฐ codon = {} with open("aa_codon.txt", "r") as f: for line in f.readlines(): aa = line.split() for i in range(0, len(aa), 2): codon[aa[i]] = aa[i+1] def translation(rna): protein = '' for i in range(0, len(rna), .. 2023. 5. 14.
๋ฐ”์ด์˜ค๋งˆ์ปค๋ž€? Goal 1. ๋ฐ”์ด์˜ค๋งˆ์ปค๊ฐ€ ์˜๋ฏธํ•˜๋Š”๊ฒŒ ๋ญ”์ง€ ์„ค๋ช…ํ•˜๊ธฐ 2. ๋ฐ”์ด์˜ค๋งˆ์ปค์˜ ์ข…๋ฅ˜ ์•Œ์•„๋ณด๊ธฐ ๋ฐ”์ด์˜ค๋งˆ์ปค๋ž€? ์‚ฌ๋žŒ์˜ ์ƒํƒœ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ฃผ๋Š” ๊ฒƒ์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฝ”๋ฅผ ํ›Œ์ฉ์ด๊ณ  ๋ชฉ์ด ์•„ํ”„๋‹ค๋ฉด ๊ฐ๊ธฐ์ผ ๊ฒƒ์ด๋ผ๊ณ  ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ฐ”์ด์˜ค๋งˆ์ปค๋ž€ ์‚ฌ๋žŒ์˜ ์ƒํƒœ ๋ณ€ํ™”์— ๋Œ€ํ•ด ์ •๋ณด๋ฅผ ์ฃผ๋Š” ๊ฒƒ ์ค‘์— ์šฐ๋ฆฌ๋ชธ์—์„œ ์ˆ˜์น˜ํ™” ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๋ถ„์ž์  ๋ฌผ์งˆ, ํŠนํžˆ DNA, RNA, ๋‹จ๋ฐฑ์งˆ ๊ฐ™์€๊ฑธ ์–˜๊ธฐํ•œ๋‹ค. ์œ„์—์„œ ๋งํ•œ๊ฑฐ์ฒ˜๋Ÿผ ๊ฐ๊ธฐ ๊ฐ™์€ ์งˆ๋ณ‘์— ๋Œ€ํ•œ ์ƒํƒœ ์ •๋ณด๋ฅผ ์ฃผ๊ธฐ๋„ ํ•˜์ง€๋งŒ ์•ฝ๋ฌผ์— ์–ด๋–ค ๋ฐ˜์‘์ด ์žˆ๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค. ํŠนํžˆ ์ƒˆ๋กœ์šด ์•ฝ๋ฌผ์„ ๊ฐœ๋ฐœํ•  ๋•Œ ์—ฌ๋Ÿฌ ๊ฒ€์ฆ ๋ฐ ๋™๋ฌผ ์‹œํ—˜์„ ํ•˜์ง€๋งŒ ์‹คํŒจ์œจ์ด ๋†’์€ ์ด์œ ๋Š” ์•ฝ๋ฌผ์˜ ํšจ๋Šฅ๊ณผ ๋ถ€์ž‘์šฉ์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์•Œ๋ ค์ค„ ์ˆ˜ ์žˆ๋Š” ์ข‹์€ ๋ฐ”์ด์˜ค๋งˆ์ปค๋ฅผ ์ฐพ๊ธฐ ํž˜๋“ค๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฐ”์ด์˜ค๋งˆ์ปค์˜ ์˜ˆ.. 2023. 5. 10.