๐งฌ Biology24 [ROSALIND] DNA ์์ด์์ motif ์ฐพ๊ธฐ ๋ฌธ์ ์ค๋ช ์๋ก ๋ค๋ฅธ ์ข ์ ์ ์ ์ฒด์์ ๊ณตํต์ ์ผ๋ก ๊ฐ์ง DNA ์์ด์ด ๋ฐ๊ฒฌ๋๋ค๋ฉด ์ด ์์ด์ ๋ ์ข ์์ ๋ชจ๋ ๋น์ทํ ๊ธฐ๋ฅ์ ํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐ ํ ์ ์๋ค. ์ด๋ฌํ ์์ด์ ๋ชจํฐํ(motif)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ถ์์๋ฌผํ ๋ถ์ผ์์๋ ์ด๋ค ์๋ฌผ์ ์ ์ ์ฒด์์ ์ด๋ฐ ๋ชจํฐํ๋ฅผ ์ฐพ๋ ์ผ์ ํํ ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ชจํฐํ์ฒ๋ผ ์ ์ฌํ ์์ด์ด ์ฌ๋ฌ๋ฒ์ด๋ ํ ์ ์ ์ฒด์์ ๋ฐ๊ฒฌ๋๋ ๊ฒฝ์ฐ๋ ์๋๋ฐ ์ด๋ฌํ ์์ด์ repeat์ด๋ผ ๋ถ๋ฅธ๋ค. Repeat์ ๋๋ค์ผ๋ก ์๊ฒจ๋ ์์ด์ด๋ผ๊ธฐ์๋ ์ ๋ง ์์ฃผ ๋ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ธ๊ฐ ์ ์ ์ฒด์์ ๊ฐ์ฅ ํํ repeat์ Alu repeat์ด๋ผ๋ ๊ฑด๋ฐ ์ด๊ฒ์ 300 bp ์ ๋์ ๊ธธ์ด์ ํ ์ฌ๋์๊ฒ์ 100๋ง๋ฒ ์ ๋ ๋ฐ์ํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค. ํ์ง๋ง ์ด๋ฌํ Alu repeat์ ์ข์ ์ญํ .. 2023. 5. 28. [ROSALIND] DNA์ ์ธํธ๋ก (intron) ์์ญ ์ ๊ฑฐ ํ ๋จ๋ฐฑ์ง๋ก ๋ฒ์ญ ๋ฌธ์ ์ค๋ช DNA์ ์ ์ฌ ๊ณผ์ (transcription)์ DNA์ ์ผ๋ถ๋ฅผ RNA๋ก ๋ง๋๋ ๊ณผ์ ์ด๋ค. ์ธํฌ์ ํต ๋ด์์ RNA polymerase (RNAP)๋ผ๋ RNA ์คํฉํจ์๊ฐ DNA์ ๋ ๊ฐ๋ฅ ์ค ํ ๊ฐ๋ฅ์ ํ ํ๋ฆฟ(template strand)์ผ๋ก ์ฌ์ฉํด ์๋ณด์ ์ธ ์์ด์ ๋ง๋ ๋ค. ์ด ๋ A์ ์ผ๊ธฐ์์ผ๋ก T ๋์ U๋ฅผ ์ฌ์ฉํ๊ณ , ์ด๋ ๊ฒ ์์ฑ๋ ์์ด์ precursor mRNA (pre-mRNA)๋ผ๊ณ ๋ถ๋ฅธ๋ค. Pre-mRNA๋ intron๊ณผ exon์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋๋ฐ ๋จ๋ฐฑ์ง๋ก ๋ฒ์ญ๋๊ธฐ ์ ์ intron ์์ญ์ ์ ๊ฑฐ๋๊ณ exon ์์ญ๋ผ๋ฆฌ ์ด์ด ๋ถ์ ์์ด์ mRNA๋ผ ๋ถ๋ฅธ๋ค. ์ด๋ฌํ intron ์ ๊ฑฐ ๊ณผ์ ์ spliceosome์ด๋ผ ๋ถ๋ฆฌ๋ ๋ค์ํ RNA์ ๋จ๋ฐฑ์ง ๊ตฌ์ฑ์ด ์คํ์ํค๋ฉฐ ์ด ๊ณผ์ ์ splicin.. 2023. 5. 27. [ROSALIND] ๋จ๋ฐฑ์ง ์ง๋ ๊ตฌํ๊ธฐ ๋ฌธ์ ์ค๋ช ๋จ๋ฐฑ์ง์ ์๋ฏธ๋ ธ์ฐ(amino acid)์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์๋ฏธ๋ ธ์ฐ์ด 2๊ฐ ํฉ์ณ์ง ๋ peptide bond๊ฐ ํ์ฑ ๋๋๋ฐ ์ด ๋ ๋ฌผ ๋ถ์(H2O) ํ๋๊ฐ ๋น ์ง๊ฒ ๋๋ค. ์ด๋ ๊ฒ ์ฌ๋ฌ ์๋ฏธ๋ ธ์ฐ์ด ์ฐ๊ฒฐ๋ ๊ฒ์ polypeptide๋ผ ๋ถ๋ฅด๊ณ , n๊ฐ ์๋ฏธ๋ ธ์ฐ์ด ์ฐ๊ฒฐ๋์๋ค๋ฉด n-1๊ฐ์ ๋ฌผ ๋ถ์๊ฐ ๋น ์ง ๊ฒ์ด๋ค. Polypeptide์ ์์ชฝ ๋์๋ ๋ค๋ฅธ ์๋ฏธ๋ ธ์ฐ๊ณผ ๊ฒฐํฉ๋์ง ์์๊ธฐ ๋๋ฌธ์ ํ๋์ ๋ฌผ ๋ถ์๊ฐ ๋จ์์๋ค๊ณ ๋ณผ ์ ์๋ค. ์ฆ, polypeptide์ ์ง๋๋ ๊ฐ residue(๋ฌผ ๋ถ์๊ฐ ๋น ์ง ์๋ฏธ๋ ธ์ฐ)์ ๊ฐ๋ณ ์ง๋์ ๋ฌผ ๋ถ์ 1๊ฐ(๋ฌผ ๋ถ์์ monoisotopic mass๋ 18.01056 Da์ด)์ ์ง๋์ผ๋ก ๊ณ์ฐํ ์ ์๋ค. ์๋ฏธ๋ ธ์ฐ์ ์ง๋์ ๊ณ์ฐํ ๋ monoisotopic mass๋ฅผ ์ด์ฉํ๋๋ฐ .. 2023. 5. 26. [ROSALIND] DNA๊ฐ ๊ณต์ ํ๋ motif ์ฐพ๊ธฐ ๋ฌธ์ ์ค๋ช ์ ์ ์(Gene)๋ ๋จ๋ฐฑ์ง๋ก ๋ฒ์ญ๋ ์ ์๋ DNA์ ์์ญ์ ์๊ธฐํ๋ค. ๋ชจํฐํ(Motif)๋ ์ ์ ์์ ๊ธฐ๋ฅ๊ณผ ๊ด๋ จ์๋ DNA์ ์์ ๋จ์์ธ๋ฐ ๋ชจํฐํ ์์ด์ ์ ๋ณด์กด๋ผ ์์ด ๋ชจํฐํ๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ ์ข ๊ฐ์ DNA ์ ์ฌ์ฑ์ ํ์ธ ํ ์ ์๋ค. ์ด๋ฒ ๋ฌธ์ ์์๋ ์ฌ๋ฌ DNA ์์ด๋ค ๊ฐ์ ๊ณต์ ํ๊ณ ์๋ ์ต๋ํ ๊ธด ๋ชจํฐํ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค(๋ชจํฐํ๊ฐ ๊ธธ์๋ก ๊ณต์ ํ๋ ๊ธฐ๋ฅ ๋ํ ๋ ์ ์ฌํ๋ค๊ณ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค!). ๋ฌธ์ (Finding a Shared Motif) ์ต๋ 100๊ฐ์ DNA ์์ด( Rosalind_1 GATTACA >Rosalind_2 TAGACCA >Rosalind_3 ATACA ์์ ๊ฒฐ๊ณผ AC ํด๊ฒฐ def find_kmers(seq, k): return sorted([seq[i:i+k] f.. 2023. 5. 25. [ROSALIND] ๋จ๋ฐฑ์ง motif ์ฐพ๊ธฐ ๋ฌธ์ ์ค๋ช ๋จ๋ฐฑ์ง์ ๊ธฐ๋ฅ์ ๋จ์์ธ ๋จ๋ฐฑ์ง ๋๋ฉ์ธ(protein domain)์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋๋ฉ์ธ๋ง๋ค ํ๋์ ๊ธฐ๋ฅ์ด ์๋ ค์ ธ ์๊ณ , ์ผ๋ฐ์ ์ผ๋ก ๋จ๋ฐฑ์ง์ ์ฌ๋ฌ ์ญํ ์ํ๊ธฐ ๋๋ฌธ์ 1๊ฐ ์ด์์ ๋๋ฉ์ธ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ ๊ฒ ๊ฐ์ ๋๋ฉ์ธ์ ๊ฐ์ง๊ณ ์๋ ๋จ๋ฐฑ์ง๋ค์ ๋ฌถ์ด์ ์ ์ ์๊ตฐ(gene/protein family)๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋จ๋ฐฑ์ง ๋๋ฉ์ธ์ ๊ธฐ๋ฅ์ ์ ์ํ๋ ๋ ์์ ๋จ์๋ก ๋ชจํฐํ(motif)๊ฐ ์กด์ฌํ๋ค. ๋ชจํฐํ๋ ์งํ์ ์ธก๋ฉด์ผ๋ก ๋ดค์ ๋๋ ์ ๋ณด์กด๋์ด ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ์ข ๊ฐ์์๋ ์ ์ฌํ ๋ชจํฐํ์ ํ์ธ์ด ๊ฐ๋ฅํ๋ค. ๋จ๋ฐฑ์ง ์์ด์ ์ธ๊ณ์ ์ผ๋ก ๋ค์ํ ์ฐ๊ตฌ์ค์์ ๋ฐ๊ฒฌ๋๊ณ ์จ๋ผ์ธ ์์์๋ UniProt์ ๋จ๋ฐฑ์ง ๋ฐ์ดํฐ๊ฐ ์์ด๊ณ ์๋ค. ์ฌ๊ธฐ์ ๋จ๋ฐฑ์ง์ ๊ตฌ์ฒด์ ์ธ ์์ด, ๊ธฐ๋ฅ, ๋๋ฉ์ธ ๊ตฌ์กฐ, ๋จ๋ฐฑ์ง ๋ฒ์ญ ํ ๋ณํ(po.. 2023. 5. 23. ์ ๊ทํํ์ Regular Expression Goal 1. ์ ๊ทํํ์์ด๋? 2. ํ์ด์ฌ์์ ์ ๊ทํํ์ ์ฐ๋ ๋ฐฉ๋ฒ ์์๋ณด๊ธฐ ์ ๊ทํํ์์ด๋? ์ ๊ทํํ์ (Regular expression)์ ํ ์คํธ์์ ํจํด ์ฐพ๊ธฐ๋ฅผ ํ ๋ ์ ์ฉํ ๋๊ตฌ์ด๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋ฌ RNA ์์ด ์ค "AUG"๊ฐ ํฌํจ ๋ ์์ด๋ง ์ถ๋ ฅํ๊ณ ์ถ๋ค๋ฉด ์ ๊ทํํ์์ ์จ์ ์์ฃผ ๊ฐ๋จํ๊ฒ ์ฐพ์ ์ ์๋ค. ํ์ด์ฌ์ ์ ๊ทํํ์ ํ์ด์ฌ์์๋ re ๋ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํ๋ค. re ๋ชจ๋์ ๋ฉ์๋ ๊ธฐ๋ฅ ์์ findall("ํจํด", ๋ฌธ์์ด) ํจํด์ด ์ผ์นํ๋ ๋ชจ๋ ๊ฑธ ๋ฆฌ์คํธ ํํ๋ก ๋ฐํ import re rna = "AUGCCAUGCUGA" first_start = re.search("AUG", rna) print(first_start) # search("ํจํด", ๋ฌธ์์ด) ํจํด์ด ์ผ์นํ๋ ๋ถ๋ถ์ objec.. 2023. 5. 23. URL๋ก FASTA ์์ด ๊ฐ์ ธ์ค๊ธฐ ๋ณดํธ๋์ด ์๋ ๊ธ ์ ๋๋ค. 2023. 5. 22. [ROSALIND] ๋จ๋ฐฑ์ง ์์ด๋ก ๋ฒ์ญํ๊ธฐ ๋ฌธ์ (ํ์ด๋ณด๊ธฐ) RNA ์์ด์ด ์ฃผ์ด์ก์ ๋ ๋จ๋ฐฑ์ง ์์ด๋ก ๋ฒ์ญํ์์ค. ๋ค๋ง, RNA ์์ด์ ํญ์ AUG๋ก ์์ํ๊ณ stop codon์ผ๋ก ๋๋๊ธฐ ๋๋ฌธ์ 3 frame์ ๊ณ ๋ คํ ํ์๋ ์๋ค. ์์ AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA ์์ ๊ฒฐ๊ณผ MAMAPRTEINSTRING ํด๊ฒฐ codon = {} with open("aa_codon.txt", "r") as f: for line in f.readlines(): aa = line.split() for i in range(0, len(aa), 2): codon[aa[i]] = aa[i+1] def translation(rna): protein = '' for i in range(0, len(rna), .. 2023. 5. 14. ๋ฐ์ด์ค๋ง์ปค๋? Goal 1. ๋ฐ์ด์ค๋ง์ปค๊ฐ ์๋ฏธํ๋๊ฒ ๋ญ์ง ์ค๋ช ํ๊ธฐ 2. ๋ฐ์ด์ค๋ง์ปค์ ์ข ๋ฅ ์์๋ณด๊ธฐ ๋ฐ์ด์ค๋ง์ปค๋? ์ฌ๋์ ์ํ์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ๋ ๊ฒ์ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ์ฝ๋ฅผ ํ์ฉ์ด๊ณ ๋ชฉ์ด ์ํ๋ค๋ฉด ๊ฐ๊ธฐ์ผ ๊ฒ์ด๋ผ๊ณ ์์ํ ์ ์๋ค. ์ด์ฒ๋ผ ๋ฐ์ด์ค๋ง์ปค๋ ์ฌ๋์ ์ํ ๋ณํ์ ๋ํด ์ ๋ณด๋ฅผ ์ฃผ๋ ๊ฒ ์ค์ ์ฐ๋ฆฌ๋ชธ์์ ์์นํ ์ํฌ ์ ์๋ ๋ถ์์ ๋ฌผ์ง, ํนํ DNA, RNA, ๋จ๋ฐฑ์ง ๊ฐ์๊ฑธ ์๊ธฐํ๋ค. ์์์ ๋งํ๊ฑฐ์ฒ๋ผ ๊ฐ๊ธฐ ๊ฐ์ ์ง๋ณ์ ๋ํ ์ํ ์ ๋ณด๋ฅผ ์ฃผ๊ธฐ๋ ํ์ง๋ง ์ฝ๋ฌผ์ ์ด๋ค ๋ฐ์์ด ์๋์ง๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๊ธฐ๋ ํ๋ค. ํนํ ์๋ก์ด ์ฝ๋ฌผ์ ๊ฐ๋ฐํ ๋ ์ฌ๋ฌ ๊ฒ์ฆ ๋ฐ ๋๋ฌผ ์ํ์ ํ์ง๋ง ์คํจ์จ์ด ๋์ ์ด์ ๋ ์ฝ๋ฌผ์ ํจ๋ฅ๊ณผ ๋ถ์์ฉ์ ๋ ์ ํํ๊ฒ ์๋ ค์ค ์ ์๋ ์ข์ ๋ฐ์ด์ค๋ง์ปค๋ฅผ ์ฐพ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ์ด์ค๋ง์ปค์ ์.. 2023. 5. 10. ์ด์ 1 2 3 ๋ค์