본문 바로가기

k-mer4

[ROSALIND] (k, d)-motif 찾기 문제 설명 Motif란 비슷한 서열을 가짐으로서 비슷한 기능을 하는 것으로 알려진 DNA 내의 짧은 서열들이다. 예를 들어, A라는 단백질이 DNA에 결합하는 위치는 DNA 상에서 여러 위치에 존재하지만 모두 비슷한 서열을 가져야 A가 결합할 수 있을 것이다. 하지만 motif는 100% 똑같은 서열이 아닐 수 있기 때문에 이러한 motif를 찾기 위해서는 어느 정도 염기서열의 차이를 고려해야 한다. 이 문제에서는 (k, d)-motif를 찾는데 여기서 k는 k 길이를 가진 motif를 뜻하고, d는 최대 d 개수만큼 염기서열 차이가 있을 수 있다는걸 뜻한다. 이러한 (k, d)-motif는 서열에 직접 존재하지 않을 수도 있다. 예를 들어, 우리가 찾은 15 bp 길이를 가진 (k, d)-motif가 .. 2023. 7. 2.
[ROSALIND] 제한 자리(restriction site) 찾기 문제 설명 바이러스는 자체 증식이 불가능하기 때문에 숙주의 시스템을 이용해 증식하게 된다. 박테리오파지(bacteriophage)는 박테리아(bacteria)를 숙주로 삼는 바이러스인데 바이러스는 어떻게든 침투해서 자신의 DNA가 증폭될 수 있게 박테리아에 삽입을 하려 하고, 박테리아는 이것을 막기 위해 세포 기능을 복잡하게 하거나 바이러스를 공격하는 기작을 갖추었다. 제한 효소(restriction enzyme)이라 불리는 단백질은 바이러스의 DNA를 절단함으로서 박테리오파지가 기능을 하지 못하게 막는다. 이런 제한 효소는 어떤 DNA를 찾아 절단할 수 있을까? 제한 효소는 homodimer이므로 2개의 똑같은 단백질 구조로 이루어져 있다. 각 구조는 제한 효소에서 DNA의 이중 가닥 중 한 가닥씩 절.. 2023. 6. 16.
k-mer로 패턴 빈도 구하기 Goal 1. K-mer란? 2. K-mer로 서열 패턴 빈도 구하기 K-mer란? 생물정보학에서 k-mer라는 말을 흔히 들어 볼 수 있다. K-mer란 쉽게 얘기해서 k 숫자만큼 길이를 가진 서열을 얘기한다. 예를 들어 3-mer라면 3 bp 길이를 가진 "ATA", "ATT", "GCT", "AGT" 등 3개의 염기로 이루어진 DNA 서열 같은걸 얘기하는 것이다. K-mer로 패턴 빈도 구하기 문제 DNA 복제를 시작하는 시점을 origin of replication, 즉 ori 라고 부른다. Vibrio cholerae라는 균의 ori 서열은 아래와 같다. atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttatccacaacctgagtggatgacatcaag.. 2023. 6. 14.
[ROSALIND] DNA가 공유하는 motif 찾기 문제 설명 유전자(Gene)란 단백질로 번역될 수 있는 DNA의 영역을 얘기한다. 모티프(Motif)는 유전자의 기능과 관련있는 DNA의 작은 단위인데 모티프 서열은 잘 보존돼 있어 모티프를 통해 서로 다른 종 간의 DNA 유사성을 확인 할 수 있다. 이번 문제에서는 여러 DNA 서열들 간에 공유하고 있는 최대한 긴 모티프를 찾는 것이다(모티프가 길수록 공유하는 기능 또한 더 유사하다고 할 수 있기 때문이다!). 문제 (Finding a Shared Motif) 최대 100개의 DNA 서열( Rosalind_1 GATTACA >Rosalind_2 TAGACCA >Rosalind_3 ATACA 예상 결과 AC 해결 def find_kmers(seq, k): return sorted([seq[i:i+k] f.. 2023. 5. 25.