본문 바로가기

motif4

[ROSALIND] (k, d)-motif 찾기 문제 설명 Motif란 비슷한 서열을 가짐으로서 비슷한 기능을 하는 것으로 알려진 DNA 내의 짧은 서열들이다. 예를 들어, A라는 단백질이 DNA에 결합하는 위치는 DNA 상에서 여러 위치에 존재하지만 모두 비슷한 서열을 가져야 A가 결합할 수 있을 것이다. 하지만 motif는 100% 똑같은 서열이 아닐 수 있기 때문에 이러한 motif를 찾기 위해서는 어느 정도 염기서열의 차이를 고려해야 한다. 이 문제에서는 (k, d)-motif를 찾는데 여기서 k는 k 길이를 가진 motif를 뜻하고, d는 최대 d 개수만큼 염기서열 차이가 있을 수 있다는걸 뜻한다. 이러한 (k, d)-motif는 서열에 직접 존재하지 않을 수도 있다. 예를 들어, 우리가 찾은 15 bp 길이를 가진 (k, d)-motif가 .. 2023. 7. 2.
[ROSALIND] DNA 서열에서 motif 찾기 문제 설명 서로 다른 종의 유전체에서 공통적으로 가진 DNA 서열이 발견된다면 이 서열은 두 종에서 모두 비슷한 기능을 하는 것이라고 생각 할 수 있다. 이러한 서열을 모티프(motif)라고 부른다. 분자생물학 분야에서는 어떤 생물의 유전체에서 이런 모티프를 찾는 일을 흔히 하는 것을 볼 수 있다. 모티프처럼 유사한 서열이 여러번이나 한 유전체에서 발견되는 경우도 있는데 이러한 서열을 repeat이라 부른다. Repeat은 랜덤으로 생겨난 서열이라기에는 정말 자주 발생하는 것을 확인할 수 있다. 인간 유전체에서 가장 흔한 repeat은 Alu repeat이라는 건데 이것은 300 bp 정도의 길이에 한 사람에게서 100만번 정도 발생하는 것으로 알려져 있다. 하지만 이러한 Alu repeat은 좋은 역할.. 2023. 5. 28.
[ROSALIND] DNA가 공유하는 motif 찾기 문제 설명 유전자(Gene)란 단백질로 번역될 수 있는 DNA의 영역을 얘기한다. 모티프(Motif)는 유전자의 기능과 관련있는 DNA의 작은 단위인데 모티프 서열은 잘 보존돼 있어 모티프를 통해 서로 다른 종 간의 DNA 유사성을 확인 할 수 있다. 이번 문제에서는 여러 DNA 서열들 간에 공유하고 있는 최대한 긴 모티프를 찾는 것이다(모티프가 길수록 공유하는 기능 또한 더 유사하다고 할 수 있기 때문이다!). 문제 (Finding a Shared Motif) 최대 100개의 DNA 서열( Rosalind_1 GATTACA >Rosalind_2 TAGACCA >Rosalind_3 ATACA 예상 결과 AC 해결 def find_kmers(seq, k): return sorted([seq[i:i+k] f.. 2023. 5. 25.
[ROSALIND] 단백질 motif 찾기 문제 설명 단백질은 기능적 단위인 단백질 도메인(protein domain)으로 이루어져 있다. 도메인마다 하나의 기능이 알려져 있고, 일반적으로 단백질은 여러 역할을하기 때문에 1개 이상의 도메인을 가지고 있다. 이렇게 같은 도메인을 가지고 있는 단백질들을 묶어서 유전자군(gene/protein family)라고 부른다. 단백질 도메인의 기능을 정의하는 더 작은 단위로 모티프(motif)가 존재한다. 모티프는 진화적 측면으로 봤을 때도 잘 보존되어 있기 때문에 다른 종 간에서도 유사한 모티프의 확인이 가능하다. 단백질 서열은 세계적으로 다양한 연구실에서 발견되고 온라인 상에서는 UniProt에 단백질 데이터가 쌓이고 있다. 여기서 단백질의 구체적인 서열, 기능, 도메인 구조, 단백질 번역 후 변형(po.. 2023. 5. 23.