III Alineamiento de Secuencias

About This Presentation

Title:

III Alineamiento de Secuencias

Description:

III Alineamiento de Secuencias Andr s Moreira Departamento de Inform tica UTFSM Comparaci n de secuencias Comparaci n de secuencias Comparaci n de secuencias ... – PowerPoint PPT presentation

Number of Views:359

Avg rating:3.0/5.0

Slides: 95

Provided by: Andr574

Category:

more less

Transcript and Presenter's Notes

Title: III Alineamiento de Secuencias

1
IIIAlineamiento de Secuencias
Andrés Moreira Departamento de Informática UTFSM
2
TAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTG
TTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACA
AACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGAT
TTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACAT
TAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAG
TGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTC
TATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATAC
TAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTA
TTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTT
CAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGA
CAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTC
TACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAA
TAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCT
TTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATA
ATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTA
ACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTT
TTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATG
AGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGA
AATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATG
TCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATT
TTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAAC
AACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAA
GATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATA
TGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATT
TGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATT
TTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGC
TATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAA
AAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCT
TCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTT
GATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGC
TTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTAT
GCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCAC
CATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCT
GAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAG
AAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTG
AGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTT
CATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACA
AACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAA
TCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATG
GGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAA
GTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGA
GGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCT
CTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGG
ACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATT
TTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGG
AAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCC
CTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTAC
ATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGA
ATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGAT
ATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGG
ACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGA
ATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAG
ACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAAT
AAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTA
TCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACA
ATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGA
TAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGG
CTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTA
TTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTG
TATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCA
TCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCA
CCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAA
GGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAAT
GACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTC
ATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAG
ACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGG
ATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACAT
CATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAAC
ACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTC
TCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCC
TAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCC
AGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTT
TTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGA
CAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCT
TCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCT
CTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAA
CTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCC
TGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCT
CACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACT
ACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTT
GAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAA
ACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTC
CAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAA
ATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTT
TTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAA
TCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACA
GGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAA
TTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTT
TGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTAT
AAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAG
GAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCAC
ACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAA
CAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATG
TGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGG
GGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGAT
TCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCC
TTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATC
CAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAG
CTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATA
AGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTA
TACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACA
ACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAG
TTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGC
AACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGA
GGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTC
CCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCT
CATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTC
AGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCC
TCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGA
AAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATAC
TGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCT
TGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGG
TAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCC
TGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTT
CCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGT
AAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAA
TTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACA
TGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTG
TGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAA
CATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGT
CCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTC
AACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTT
GTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTC
TATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTT
TTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTT
TTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGG
TGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGT
GAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACC
CTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCC
AGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAG
CACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGG
CTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGT
TTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAA
ATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCAT
AGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTG
ACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGA
TTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGA
CTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGG
CCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATAT
AGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAG
TGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCT
CTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCT
CTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCA
GCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCC
CCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGA
GAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAG
AATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGAC
CTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCA
TAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTA
TGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCA
CATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTT
AACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGA
CTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATC
TCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAA
GCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATC
TTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGA
TGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATC
TCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTT
TCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAAT
ATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGT
GGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAA
GTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAA
AATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTC
AGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGC
AGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTT
CTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCT
TTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAG
TATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGA
CCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTA
CACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTA
AAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCA
TTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTAT
CTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAA
AACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGT
ATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAG
CCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGAT
GAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGC
TCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTC
TTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCT
TCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAG
TAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATG
ACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCC
TCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAA
AAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAA
GCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTC
AAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAA
GGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAA
GATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACT
GGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATT
TTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTT
GCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGG
GAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATT
ATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAG
TTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAA
TTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTA
AGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAAT
CCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACT
CACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGAT
AGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCT
CAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCC
CACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATA
TCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATC
CAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACT
GTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCT
ACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATA
ACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACAC
GACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATT
TCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATA
GTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGT
CTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAA
ACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGC
AACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCAC
TTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGT
AAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAA
CTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTA
CAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCA
TTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAA
TTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTC
AGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAA
CTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACA
ACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTG
AAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGA
TTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAAT
GCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACA
CCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGT
GCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAAT
CCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTG
ATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGA
CATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTT
CAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATT
TGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGG
GCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGA
AGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTC
TAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTC
AAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAA
TAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGG
CAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCT
TTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGC
ATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACC
AACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAA
TGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCA
GGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTG
GAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAG
ACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGC
TGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGA
GTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAG
AGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAA
ATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCC
AATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAA
GACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGA
GAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACA
ACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTA
GGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGG
ATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAAT
ACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCT
TTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGAT
GCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACA
TTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTG
TCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATG
TTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAG
GTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCT
GCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGC
ACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCT
ATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCT
GTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGA
CACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTG
TAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTAT
TTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGG
AACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTAT
TTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTA
GGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGC
AGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGT
CAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAAT
AAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGG
ATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAA
TTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCT
TGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTT
GGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGA
AGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCAT
AATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGA
CTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAA
TTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAA
AGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGT
GCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCC
AGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGT
GTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCT
TCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAA
GCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAAT
TTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGA
CAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTG
GCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAAC
AGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGC
AATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTT
GAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGC
ATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAG
GAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATG
ATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAAC
TTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATA
TACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGT
AGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACC
AGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATC
TCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCC
CAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCT
CTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTG
GCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTC
AAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCC
ACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAG
TGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTT
AAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTG
TACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCAC
TCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCA
GTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTG
CCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGG
ATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTAC
CTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCA
TGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAA
TTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTAT
TATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAA
ATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGC
TCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACAC
AGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTAT
GCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACG
GTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGT
GATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGA
GAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCA
TGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGA
GAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGC
CCTGCTCCCATACCTTGCCCCCTGCATCTCTTCCATTTGGCTGTTCCTGA
GTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCT
GTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAAC
CCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCAT
CTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTG
CGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACC
CACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCC
TGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAG
TAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAAT
TGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGA
AATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTG
AGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGG
ATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAG
TGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGT
GTGAAGTGCAGATAATAATATCTATCTCACAAGGTG
3
Comparación de secuencias
La comparación de secuencias está en el corazón
de la bioinformática. Los usos son variados
innumerables problemas se reducen en algún
momento a comparar dos secuencias, o un grupo de
secuencias. Y eso tiene que ver con que...
Nothing in biology makes sense except in the
light of evolution!!
4
Comparación de secuencias

Darwin
Ancestro común
Descendencia con modificación

Por lo tanto, las secuencias
tienen ancestros comunes
sufren modificaciones
secuencias similares tienen funciones similares

5
Comparación de secuencias
Pero el parentezco entre secuencias no sólo
corresponde a parentezco entre especies también
hay familias de secuencias.
6
Comparación de secuencias

Para qué sirve comparar secuencias?
Para determinar relaciones evolutivas entre
especies.
Para determinar relaciones evolutivas entre
genes.
La secuencia que acabo de obtener en el
laboratorio, está en la base de datos? O alguna
parecida?
?O incluye trozos parecidos a algo conocido?

7
Comparación de secuencias
Para qué sirve comparar secuencias?

Para predecir función si mi proteína NN se
parece mucho a una, digamos, polimerasa... será
también polimerasa?
Para predecir estructura si conozco la
estructura 3d de una secuencia parecida...
Para predecir regulación a qué otras secuencias
de control se parece la de este gen?
Etc, etc, etc...

8
Comparación de secuencias homología

Homología similaridad entre secuencias atribuída
a que descienden de un ancestro común.
Hay dos tipos de homología. Las secuencias pueden
ser
Ortólogas secuencias homólogas en especies
distintas, que divergieron por la divergencia de
las especies.
Parálogas secuencias homólogas en una misma
especie, que divergieron tras la duplicación de
un gen.

9
Comparación de secuencias homología
Ortólogos proteína RBP en varias especies de
vertebrados
? Tienden a tener la misma función.
10
Comparación de secuencias homología
Parálogos
? Alguna divergencia ocurre en la función.
11
Comparación de secuencias homología
Homólogos de los dos tipos
12
Comparación de secuencias homología
Xenólogos resultado de transferencias
horizontales de genes (esos genes saltarines...)
E. coli
13
Comparación de secuencias similaridad

Similaridad la medida en la cual dos secuencias
(de nucleótidos o aminoácidos) están
relacionadas.
Importan la identidad y la conservación de las
letras.
Identidad no hubo cambio.
Conservación hubo cambio pero se mantuvieron
propiedades físicas/químicas/funcionales
relevantes (eso es más frecuente en aminoácidos).

14
Comparación de secuencias similaridad
Alinemiento entre RBP4 y beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
? identidad . ? algo de conservación ? alta
conservación ..... ? gaps (indels, inserción o
eliminación)
15
Comparación de secuencias similaridad

Similaridad versus homología
Similaridad es entre secuencias es
cuantificable.
Homología requiere ancestro común no es
cuantificable.
Homología por lo general implica similaridad.
Similaridad no implica homología,
...aunque alta similaridad entre secuencias
largas por lo general sí se considera evidencia
de homología.
(La convergencia es rara sólo se ve en
secuencias cortas).

16
Comparación de secuencias similaridad
La similaridad es variable, según qué cosa
comparemos, y cómo comparemos. Cómo evaluar
similaridad? Cómo encontrar los
alineamientos? Cómo saber si son
significativos? ?En proteínas un 25 de
identidad probablemente indica homología ?En
DNA, es lo que se esperaría al azar!
17
Comparación de secuencias similaridad
RBP4 vs beta-lactoglobulina
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKK
DPEG 50 RBP . . . . .
.. 1 ...MKCLLLALALTCGAQALIVT..QTMK
GLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51
LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE
97 RBP . .
. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQK
WENGECAQKKIIAEKTK 93 lactoglobulin 98
DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC
136 RBP . . .
. 94 IPAVFKIDALNENKVL........VLDTDYKK
YLLFCMENSAEPEQSLAC 135 lactoglobulin 137
RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV
185 RBP . .
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSF
NPTQLEEQCHI....... 178 lactoglobulin
18
Comparación de secuencias similaridad
RBP humana vs RBP en trucha arcoiris
1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGT
WYAMAKKDP 48 ...
. .. . 1
MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP
47 . . .
. . 49 EGLFLQDNIVAEFSVDETGQMSATAKG
RVRLLNNWDVCADMVGTFTDTED 98
... ..
48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFE
DTPD 97 . . .
. . 99 PAKFKMKYWGVASFLQKGNDDHW
IVDTDYDTYAVQYSCRLLNLDGTCADS 148
..
98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCR
EVDLDGTCLDG 147 . .
. . . 149
YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNL
L 199 .. .
148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGK
YRRVGHTGFCESS...... 192
19
Alineamiento de secuencias

Tipos de alineamiento
De a pares se alinean dos secuencias de la mejor
manera posible para maximizar identidad y
conservación se busca evaluar similaridad, y
posible homología.
Múltiple se alinea un grupo de secuencias ( no
es lo mismo que alinearlas a todas de a pares!).

20
Alineamiento de secuencias

El alineamiento múltiple (no lo veremos aún)
ayuda a
hacer árboles filogenéticos

mosca GAKKVIISAP SAD.APM..F VCGVNLDAYK
PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP
SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA
planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ
PNMDIVSNAS CTTNCLAPLA bacteria GAKKVVMTGP
SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA
levadura GAKKVVITAP SS.TAPM..F VMGVNEEKYT
SDLKIVSNAS CTTNCLAPLA archaea GADKVLISAP
PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
21
Alineamiento de secuencias
La métrica que se usa es la distancia de
Levenshtein o distancia de edición es la
longitud del proceso más corto para convertir una
secuencia en otra, a través de pasos de
inserción, borrado, o reemplazo (cada vez, de a
una letra).
22
Alineamiento de secuencias

Problemas
Una única mutación que inserta o borra suele
afectar a más de una posición por lo tanto, un
hoyo de largo k no debiera costar igual que k
hoyos de largo 1.
Solución usual
? puntaje afín para los hoyos, del tipo abk.

23
Alineamiento de secuencias

Problemas
Sólo se reconocen identidades reemplazos
conservativos requieren algún puntaje
intermedio.
? Se usan matrices de sustitución, que asocian un
número a cada posible reemplazo de una letra por
otra.
Hay que distinguir entre proteínas y ácidos
nucléicos.

24
Alineamiento matrices de sustitución

Ácidos nucléicos
El alfabeto ACGT se puede proyectar a un alfabeto
binario de tres maneras distintas cada una tiene
cierto significado bioquímico
RA,G, YC,T purinas y pirimidinas, resp.
SG,C, WA,T enlace fuerte o débil, resp.
KT,G, MA,C expone grupo keto o amino,
resp.
Si un reemplazo no cambia la distinción R/Y, se
suele considerar conservativo se llaman
transiciones, y los otros reemplazos son
transversiones.

25
Alineamiento matrices de sustitución
Proteínas

Serina (S) y treonina (T) tienen propiedades
parecidas el ácido aspártico (D) y el ácido
glutámico (E) también.
El reemplazo S/T o E/D es frecuente durante la
evolución. El costo no debería ser muy inferior
al de la identidad.

26
Alineamiento matrices de sustitución

Fuentes posibles para crear las matrices
Propiedades fisico/químicas de los aminoácidos.
Frecuencia empírica de reemplazos observados en
proteínas claramente homólogas.
En la práctica resultan ser criterios parecidos.
Se usa lo segundo.

27
Alineamiento matrices de sustitución

Son dos los grupos de matrices más usados
PAM (Dayhoff, 1978)
BLOSUM (Henikoff Henikoff, 1992)
?casi han reemplazado a las PAM
En la matriz se pone el odds ratio

el logaritmo de la probabilidad de la
sustitución, dividida por la probabilidad de que
las letras alineadas estén allí al azar (qi y qj
son las frecuencias absolutas).
Por qué logaritmo? ?Para poder trabajar con
números de magnitudes similares, y para poder
sumar en vez de multiplicar.

28
Alineamiento matrices de sustitución

PAM
PAM1 se construye con la prob. de reemplazo para
un nivel de divergencia de 1 (1 aminoácido de
cada 100), que sería aproximadamente un millón de
años.
PAMn, para divergencias mayores, se construye
calculando potencia n-ésima de PAM1.
BLOSUM
Para BLOSUMn, se usan alineamientos locales de un
mismo largo (sin gaps) de proteínas con al menos
n de identidad. No se extrapola nada.

29
Alineamiento matrices de sustitución
PAM250
30
Alineamiento matrices de sustitución
100
BLOSUM62
Usa estas
62
30
31
Alineamiento matrices de sustitución
La matriz que corresponda usar depende de qué tan
lejanas son las secuencias que se están
comparando.

Polimerasa de ratón vs polimerasa de bacteria
Globinas humanas distantes

RBP de ratón vs RBP de rata
32
Alineamiento

Resumiendo, el puntaje de un alineamiento
dependerá (aditivamente) de
La matriz de sustitución, que le pone puntaje al
reemplazo de una letra por otra
La penalización de gaps
Con eso se están haciendo varias
simplificaciones
Que haya independencia entre posiciones.
Que no haya zonas más mutables.
Que todas las secuencias cambian al mismo ritmo...

33
Alineamiento
Que todas las secuencias cambian al mismo ritmo?
33 PAM para kappa-caseína, 0 PAM para
ubiquitina! Pero ok, se hace la simplificación.
34
Alineamiento dot plots
Una herramienta simple pero útil dot plots.
Ponemos una secuencia en una fila, la otra en una
columna, y un punto por cada coincidencia. Se
suelen unir con líneas los puntos contiguos de
una diagonal. En uso desde los 70s.
35
Alineamiento dot plots
Mioglobina vs beta-globina (humanas)
Refinamiento más reciente ?Sólo poner el punto
si en una ventana de tamaño w, hay s
coincidencias (se elimina ruido poco
significativo).
36
Alineamiento dot plots
Receptor LDL humano vs sí mismo
w30, s9
w40, s20
37
Alineamiento dot plots

Conviene hacerlos antes de aplicar algoritmos
puede haber algo evidente que salte a la vista.
Qué se puede ver?
?Similaridad entre dos secuencias
?Secuencias repetitivas
?Palíndromes (que existen!)
?Segmentos compartidos, aunque esté cambiado el
orden, o haya bloques insertados.

38
Alineamiento local y global

Se pueden buscar alineamientos locales o globales
Global se alinea una secuencia completa contra
otra secuencia completa. Suele ser útil para
secuencias similares, y/o de tamaños parecidos.
Local se alinea un tramo de una secuencia con un
tramo de la otra, de la mejor manera posible.

39
Alineamiento global

Podemos ver un alineamiento como un camino en una
matriz similar al dotplot
Avanzamos hacia la derecha y hacia abajo.
Vamos de la esquina en que comienzan las
secuencias, hasta la esquina en que terminan.
Horizontal o vertical ? gap
Diagonal ? identidad o reemplazo

40
Alineamiento global
Para dos proteínas de 100 aá, los posibles
alineamientos son ? 1060.
En general, la cantidad de alineamientos es
O(2nm).
Por suerte, existe un algoritmo de programación
dinámica Needleman Wunsch, 1970.
41
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
42
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty
score(x,y) max
43
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y)
score(x,y) max
44
Alineamiento global
T C G C A T C C A
A cada punto podemos llegar por sólo tres caminos.
x
Una vez que llegamos al final, desandamos lo
andado para determinar la ruta óptima.
score(x,y-1) - gap-penalty score(x-1,y-1)
substitution-score(x,y) score(x-1,y) - gap-penalty
score(x,y) max
45
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 M 1 A
2 T 3 H 4 S 5
46
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 M 1
A 2 T 3 H 4 S 5
47
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 M
1 A 2 T 3 H 4 S 5
48
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
M 1 A 2 T 3 H 4 S 5
49
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 A 2 2 T 3 3 H 4 4 S 5 5
50
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 A 2 2 T 3 3 H 4 4 S 5 5
51
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 A 2 2 T 3 3 H 4 4 S 5 5
52
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 H 4 4 S 5 5
53
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 S 5 5
54
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
55
Alineamiento global
Seq2(j) A R T S Seq1(i) 0 1 2 3 4 0 0 1 2
3 4 M 1 1 1 2 3 4 A 2 2 1 2 3 4 T 3 3 2 2 2 3 H 4
4 3 3 3 3 S 5 5 4 4 4 3
56
Alineamiento global

El alineamiento no es necesariamente único

MATHS MA-THS MATHS -ARTS
-ART-S ART-S

Si los gaps tienen costo afín, se usan tres
matrices, pero la idea es la misma.
El algoritmo corre en tiempo O(mn), y ocupa
espacio O(mn).
Se puede arreglar para que el espacio sea
O(maxm,n).

57
Alineamiento local
Alineamientos locales buscar un buen
alineamiento entre segmentos, y extenderlo sólo
mientras siga siendo bueno (no más allá).
Alineamiento global
Sec 1
Alineamiento local
Sec 2
58
Alineamiento local
Algoritmo Smith-Waterman, 1982 ?Después de 12
años, se le agrega un 0 al algoritmo de NW

Al terminar, busco el valor más grande en la
tabla.
Me devuelvo por ruta óptima hasta encontrar un 0.

59
Alineamiento local
Algoritmo Smith-Waterman
60
Alineamiento
NW y SW son óptimos, aunque no necesariamente
sean el alineamiento biológicamente correcto. Lo
realmente malo es el orden cuadrático.
61
Alineamiento
62
Alineamiento

Contra una base de datos, por lo general
? se buscan alineamientos locales
? se usan heurísticas
Se desea buena sensitividad (evitar falsos
negativos) y especificidad (evitar falsos
positivos).
Los dos algoritmos (o familias de) principales
son FASTA y BLAST.
Ambos parten buscando bloques de identidades,
mediante matches de palabras (substrings cortos).

63
Alineamiento - FASTA

FASTA
Lippman Pearson, 1985 (para proteínas), 1988
(nucleótidos).
Ubica los mejores tramos diagonales de
identidades.
Los recalcula con PAM.
Se queda con los 10 mejores.

64
Alineamiento - FASTA

FASTA
Busca una cuasi-diagonal que recorra la mayoría
Aplica SW sobre una ventana en torno a eso.
?Acelera un orden de magnitud, respecto a SW.

65
Alineamiento - BLAST

BLAST (Karlin Altschul, 1990, 1993)
Indexa las palabras de un cierto largo k (para la
base de datos, lo hace antes).
A partir del query, genera una lista L de todas
las palabras de largo k, y a partir de esas, una
lista de palabras de largo k que darían un
puntaje sobre un umbral T si se alinearan con
alguna de L.
Ejemplo Si el query contiene AIV, AIA da un
puntaje de 440 y AII da un puntaje de 443.
Con T 10, tomo AII.

66
Alineamiento - BLAST

BLAST
Típicamente eso genera 50 palabras a partir de
la secuencia query.
Busca matchs exactos de palabras.

Extiende esos match en ambas direcciones,
mientras eso genere alineamiento significativo.

67
Alineamiento

De FASTA y de BLAST (sobre todo de BLAST) existen
distintas variantes
con énfasis locales o globales,
mejoras para proteínas o DNA,
previsiones para bases de datos grandes,
etc...
Se pueden bajar, o utilizar en servidores.
Se pueden usar en la web de manera interactiva, o
desde software local (hay API del uso vía URLs).

68
Alineamiento

Por lo general, FASTA resulta mejor para
nucleótidos, y BLAST, para proteínas.
Velocidad BLAST gt FASTA gt SW
Sensitividad BLAST lt FASTA lt SW
Pero ojo, ambas familias están en permanente
evolución, y en BLAST hay mucha gente trabajando.
Cuando se comparan secuencias que codifican
proteínas, por lo general es preferible comparar
las proteínas, no sus DNAs.

69
Alineamiento

Sabores principales de BLAST (hay equiv. FASTA)
BLASTN query de nucleótidos, BD de nucleótidos.
BLASTP query de proteína, BD de proteínas.
Esas son simples. Las que siguen, consideran los
6 marcos de lectura posible (mirando ambas hebras
del DNA, y partiendo la traducción desde la
primera, segunda o tercera letra)
BLASTX query de nucleótidos, BD de proteínas.
TBLAST query de proteína, BD de nucleótidos.
TBLASTX query de nucleótidos, BD de nucleótidos

70
Significatividad
Al hacer una búsqueda contra una base de datos y
encontrar un match, se suele informar el p-value
y el E-value asociados al puntaje
obtenido. p-value probabilidad de obtener ese
puntaje o uno mejor, por simple azar. E-value
el p-value multiplicado por la cantidad de
secuencias en la base de datos (ergo, cantidad de
matches así de buenos que cabe esperar al azar).
71
Significatividad
No existe buena teoría estadística para los
valores E y p, en el caso más general. Para el
caso de alineamiento local de dos secuencias de
largo n y m, sin gaps, en la aproximación de n y
m grandes, se tiene E ? mn ? K ? e-?S donde K y
S reflejan el espacio de búsqueda y la
puntuación, respectivamente. Esto es el E-value
de los HSP (high scoring segments, los tramos
no-extendibles del alineamiento local). Bit
score S (?S- ln K) / ln 2
72
Significatividad
Para bases de datos, o para el caso general con
gaps, la distribución para el p-value se
determina empíricamente. NO sigue una normal es
una distribución de valores extremos, pero
depende de la base de datos.
En los servidores, los datos están
precalculados. BLAST suele subestimar el
E-value hay que creerle sólo a valores chicos.
0.02 a 0.05 pueden ser de interés.
73
Significatividad
Conviene probar con versiones rebarajadas de
nuestra secuencia. En general, tener ojo con la
composición, repeticiones, etc.
100 random shuffles Mean score 8.4 Std. dev.
4.5
Número de instancias
Score obtenido 37
score
74
Alineamiento bayesiano

Una alternativa reciente
Nucleic Acids Research, 2002, Vol. 30, No. 5
1268-1277BALSA Bayesian algorithm for local
sequence alignment
Bobbie-Jo M. Webb, Jun S. Liu and Charles E.
Lawrence
Se consideran varias matrices de sustitución y
penalizaciones de gaps (con alguna distribución
de probabilidad a priori).
Se entrega una función P(i,j) con la probabilidad
de que la letra i-ésima de la primera secuencia
se alinee con la j-ésima de la segunda.
Se entrega también una distribución a posteriori
para las matrices y penalizaciones.

75
Alineamiento bayesiano

Desventajas
mayor trabajo de cómputo
no entrega directamente un alineamiento pero se
puede reconstruir uno, por ejemplo recorriendo de
(0,0) a (m,n) por la ruta que sume más P(i,j).
Ventajas
formaliza el proceso de tantear con distintas
matrices de sustitución hasta tener una que
refleje (y prediga) la distancia evolutiva entre
las secuencias.
permite observar distintos niveles de confianza a
lo largo del alineamiento

76
Breve nota sobre lenguaje
Residuo sinónimo de aminoácido (letra de
proteína). Base sinónimo de nucleótido (letra
de DNA o RNA). También se habla de base pair
para referirse a las bases (pensando en que el
DNA tiene dos hebras). No es lo mismo que un
dinucleótido (que es una palabra de DNA de largo
2).
77
Breve nota sobre Organismos modelos

Organismos modelos
Los estudios se concentran en ciertas especies,
por economías de escala (de varios tipos)
Se escogen especies fáciles de tratar, con ciclos
de vida rápidos, tamaño relativamente pequeño, y
a veces con algún interés específico.
No están repartidos de manera representativa de
la diversidad del árbol de la vida sesgo
(práctico) hacia los eucariotas, los metazoos
(animales), los vertebrados.

78
Breve nota sobre Organismos modelos

La lista es larga. Principales
Mamíferos
Homo sapiens (humano)
Canis lupus familiaris (perro)
Mus musculus (ratón)
Cavia porcellus (conejillo de indias)
Rattus norvegicus (rata)
Otros vertebrados
Gallus gallus domesticus (gallina)
Danio rerio (pez zebra)
Xenopus laevis (una rana africana)

79
Breve nota sobre Organismos modelos

Invertebrados
Caenorhabditis elegans (un gusano nemátodo)
Drosophila melanogaster (mosca de la fruta)
Arbacia punctulata (erizo de mar, sea urchin)
Plantas
Arabidopsis thaliana (mostaza)
Nicotiana tabaccum (tabaco)
Oryza sativa (arroz)
Zea mays (choclo)

80
Breve nota sobre Organismos modelos

Hongos
Saccharomyces cerevisiae (levadura de la cerveza
y el pan)
Schizosaccharomyces pombe (otra levadura)
Neurospora crassa (moho de pan)
Protistas
Dictyostelium discoideum (ameba social)
Tetrahymena thermophila (un protozoo ciliado)
Chlamydomonas reinhardtii (alga unicelular)

81
Breve nota sobre Organismos modelos

Bacterias
Escherichia coli
Bacilus subtilis (bacilo, vive en el suelo)
Mycoplasma genitalium (diminuta!)
Vibrio fischeri (marino, luminoso)
Virus
Tobacco mosaic virus (un virus de RNA, en tabaco)
? fago (ataca a E. coli)
HIV (virus del sida)

82
Breve nota sobre software bioinformático

Hay mucho.
Mucho es libre, y/o de código abierto.
Lenguajes frecuentes
Java (particularmente aplicaciones individuales)
C, C (todo lo que tiene que andar rápido)
Perl (operaciones sobre secuencias)
Python (crecientemente)
Muchos servicios online, utilizables vía web o
vía URLs.
Librerías bajables que conviene reutilizar.
Hay mucho.

83
Breve nota sobre datos bioinformáticos

Hay muuuuchos, de diversos tipos.
Existen bases de datos de bases de datos.
Al comienzo de cada año, número especial de
Nucleic Acid Research con las novedades más
importantes.
Por lo general, mucha cross-reference entre las
BD.
Mencionaremos por ahora sólo el punto de entrada
al núcleo y punto de partida de los datos
Genbank.

84
Bases de datos el núcleo
Entrez
NIH
NCBI
GenBank

Submissions
Updates

Submissions
Updates

EMBL
DDBJ
CIB
NIG

Submissions
Updates

SRS
EMBL
getentry
85
NCBI - Entrez
PubMed
OMIM
PubMed Central
Journals
3D Domains
Literature
Books
Structure
Organism
Taxonomy
CDD/CDART
Entrez
Genome
Expression
Protein
Nucleotide
Sequence
UniSTS
HomoloGene
SNP
UniGene
Gene
GEO/GDS
Nucleotide
PopSet
86
Bases de datos

GenBank/DDBJ/EMBL es BD de nucleótidos.
Son secuencias primarias información en bruto,
con las anotaciones que los autores hayan
provisto.
RefSeq (en el NCBI) es una BD curada contiene
información tomada de GenBank pero comparada y
anotada es como un review.
Para proteínas UniProt incluye una parte curada
y con mucha información (SwissProt) y una parte
no curada que simplemente traduce las secuencias
de GenBank TrEMBL.

87
Bases de datos

De dónde sale la información primaria?
De gente que está investigando un gen
? entradas cortas, organismos típicos, muy bien
anotadas
De gente que está investigando filogenia o
genética de poblaciones
? secuencias de organismos atípicos por lo
general cortas, con diversas versiones
Proyectos de secuenciamiento
entradas cortas, productos intermedios en las
técnicas de secuenciamiento.
entradas largas, con nivel de anotación
dependiente del nivel de avance del proyecto.

88
Bases de datos formatos básicos

Formatos elementales para secuencias de ácidos
nucléicos o proteínas
Texto plano (sólo las letras de una secuencia!)
FASTA
Genbank
ASN.1 (como referencia)
XML (para parsearlo)

89
Bases de datos formatos básicos
Formato FASTA
gtgi121066spP03069GCN4_YEAST GENERAL CONTROL
PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAK
PMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPI
PELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDV
SLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNS
VVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRA
RNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R

Línea de descripción que parte con gt.
Lo primero en esa línea es un identificador
sigue la descripción.
Formato bastante libre.
Se recomienda que las líneas no pasen de 80
caract.
Si vuelve a aparecer un gt, es que sigue otra
secuencia.

90
Bases de datos formatos básicos
Letras estandar
91
Bases de datos formatos básicos
LOCUS MUSNGH 1803 bp mRNA
ROD 29-AUG-1997 DEFINITION Mouse
neuroblastoma and rat glioma hybridoma cell line
NG108-15 cell TA20 mRNA, complete
cds. ACCESSION D25291 NID
g1850791 KEYWORDS neurite extension activity
growth arrest TA20. SOURCE Murinae gen. sp.
mouse neuroblastma-rat glioma hybridoma
cell_lineNG108-15 cDNA to mRNA. ORGANISM
Murinae gen. sp. Eukaryotae
mitochondrial eukaryotes Metazoa Chordata
Vertebrata Mammalia Eutheria Rodentia
Sciurognathi Muridae
Murinae. REFERENCE 1 (sites) AUTHORS
Tohda,C., Nagai,S., Tohda,M. and Nomura,Y.
TITLE A novel factor, TA20, involved in
neuronal differentiation cDNA
cloning and expression JOURNAL Neurosci. Res.
23 (1), 21-27 (1995) MEDLINE
96064354 REFERENCE 3 (bases 1 to 1803)
AUTHORS Tohda,C. TITLE Direct Submission
JOURNAL Submitted (18-NOV-1993) to the
DDBJ/EMBL/GenBank databases. Chihiro
Tohda, Toyama Medical and Pharmaceutical
University, Research Institute for
Wakan-yaku, Analytical Research Center for
Ethnomedicines 2630 Sugitani, Toyama,
Toyama 930-01, Japan
(E-mailCHIHIRO_at_ms.toyama-mpu.ac.jp,
Tel81-764-34-2281(ex.2841),
Fax81-764-34-5057) COMMENT On Feb 26, 1997
this sequence version replaced gi793764. FEATURES
Location/Qualifiers source
1..1803
/organism"Murinae gen. sp."
/note"source origin of sequence, either mouse or
rat, has not been
identified"
/db_xref"taxon39108"
/cell_line"NG108-15"
/cell_type"mouse neuroblastma-rat glioma
hybridoma" misc_signal 156..163
/note"AP-2 binding site"
GC_signal 647..655
/note"Sp1 binding site" TATA_signal
694..701 gene 748..1311
/gene"TA20" CDS
748..1311 /gene"TA20"
/function"neurite extensiion
activity and growth arrest
effect" /codon_start1
/db_xref"PIDd1005516"
/db_xref"PIDg793765"
/translation"MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNN
SLFISNTHLSRR
KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRS
HSHSIYRL RPSMRTNIILRCHSYYKPPI
SHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY
RGPSNRSPPLPPRNRIKQPNRIKLRCR"
polyA_site 1803 BASE COUNT 507 a 458
c 311 g 527 t ORIGIN 1
tcagtttttt tttttttttt tttttttttt tttttttttt
tttttttttg ttgattcatg 61 tccgtttaca
tttggtaagt tcacaggcct cagtcaacac aattggactg
ctcaggaaat 121 cctccttggt gaccgcagta
tacttggcct atgaacccaa gccacctatg gctaggtagg
181 agaagctcaa ctgtagggct gactttggaa gagaatgcac
atggctgtat cgacatttca 241 catggtggac
ctctggccag agtcagcagg ccgagggttc tcttccgggc
tgctccctca 301 ctgcttgact ctgcgtcagt
gcgtccatac tgtgggcgga cgttattgct atttgccttc
361 cattctgtac ggcattgcct ccatttagct ggagagggac
agagcctggt tctctagggc 421 gtttccattg
gggcctggtg acaatccaaa agatgagggc tccaaacacc
agaatcagaa 481 ggcccagcgt atttgtaaaa
acaccttctg gtgggaatga atggtacagg ggcgtttcag
541 gacaaagaac agcttttctg tcactcccat gagaaccgtc
gcaatcactg ttccgaagag 601 gaggagtcca
gaatacacgt gtatgggcat gacgattgcc cggagagagg
cggagcccat 661 ggaagcagaa agacgaaaaa
cacacccatt atttaaaatt attaaccact cattcattga
721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt
gggtcccttc taggagtctg 781 cctaatagtc
caaatcatta caggtctttt cttagccata cactacacat
cagatacaat 841 aacagccttt tcatcagtaa
cacacatttg tcgagacgta aattacgggt gactaatccg
901 atatatacac gcaaacggag cctcaatatt ttttatttgc
ttattccttc atgtcggacg 961 aggcttatat
tatggatcat atacatttat agaaacctga aacattggag
tacttctact 1021 gttcgcagtc atagccacag
catttatagg ctacgtcctt ccatgaggac aaatatcatt
1081 ctgaggtgcc acagttatta caaacctcct atcagccatc
ccatatattg gaacaaccct 1141 agtcgaatga
atttgagggg gcttctcagt agacaaagcc accttgaccc
gattcttcgc 1201 tttccacttc atcttaccat
ttattatcgc ggccctagca atcgttcacc tcctcttcct
1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca
gatgcagata aaattccatt 1321 tcacccctac
tatacatcaa agatatccta ggtatcctaa tcatattctt
aattctcata 1381 accctagtat tatttttccc
agacatacta ggagacccag acaactacat accagctaat
1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt
tcctatttgc atacgccatt 1501 ctacgctcaa
tccccaataa actaggaggt gtcctagcct taatcttatc
tatcctaatt 1561 ttagccctaa tacctttcct
tcatacctca aagcaacgaa gcctaatatt ccgcccaatc
1621 acacaaattt tgtactgaat cctagtagcc aacctactta
tcttaacctg aattgggggc 1681 caaccagtag
acacccattt attatcattg gccaactagc ctccatctca
tacttctcaa 1741 tcatcttaat tcttatacca
atctcaggaa ttatcgaaga caaaatacta aaattatatc
1801 cat //

Genbank
Información preliminar sobre la secuencia
título, taxonomía, referencia.
Tabla de features cosas que se encuentran en la
secuencia. Cada feature puede tener qualifiers.
La secuencia misma.
Un // indica fin de la entrada después puede
comenzar otra.

92
Bases de datos formatos básicos
SwissProt Esquema parecido al de GenBank, pero
con mucha más información (función, estructura,
enfermedades asociadas...)
ID CYS3_YEAST STANDARD PRT 393
AA. AC P31373 DT 01-JUL-1993 (REL. 26,
CREATED) DE CYSTATHIONINE GAMMA-LYASE (EC
4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1
OR STR1 OR YAL012W OR FUN35. OS TAXONOMY OC
SACCHAROMYCETACEAE SACCHAROMYCES. RX
CITATION CC -!- CATALYTIC ACTIVITY
L-CYSTATHIONINE H(2)O L-CYSTEINE CC
NH(3) 2-OXOBUTANOATE. CC -!- COFACTOR
PYRIDOXAL PHOSPHATE. CC -!- PATHWAY FINAL STEP
IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING CC
L-CYSTEINE FROM L-METHIONINE. CC -!-
SUBUNIT HOMOTETRAMER. CC -!- SUBCELLULAR
LOCATION CYTOPLASMIC. CC -!- SIMILARITY
BELONGS TO THE TRANS-SULFURATION ENZYMES
FAMILY. CC -------------------------------------
------------------------------------- CC
DISCLAMOR CC -----------------------------------
--------------------------------------- DR
DATABASE cross-reference KW CYSTEINE
BIOSYNTHESIS LYASE PYRIDOXAL PHOSPHATE. FT
INIT_MET 0 0 FT BINDING 203
203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SQ
SEQUENCE 393 AA 42411 MW 55BA2771 CRC32
TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP
ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS
ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE
TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV
ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS
ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP
FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA
VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS
KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA
SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN //
93
Bases de datos formatos básicos
ASN1 (Abstract Syntax Notation) Es un estándar
es el formato interno en GenBank.
94
Iremos mencionando otros formatos y otros
softwares y otras bases de datos en la medida en
que vayamos pasando por distintos
temas. http//www.ncbi.nlm.nih.gov/Entrez/

Write a Comment

User Comments (0)