Theses & Topics

Theses Topics

Potential theses topics for the current study year 2013/2014

  • Integrating GOsummaries analysis with BIIT tools (BSc)
    Supervisor: Raivo Kolde
    Date: 2013 fall

    GOsummaries is an R package that visualises Gene Ontology enrichment results as word clouds. Currently it can generate static plots on given data. BIIT working group has gathered an extensive collection of gene expression data and built several tools on top of them. The goal of the project would be to create a web tool that can apply the GOsummaries approach to the the expression data that is gathered by BIIT.

  • Finding similarly clustered regions in genome using MDL approach (BSc/MSc)
    Supervisor: Raivo Kolde
    Date: 2013 fall

    Modern technologies allow to measure some features of genome, like methylation, on many patients in parallel. The goal of this project is to develop a method to find genomic regions where these features behave in a similar manner. The starting point is an MDL based algorithm that we have developed for a similar task, but it needs some modifications to work in this setting.

NB! Additional topics are available at http://bakawiki.cs.ut.ee/doku.php?id=topics:biit

Older topics, many still relevant

  • Density based clustering / tiheduspõhine klasterdus (BSc/MSc uurimisteema)
    Idee autor: Jaak Vilo
    Välja pakutud: 2010 sügis
    Kehtib õppeaastaks: 2010/2011

    Klasteranalüüs grupeerib sarnaseid objekte. Enamus meetodid on heuristikad mis eeldavad kauguste (objektide sarnasuse) arvutamist. Kuid klastrite kujud võivad olla sellised et objektide vaheline kaugus üksi ei ole piisav hindamaks mis klastris ta on. Küll on aga tihe piirkond see, mis tuleks "kokku klasterdada".
    Töö eesmärk on uurida valdkonda, koos juhendajaga välja pakkuda uusi ideid, neid realiseerida ning eksperimenteerida.

  • Matching many patterns with errors / Paljude tekstimustrite ligikaudne sobitamine (BSc v MSc uurimisteema)
    Idee autor:
    Jaak Vilo
    Välja pakutud:
    2010 sügis
    Kehtib õppeaastaks:
    2010/2011

    Tekstialgoritmide tüüpiline probleem on otsida mustri (tekst, sõne) esinemisi suuremast tekstist. Probleem on, et otsitavaid sõnu võib olla väga palju (uued sekveneerimistehnoloogiad toodavad miljoneid selliseid sekventse) ning teiseks peab suutma otsida ligikaudseid esinemisi.

    Töö ülesanne on uurida valdkonda ja koos juhendajaga välja valida mõni meetod realiseerimiseks, teostada eksperimente, ning kui võimalik pakkuda välja uusi ideid ja algoritme.

  • Analysis of deep sequencing data for motifs and epigenetic marks (BSc v MSc uurimisteema)
    Idee autor:
    Jaak Vilo
    Välja pakutud:
    2010 sügis
    Kehtib õppeaastaks:
    2010/2011 ...

    Deep sequencing is overtaking biological information generation. Analysis methods for deep sequencing data: mapping to genomes, analysing variants, calling differences, and finding patterns in data are in high demand.

  • Universaalne tööaja hindaja (Bakalaureusetöö)
    Idee autor: Meelis Kull
    Välja pakutud: 2009 sügis
    Kehtib õppeaastaks: 2010/2011

    Lühikirjeldus.
    Projekti edukaks kavandamiseks ja täitmiseks on igal sammul vaja hinnata kuluvat tööaega. Pahatihti toimub see lihtsalt kõhutunde alusel, paremal juhul võetakse arvesse ka mingeid objektiivseid ja subjektiivseid mõõdikuid. Enamasti aitavad tööaega hinnata mitmed mõõdikud korraga, näiteks projekti töötajate arv, töötaja keskmine töönädala pikkus tundides ja eksperdi poolt antud hinnang töömahu kohta inimtundides. Mõõdikute alusel lõpliku hinnangu saamine ei pruugi olla saavutatav lihtsalt mõõdikuid kokku korrutades, jagades, liites, lahutades, vaja võib minna korrigeerivaid parameetreid. Näiteks projekti kestvus nädalates võib olla (3+töömaht inimtundides) / (töötajate arv)^0.5 / (töönädala pikkus - 2), sest 3 inimtundi kulub projekti käivitamiseks, töötajate arvu kasvades suureneb töö koordineerimise maht ning töönädalast esimene ja viimane tund lähevad raisku. Selliste parameetrite hindamiseks lõpetatud projektide andmetest on vaja rakendada masinõppe meetodeid. Bakalaureuse või magistritöö kaugemaks eesmärgiks on teha tarkvara, mis saades ette lõpetatud projektide mõõdikud ja kestvused ning käesoleva projekti mõõdikud, hindab käesoleva projekti kestvust. Mõned asjad, mida võiks teha kaugema eesmärgi huvides:

    • Tutvuda olemasoleva tarkvaraga, mis võimaldab projekti kestvust hinnata. Näiteks vaadata http://www.joelonsoftware.com/items/2007/10/26.html
    • Proovida ennustada arvutiprogrammide või programmilõikude tööaega. Mõõdikud võivad olla seotud näiteks töödeldavate andmete mahuga. Hea ennustuse tegemiseks peab ära õppima konkreetse riistvara kiiruse ning arvutiprogrammi keerukuse.
    • Mingi fikseeritud valemi alusel genereerida näiteandmeid ning vaadata, kas ennustaja suudab taastada algse valemi
    • Rakendada ennustajat tarkvaraprojektidele, võrrelda kõhutunde alusel tehtud ennustusega
  • Kirjadele vastamistõenäosuse ennustamine (Magistritöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2008, siiamaani kehtiv (kuigi guugli viimase uuenduse valguses vähem aktuaalne)

    Lühikirjeldus.
    Paljud eposti lugemise programmid märgistavad automaatselt rämpsposti, kasutades tuvastusalgortitmi treenimiseks kasutajapoolset käitumist. Antud töö ülesandeks on realiseerida süsteem, mis ennustaks kirjade olulisust kasutaja jaoks. Näiteks võiks kirjad jagada kahte gruppi, kus ideaalis sisaldaks esimene grupp kirju, millele ma ei vasta, ning teine grupp kirju, millele tuleks vasta koheselt. Kuna eposti lugemisel toimub kirjade märgistamine  jooksul iseenesest, siis on algoritmi treenimiseks vajalike andmete  saamine veelgi lihtsam kui rämpsposti filtri treenimise korral. Vastavad märgendusprogrammi saaks kasutada kirjade adekvaatseks järjestamiseks postkastis või nende visuaalseks eristamiseks ning inteligentsete staatusteadete koostamiseks. Magistritöö raames oleks tarvis teha järgmist:

    • Viia ennast kurssi hetkel kasutatavate tekstiklassifitseerimisalgoritmidega (Naive bayes ja SVM).
    • Katsetada uut algoritmi enda ekirjade kogul.
    • Realiseerida vastav Thunderbirdi plugin.
  • Mitmemõõtmeline andmebaas ekspressiooniandmete hoidmiseks ning pärimiseks (Magistritöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2008, siiani aktuaalne.

    Lühikirjeldus.
    Mitmemõõtmeline andmebaas on mugav viis hoida, pärida ning analüüsida
    numbrilisi andmeid. Sisuliselt on see Exceli tabeli loogiline
    edasiarendus, kus "tabel" võib olla rohkem kui kahemõõtmeline, "ridade"
    ning "veergude" organiseerimiseks võib kasutada hierarhiliselt
    organiseeritud ontoloogiaid, ning andmete pärimiseks ja analüüsiks saab
    kasutada mugavat päringukeelt MDX. Geeniekspressiooni andmete hoidmiseks
    ning analüüsiks oleks selline andmebaas peaaegu ideaalne lahendus,
    samas tundub et see lähenemine pole bioinformaatikute seas veel(?) eriti
    levinud. Ülesandeks on tutvuda mitmemõõtmelise andmelaonduse
    tehnoloogiatega, uurida tüüpilisi nõudeid, mis esitatakse
    geeniekspressiooni andmete hoidmis- ja analüüsi süsteemidele,
    realiseerida üks reaalne andmeladu ning demonstreerida selle peal
    visualiseerimis- ning analüüsipäringute teostamist.

  • Javascripti-põhine parasiit-hajusarvutamise tehnoloogia (Bakalaureusetöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2008, siiani aktuaalne.

    Lühikirjeldus. Ülesandeks on uurida võimalusi ning rakendusi javascripti-põhiseks "parasiit"-hajusarvutusteks. Lõppeesmärgiks on ülevaade võimalustest ning mõnda (või mitmete) use-case'i praktiline realisatsioon.

  • Sümboolsete avalduste õppimine bioloogiste andmete analüüsiks (Magistritöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2009, siiani aktuaalne.

    Lühikirjeldus.
    Ülesandeks on uurida võimalust õppida bioloogilistele andmetele
    sobitada sümboolseid reegleid, andmetes kehtivad reeglid automaatselt
    tuvastada, ning olemasolevate reeglite põhjal hüpoteese genereerida.
    Lõppeesmärk oleks tehnoloogia ülevaade, algoritmi sõnastus ning
    realisatsioon, ning reaalsete andmete põhjal teostatud analüüside
    tulemused.

  • Klasterdamine eelinformatsiooniga (Bakalaureusetöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2008, praeguseks väheaktuaalne, aga ikkagi

    Lühikirjeldus.
    Ülesandeks on uurida meetodeid millega on võimalik teostada andmete
    klasterdus teatud tüüpi eelinfoga (nõudes etteantud klastrite kujud,
    piirates klastrite keskpunktide asukoha, jne). Tulemusena realiseerida
    algoritm ning rakendada geeniekspressiooniandmetele (võib soovi korral
    ka mõni alternatiivne rakendus leida).

  • Automaatne andmebaasiskeema genereerimine nõutud tabelite nimede põhjal (Magistritöö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2010.

    Lühikirjeldus.
    Lõppeesmärk oleks luua programm, mis võtab sisendina nimekirja
    andmebaasis hoitavate objektide nimedest ("User, Group, Post, Comment")
    ning genereeriks nende põhjal adekvaatse andmebaasiskeema selliste
    objektide hoidmiseks kõikide vajalikke seostega jne. Skeema
    genereerimiseks kasutatakse olemasolevate projektide (nt. sourcefouge
    omad) andmebaasides esinevaid mustreid. Tehnoloogiliselt võiks lahenduse
    aluseks olla teatud tekstiotsingu, tekstikaevanduse, ning bayesi-laadse
    tõenäosusliku otsustussüsteemi kombinatsioon.

  • Active learning overview (Bak. töö)
    Idee autor: Konstantin Tretjakov
    Välja pakutud: 2011

    Lühikirjeldus: Eesmärk on kirjutada referatiivne ülevaade kaasaegsete active learning meetoditest koos mõne realiseeritud näitega.

  • Comparative genome and protein family classification | idea by Balaji Rajashekar | year 2011 - The main task of this project is to classify protein families across genomes. Each genome of a species contain thousands of proteins and they share similarity in sequences with other organims, we can use the similarity approach and cluster all proteins into families and then look for known and unknown functions. The protein families that are classified can be integrated with functional information from gene ontology, Pfam gives additional support to the annotation for these protein families. Further they can also be linked to gene expression data. For this project you will use some of the existing tools and also write your own programs. The main challenges will be to handle millions of proteins sequences and clustering them using Makov clustering algorithms (TRIBE-MCL) and also  provide visualization using any popular graph tools. The results will be displayed as a web browsable database. References : C. Frech and N. Chen, “Genome-Wide Comparative Gene Family Classification,” PloS one 5, no. 10 (2010): e13409. Pfam, gene ontology, MCL 
  • Tissue specific expression | idea by Balaji Rajashekar | year 2011 : Task is to identify tissue specific patterns across different developmental stages. Use different sets of public data in one organism, eg. microarray (gene expression) , chip-data, epigenetics and sequencing data to understand the transcript expressions in different time points in different tissues in available developmental stages. 
  • Alternative splicing and transcript evolution across different stages of development | idea by Balaji Rajashekar | year 2011 : Different transcripts are expressed at different stages of development of a tissue, when a data from state 0 is compared with adult state. What transcripts are expressed or not ? are there any bias in usage of transcripts during the development of a tissue. More explanations will be added.  
  • Evolutionary analysis of conserved domains and their expression patterns| idea by Balaji Rajashekar | year 2011 , given an alignment can we identify all the conserved domains and draw them as a network. Since there will be many domains with different combinations in different sequences, analyse the duplication of domains and their expression patterns.
  • Proposed in: 2010. 
    • MEM2 - merging of different datasets for expression analysis
    • Improving data visualization for large scale data
    • Expression data visualization in genome browser