Bio-informatica: Hoe algoritmen tot leven brengen? Bart De Moor



Dovnload 116.5 Kb.
Pagina1/6
Datum21.08.2016
Grootte116.5 Kb.
  1   2   3   4   5   6
Bio-informatica:Hoe algoritmen tot leven brengen?
Bart De Moor1




1. Inleiding

2. Wat is bio-informatica?

1. Doorbraken in de biologie

1. DNA en genomen

2. Genen, aminozuren en eiwitten, en ook nog junk-DNA

2. Doorbraken in de technologie: microroosters en bio-data

3. Doorbraken in de wiskunde en statistiek

3. Toepassingen

1. Klinische toepassingen in de oncologie

1 Selectie van kenmerken

2 Selectie van individuele genen

3 Selectie van combinaties van genen

4 Voorspellingen

5 Ontdekken van klassen

2. Ontrafelen van DNA-functies

1. Situering

2. Clusteren van genexpressieprofielen

3. Representatie van de bindingsplaats van een transcriptiefactor

4. Voorbeeld

4 De (nabije) toekomst: systeembiologie



1. Inleiding

In een beroemd artikel van slechts één pagina, dat verscheen in het bekende tijdschrift Nature in 1953 [Watson, 1953], beschreven Francis Crick en James Watson voor het eerste de chemische structuur van het DNA2. Sinds die ontdekking is het wetenschappelijk onderzoek in de moleculaire biologie en biotechnologie werkelijk geëxplodeerd. We weten steeds meer over de genetische en biochemische processen die zich in de cel afspelen. Verwacht wordt dat de impact van toepassingen op mens, dier en plant enorm zal zijn.

Een gelijkaardige exponentiële evolutie van toepassingen maken we heden ten dage mee in de informatietechnologie. Deze is gegroeid uit het fundamenteel onderzoek van de eerste helft van de 20ste eeuw. Wat we vandaag hardware noemen, is ontstaan uit de elektromagnetische wetten van Maxwell (electriciteit en draadloze transmissies). Het onderzoek in de kwantummechanica door Einstein, Bohr, Schrödinger, Heisenberg en vele anderen heeft uiteindelijk geleid tot de eerste transistor in 1948. Wat we omschrijven als software is gebaseerd op de vele wiskundige ontdekkingen en ontwikkelingen tussen 1850 en 1950, de formulering van de informatietheorie door Shannon en het onderzoek in de computerwetenschappen sinds de jaren 50. ‘Software’ omvat numerieke algoritmes, databases, transmissieprotocollen, computertalen enz. De spectaculaire groei van de informatietechnologie wordt soms gekarakteriseerd door de Wet van Moore3, waarvan de manifestaties zeer goed te zien zijn in ons dagelijkse leven: Denken we maar aan computers en laptops, DVD-spelers, mobiele telefoons en Ipod's, het internet en het World Wide Web. Het zijn stuk voor stuk technologieën en realisaties die tien jaar geleden nog niet bestonden.

Deze bijdrage gaat echter niet alleen over moleculaire biologie of enkel over informatietechnologie, maar vooral over de synergie tussen deze op het eerste gezicht totaal verschillende wetenschappen. Deze symbiose wordt de bio-informatica genoemd. De manier waarop vandaag moleculair biologisch onderzoek wordt verricht, is door de informatietechnologie ingrijpend veranderd. ‘Biology has become an information science’, zegt Leroy Hood van het Institute for Systems Biology in Seattle (zie http://www.systemsbiology.org/).

In wat volgt zullen we de belangrijkste ingrediënten van de bio-informatica toelichten, zonder exhaustiviteit na te streven.

2. Wat is bio-informatica ?

Bio-informatica ontstaat op de samenvloeiing van twee wetenschapsdomeinen, namelijk dat van de informatietechnologie en dat van de moderne biologie. Vooraleer we ons buigen over enkele illustratieve voorbeelden van toepassingen in de bio-informatica, is het nodig om dieper in te gaan op enkele verschillende doorbrakenin de biologie, de technologie en de wiskunde.



1. Doorbraken in de biologie




It has not escaped our notice that the specific pairing we have postulated

immediately suggests a possible copying mechanism for the genetic material.

Laatste zin uit het Crick & Watson artikel in Nature, 1953


Van alle wetenschappen is de biologie misschien wel het vlugst geëvolueerd gedurende de afgelopen vijftig jaar. In deze discipline zijn er dan ook geweldig veel wetenschappelijke ontdekkingen gedaan, te veel om hier op te noemen, met elk een diepe impact op onze kennis over virussen, bacteriën, planten, dieren en mensen. Van het hiernavolgend overzicht maken we ook gebruik om de lezer in het kort vertrouwd te maken met de vereiste biologische basiskennis4.

1. DNA en genomen


Het menselijk lichaam bestaan uit ettelijke miljarden cellen. In de kern van elke cel vinden we de chromosomen. Deze chromosomen kunnen beschouwd worden als hoofdstukken van een boek, dat geschreven is in het alfabet van het DNA. DNA5 staat voor ‘DeoxyriboNucleic Acid’. Elk DNA-molecule is een lineaire aaneenrijging van vier genetische basiscomponenten, die aangeduid worden met de letters A (Adenine), C (Cytosine), T (Thymine) en G (Guanine). Wat Watson en Crick beschreven in hun artikel in Nature van 1953, was de moleculair geometrische structuur van een DNA-molecule – de befaamde dubbele helix. Deze ziet er uit als een wenteltrap, waarbij de treden bestaan uit paren van A-T en G-C moleculen. De dubbele spiraal waartussen deze treden gevormd wordt, bestaat uit twee ketens van fosfaat-deoxyribose-suikerpolymeren. Het geheel noemt men dan ‘dubbelstrengig DNA’. Het feit dat A hier altijd samen voorkomt met een T, en een G altijd met een C, noemt men de complementariteit van het DNA. Deze complementariteit is het fundamentele principe waarmee DNA bij celdelingen wordt gecopieerd. Op één of andere manier splitsen de treden van de trap in het midden, waarbij elke A van de overeenkomstige T wordt gescheiden, en elke G van de overeenkomstige C. Vervolgens worden de twee gescheiden strengen van het DNA elk opnieuw ‘gecomplementeerd’ met ‘complementaire strengen’, doordat aan elke A (of T) een nieuw molecule T (of A) wordt ‘gebreid’ (idem dito met C (of G) en G (of C)). De realiteit is natuurlijk wel heel wat ingewikkelder dan hier beschreven, maar dit is een goed begin! De complementariteit van het DNA laat dus toe om de genetische informatie als het ware te ‘ontdubbelen’ en vervolgens te kopiëren. Zoals we verderop zullen zien, is de complementariteit ook de basis van de nieuwe technologie van microroosters.

Een andere grote doorbraak is de beschikbaarheid vandaag de dag, van de volledige DNA-sequentie – het genoom - van een toenemend aantal organismen. Zeer recent werd dat van de mens volledig ontrafeld en gepubliceerd in twee belangrijke artikels met bijbehorende websites6 [Lander, 2001] [Venter, 2001]7. Naast het menselijk genoom, dat ongeveer drie miljard tekens lang is, heeft men de laatste tien jaar ook heel wat andere genomen van organismen gesequentieerd, zoals dat van verschillende virussen8, ééncellige organismen zoals bacteriën9 (e.g. Haemophilus influenzae), organismen zoals gist (Saccharomyces cerevisae), planten zoals Arabidopsis thaliana (Nature, 14 december 2000), rijst10, of de kiezelalg11, de nematode worm Caenorhabditis elegans12, het fruitvliegje Drosophila melanogaster (Science, 24 maart 2000) en de muis Mus musculus (zie Nature, 420, 5 december 2002).



2. Genen, aminozuren en eiwitten, en ook nog junk-DNA


Zoals we gezien hebben bestaat het genoom van elk organisme in essentie uit een lineaire aaneenschakeling van nucleotides. In dit genoom bevinden zich bepaalde functionele stukken. Hiervan zijn de genen de meest bekende. Een gen kan biologisch gedefinieerd worden13, maar hier geven we een vereenvoudigde informatie-theoretische beschrijving. Een gen bestaat eigenlijk uit een aaneenrijging van ‘codons’, waarbij elk codon bestaat uit drie opeenvolgende nucleotides. Elk van deze drie letters staat voor een bepaald aminozuur. In de natuur zijn er 20 verschillende aminozuren. Het begin van een gen wordt aangeduid door een start-codon (meestal ATG) en het einde ervan door een stop-codon (meestal TAA, TAG of TGA)14. Men moet zich nu inbeelden dat een gen door een welbepaald leesmechanisme wordt afgelezen van bij het start-codon, waarbij elke opeenvolgende combinatie van drie letters chemisch vertaald wordt in een aminozuur. De opeenvolgende aminozuren worden dan aan mekaar geregen tot een eiwit (proteïne). Het zijn deze proteïnes die zowat de werkpaarden zijn in alle mogelijke biologische processen. Het traject van de functionele entiteiten – de genen – in het DNA, via codons en aminozuren, naar proteïnes wordt het centraal dogma van de biologie genoemd. Recent echter zijn hierop ook belangwekkende uitzonderingen ontdekt en is men eigenlijk niet langer zeker of dit ‘dogma’ wel zo universeel is.

Omdat een codon drie letters bevat, die kunnen gekozen worden uit een alfabet van vier letters (A, C, T, G), bestaan er 64 verschillende combinaties (nl. 4 tot de 3de macht). In de natuur komen echter slechts 20 verschillende aminozuren voor. Het is dan ook zo dat sommige aminozuren gekenmerkt worden door verschillende groepjes van drie letters. Dit is geen ‘fout’ van de natuur, maar eerder één van haar sterktes: op die manier mag er af en toe, bijvoorbeeld door een toevallige mutatie, een letter in het DNA veranderen zonder dat dit een merkbaar effect heeft op het geproduceerde aminozuur. Maar af en toe gebeurt het ook dat één kleine puntmutatie in het DNA zeer erge gevolgen heeft. Dat is het geval bij sommige monogenetische ziekten, waarbij de afwijking in één enkel gen soms catastrofale gevolgen heeft.

Ondanks het beperkt aantal aminozuren is het aantal mogelijke proteïnes astronomisch groot. Immers, voor proteïnes die bestaan uit L aaneengeregen aminozuren, is het aantal mogelijke combinaties ‘20 tot de Lde macht’.

Proteïnes, die dus eigenlijk lineaire ketens zijn van aminozuren, zijn meestal opgerold volgens ingewikkelde driedimensionale geometrische configuraties. De geometrische structuur van elk proteïne is zeer determinerend voor zijn precieze interactie met andere proteïnes en moleculen, zoals bindingseigenschappen en –affiniteiten, enzymatische catalyse, signaaltransductie, cel-celcommunicatie en vele andere functies en processen in de cel: het zijn de eiwitten die cellen aan mekaar klitten tot weefsels, die de weefsels tot organen organiseren en van daaruit een levend wezen scheppen. Eiwitten regelen de celdeling, herstellen kapot erfelijk materiaal, leveren belangrijke stoffen aan het natuurlijke afweersysteem, helpen bij de zuurstofvoorziening (enz.)15. Wanneer er met de eiwitproductie iets misgaat (bvb. productie van te veel of te weinig van bepaalde eiwitten) omdat er iets misloopt in één van de stroomopwaartse stappen (een fout in het DNA, problemen bij transcriptie en translatie16, enz.), dan wordt dat snel duidelijk op het niveau van de weefsels, de organen en uiteindelijk het algemeen welvoelen van de patiënt. Zo bijvoorbeeld weet men dat bij het ontstaan van prostaatkanker vier eiwitten een belangrijke rol spelen (nl. (te weinig) PPAP2B en GSTP1, (te veel) PIM1 en HPN). Er wordt dan ook veel onderzoek verricht naar methodes die de precieze geometrische vorm van een proteïne kunnen voorspellen, vertrekkende van de DNA-sequentie die er voor codeert (het zgn. ‘protein-folding’ probleem).

De hierjuist beschreven genetische code, vertrekkende van DNA-sequenties, over codons/aminozuren naar proteïnes, is quasi universeel voor alle organismen op onze planeet.Dat opent natuurlijk op termijn heel wat perspectieven om stukjes DNA-sequentie uit te wisselen tussen organismen om daarbij bepaalde ‘verbeteringen’ te realiseren. Naarmate men de genomen van steeds meer organismen opgelijnd krijgt, kan men ook steeds meer preciezere schattingen maken van het aantal genen dat aanwezig is in elk organisme. Enkele voorbeelden zijn bacteriophage Lambda (grootte genoom 5.0E+04 base paren17, 60 genen), Escherichia coli (4.6E+06 bp, 4290 genen), Gist (12.0E+06 bp, 6144 genen), de fruitvlieg Drosophila melanogaster (1.0E+08 bp, 13338 genen), het wormpje Caenorhabditis elegans (1.0E+08 bp, 18266 genen), de ‘zandraket’ Arabidopsis thaliana (2.3E+08 bp, 27000 genen) en de mens Homo sapiens (3.0E+09 bp, ‘slechts’ 25000 genen)18.

In het genoom van mensen, zoogdieren en planten zitten ook sequenties van DNA die niet coderen voor eiwitten. Tot voor kort werden de meeste van deze stukken omschreven als ‘junk-DNA’. De laatste jaren komt men terug van die wat oneerbiedige naam. Immers, in deze niet-coderende gebieden liggen tal van andere functionele entiteiten, zoals regulatorische elementen en motieven, waarop we hierna verder zullen ingaan. Het zijn ‘schakelaars’, die een gen aan of af kunnen zetten, en die ook kunnen ageren als ‘dimmers’ (d.w.z. een gen meer of minder actief maken, m.a.w. de hoeveelheid geproduceerd mRNA regelen) en ‘timers’ (d.w.z. de activiteit van een gen aansturen als functie van de tijd, bvb. bij bioritmes en –cycli). Er zijn ook ‘pseudo-genen’, d.w.z. genen die lange tijd geleden, ergens in de evolutie wel een functie hebben gehad, maar die nu niet langer worden aangeschakeld. En er is tenslotte ook – zoals blijkt uit recente experimenten19echt junk-DNA dat klaarblijkelijk geen precieze functie heeft. Vandaag de dag gebeurt zeer veel onderzoek over de ontrafeling van alle mogelijke interacties tussen regulatorische elementen, genen of groepjes van genen. Men noemt dergelijke interacties ‘genetische netwerken’.

Al deze biochemische reacties spelen zich af op gigantisch kleine schalen. Zo zijn virussen bijvoorbeeld slechts enkele honderden nanometer groot (een nanometer is een miljoenste van een millimiter, dus 0,000000001 m). Maar de tijdschalen waarop biologische systemen actief zijn, kunnen een enorme variatie vertonen. De bacterie E. Coli kan zich in ideale omstandigheden delen in 20 minuten. Dit betekent dat na 8 uur 1 bacterie aan de basis kan liggen van een populatie van 2 tot de 24ste macht aantallen bacteriën. Ze blijven zich dus om de 20 minuten verdubbelen. Anderzijds zijn er bijvoorbeeld de genetische systemen die verantwoordelijk zijn voor bioritmes. Deze hebben een periodiciteit van 24 uren of zelfs langer.




  1   2   3   4   5   6


De database wordt beschermd door het auteursrecht ©opleid.info 2019
stuur bericht

    Hoofdpagina