Hoe analyseer je 8.000 genomen in twee maanden? 

Het is dan eindelijk zover: Hartwig is over op referentiegenoom GRCh38 (hg38)! Al jaren was hier vraag naar vanuit wetenschappers die van onze database gebruikmaken. Onze analyses draaiden namelijk nog op ouder hg19 referentiegenoom, terwijl de eerste versie van hg38 in 2013 uitgekomen is. Voor een organisatie als Hartwig Medical Foundation is het best een hele klus om zo’n overstap vlot en betrouwbaar te doen, met minimale verstoring voor de onderzoeken die al lopen. Hoe doe je 10 jaar rekenwerk opnieuw in twee maanden? En welk voordeel biedt dat voor de toekomst? In deze blog geef ik een kijkje achter de schermen van dit project. 

Het referencegenoom – context

Maar eerst even de vraag, waar wordt het referentiegenoom voor gebruikt en wat is het verschil tussen die twee versies?

Een referentiegenoom is een gestandaardiseerde versie van het menselijk genoom – inclusief een aantal variaties – die gebruikt wordt om de ruwe (sequencing) data weer in elkaar te puzzelen. Uit de sequencer die wij gebruiken komen namelijk relatief korte stukken DNA-sequentie, die nog op de juiste plek gezet moeten worden. Het referentiegenoom is als het ware het voorbeeldplaatje voor die puzzel.

Hg19 bevatte nog heel wat lege plekken en was vooral gebaseerd op Westerse data. Hg38 is een geüpdatete versie met meer data vanuit andere werelddelen en met minder onduidelijke stukken. Ook is een aantal fouten gecorrigeerd. Dit beïnvloedt de nummering van alle baseparen, waardoor het niet volstaat om enkel een aantal aanvullingen te doen op de oude versie. De hele puzzel moet opnieuw worden gelegd. 

Grootschalige heranalyse van 8.000 genomen

Gelukkig ligt er al een mooie basis. De database van Hartwig is in tien jaar opgebouwd en bestaat inmiddels uit data van zo’n 8.000 patiënten die hun data ter beschikking hebben gesteld voor onderzoek. Al deze samples moesten in een zo kort mogelijke tijd opnieuw worden geanalyseerd. Daarbij moest de kwaliteit voldoen aan de eisen voor medische diagnostiek, omdat de data primair wordt gebruikt door klinisch onderzoekers. Want dat is uiteindelijk de waarde van Hartwig: het leveren van data die helpt bij behandelbeslissingen.   

Dus gingen mijn collega Matthijs van Niekerk ((IT infrastructure lead) en zijn team van software developers (Mathijs den Burger, Arne Roeters, Kasper Wolsink) hiermee aan de slag. 2 Jaar geleden begon het met vele vergaderingen en rekenmodellen en een transitieplan. Mede dankzij deze voorbereiding was het afgelopen voorjaar dan eindelijk zover: de nieuwe berekeningen konden van start gaan. 1 Pètabite aan (gecomprimeerde) alignment data en tientallen terrabites aan analysefiles werden in minder dan twee maanden tijd herberekend.  

Daarbij hielden we de kosten zo laag mogelijk door de analyses met op dat moment niet gebruikte machines te draaien. Daar werd het complexer van, maar de software-ontwikkelaars vonden dat als programmeurs juist wel interessant. We konden de rekenkosten reduceren tot gemiddeld 11 euro per sample, toen Hartwig net begon was dit zo’n 250 euro. 

Normaal gesproken draaien we twintig nieuwe genoomanalyses per week, voor dit project waren dat 500-600 samples per dag. In de cloud draaiden soms wel 5.000 machines tegelijk, dat is vergelijkbaar met 20.000 laptops. Andere partnerorganisaties die geen gebruikmaken van de Cloud zijn met een dergelijke analyse al snel een jaar bezig.  Maar voor dit soort projecten is het essentieel om in korte tijd over enorme rekenkracht te beschikken. 

Internationale samenwerking

Een andere uitdaging was de internationale samenwerking. Dit was namelijk een uitgelezen kans om de data meer op elkaar af te stemmen, zodat die goed uitgewisseld en gecombineerd kan worden. Tijdens de voorbereidingsfase hebben we veel overleg met internationale partners gehad zoals het internationale consortium voor kinderkankers (ITCC) en Genomics England, dat de grootste WGS-database beheert.
Als zij straks ook alles omgezet hebben, dan hebben we dus hetzelfde referentiegenoom en veel beter vergelijkbare analyses. Een hele vooruitgang aangezien we weten dat voor robuuste behandelbeslissingen onafhankelijke validatie van bevindingen essentieel is!

Hoe nu verder

Ondertussen zit het team van Matthijs niet stil. Dit project is nog maar het begin, een soort testcase. De data die in de toekomst gegenereerd gaat worden is vele malen groter dan de schaal die we tot nu toe gezien hebben. De sequencers worden steeds sneller en goedkoper. Zo willen we toe naar een model waarbij samples ter plaatse – bijvoorbeeld binnen ziekenhuizen gesequenced worden en waarbij alleen de data vervolgens centraal wordt geanalyseerd. Dat is een stuk sneller dan koeriers en dus beter voor de patiënt. 

Joep de Ligt

Dit project laat zien dat het mogelijk is om zulke hoeveelheden data snel, betrouwbaar en betaalbaar te analyseren. De fundering is gelegd. Het zou mooi zijn als deze uitgebreide DNA-analyses van tumoren op korte termijn al de klinische standaard worden, zodat bijvoorbeeld duidelijker te voorspellen is welke behandeling wel, maar ook niet, aan zal slaan. Zo krijgt een patiënt de beste behandeling en het kan een hoop onnodige bijwerkingen besparen. 

Daar doen we het uiteindelijk voor. 

Hartwig is er klaar voor.  Dank voor het lezen.

Joep de Ligt – Database lead

U las een blog over het onderwerp IT. Wellicht bent u ook geïnteresseerd in Hartwig Medical Database, Innovatie, Kwaliteit, Werken in de cloud of Whole genome sequencing.
Lees al onze blogs

Wilt u op de hoogte blijven van nieuwe ontwikkelingen?

Abonneer u op onze nieuwsbrieven

Meer weten over de complete DNA-test?

Ga naar OncoAct.nl