SAGE: Nieuw algoritme voor analyse van tumor-DNA onthult mutaties die eerder niet waren gevonden

Hartwig Medical Foundation analyseert tumor-DNA. Dit proces proberen we continu te verbeteren. We delen deze analyses met ziekenhuizen om hen te helpen de beste behandeling voor hun patiënten te vinden. Daarnaast voegen we al deze analyses samen in onze database. Hiermee zijn we onderzoekers van dienst, zodat zij de zorg voor de patiënten van morgen kunnen verbeteren.

Meestal vertellen we hoe onderzoekers en ziekenhuizen deze analyses gebruiken, maar niet zozeer hoe we deze genereren. Wij ontwikkelen hiervoor algoritmes. Onlangs hebben we een nieuw algoritme ontwikkeld, dat wij SAGE hebben genoemd. Het leidt tot rijkere analyses die zowel patiënten als onderzoekers ten goede komen.

Waarom moet er iets gebeuren tussen het sequencen van een tumorbiopt en het leveren van geanalyseerde gegevens?

  • De sequencer leest niet het hele chromosoom in één keer af. In plaats daarvan wordt het DNA eerst gefragmenteerd en wordt de sequentie van de resulterende fragmenten afzonderlijk bepaald. Het resultaat is dat we voor een typische tumor 2 miljard DNA-fragmenten van 150 nucleotiden sequencen die afkomstig zijn van het tumorbiopt. Al deze fragmenten voegen we daarna weer samen. Dit is alsof je probeert een glas dat op de grond was verbrijzeld in een miljoen stukjes opnieuw in elkaar te zetten.
  • Een extra complexiteit is dat de sequencer fouten kan maken. Dit is als het verbrijzelen van een glas, waarna je een paar stukjes vervangt door scherven van een ander glas. Daarna zet je het in elkaar.
  • Van het glas hebben we een voorbeeld van hoe het eruit zag. Van het genoom dat is gesequenced weten we helaas niet precies hoe het er uitzag voordat we het fragmenteerden. Ook al lijken mensen qua DNA erg op elkaar, ze zijn nog steeds allemaal uniek! Het resultaat is dat we het glas in elkaar moeten zetten, waarbij we enkele stukken vervangen of verwijderen, terwijl we slechts een globaal idee hebben van hoe het glas er in eerste instantie uitzag.
  • Het volgende niveau van complexiteit wordt veroorzaakt doordat we willen weten wat er anders is in het tumor-DNA in vergelijking met het DNA waarmee de patiënt is geboren. We moeten twee sets DNA vergelijken, terwijl we slechts een globaal idee hebben van hoe een van beide eruit ziet. Daarnaast weten we niet precies hoe verschillend tumor-DNA en gezond DNA zouden moeten zijn. Hoewel we weten dat kanker het gevolg is van mutaties in gezond DNA, hebben sommige tumoren slechts een paar honderd mutaties geaccumuleerd, terwijl andere tumoren er meer dan de honderdduizend hebben.
  • De uiteindelijke complexiteit komt doordat een tumorbiopt geen homogene klomp cellen is. Een tumormassa is in feite een verzameling van verschillende cellen. Er kunnen bijvoorbeeld bloedvaten zijn of stromacellen. Misschien hebben immuun cellen de tumor geïnfiltreerd en proberen deze de tumor te doden. Ten slotte zijn de tumorcellen een hybride, evoluerend ‘organisme’, met verschillende populaties tumorcellen die mutaties delen, maar die ook hun eigen unieke mutaties hebben. Dit verschilt sterk van tumor tot tumor, maar we moeten aannemen dat het tumorbiopt waarvan we de sequentie hebben bepaald, DNA van verschillende cellen omvat. Dit kunnen verschillende soorten tumorcellen zijn die al dan niet hun DNA-samenstelling delen.

Ten slotte: we sequencen en analyseren hele genomen. Het analyseren van het hele genoom is goed voor zowel individuele patiënten als voor onderzoekers. Dit is wel afhankelijk van computers en algoritmen om de analyse uit te voeren. Het is mogelijk om 100 nucleotiden visueel te inspecteren om te zien of er substituties zijn, maar dit wordt onmogelijk bij het beoordelen van 3 miljard nucleotiden!

SAGE is ons nieuwe algoritme om deze nucleotidesubstituties te vinden. Zo kunnen we een visuele inspectie op grote schaal uitvoeren. Op een hoog niveau is het doel van het algoritme om elke nucleotidesubstitutie te vinden die in het tumor-DNA is opgetreden in vergelijking met het DNA waarmee de patiënt is geboren, zonder daarbij fouten te maken. We willen 100% gevoelig en 100% nauwkeurig zijn. In de praktijk is er altijd een compromis tussen die twee. We kunnen minder kritisch zijn, wat betekent dat we veel van de echte vervangingen vinden, maar dit leidt ook tot het vinden van veel valse positieven. Een typische tumor heeft tienduizenden nucleotidesubstituties. Dit klinkt misschien enorm, maar is eigenlijk niet veel, gezien de 3 miljard nucleotiden die in theorie zouden kunnen worden vervangen.

Over het algemeen specificeert het algoritme een grenswaarde in termen van bewijs dat nodig is om een ​​nucleotide te beschouwen dat afwijkt van wat we denken dat in het gezonde DNA een “echte” mutatie is. Door weinig beperkingen in te stellen vinden we alle echte mutaties in het tumor-DNA, maar voegen we ook veel valse positieven toe. Door veel beperkingen in te stellen, wordt het tegenovergestelde bereikt; we zijn heel precies maar missen misschien echte mutaties. Hoewel deze grenswaarde de belangrijkste parameter is in ons algoritme, hebben we veel aanpassingen gemaakt aan deze basisregel. Deze aanpassingen zijn vooral geïnspireerd op eerder kankeronderzoek, maar ook door onze samenwerking met het Nederlands Kanker Instituut in het kader van het WIDE-onderzoek. Daar hebben we sequencing-analyses van routinezorg en sequentiebepaling van het hele genoom bij meer dan 500 patiënten vergeleken.

Een voorbeeld van zo’n aanpassing is dat we de mutatie classificeren als “echt” als we zwak bewijs vinden (onder onze grenswaarde) voor een mutatie waarvan in eerder onderzoek is aangetoond dat deze kanker veroorzaakt. Mutaties met bewijs net boven onze grenswaarde, die zich in een gebied van het genoom bevinden waarvan bekend is dat het moeilijk te sequencen is en mogelijk sequentiefouten bevat, vertrouwen juist niet.

Maanden van testen en tweaken hebben geresulteerd in dit nieuwe algoritme genaamd SAGE. De impact van de definitieve versie is getest op de gegevens van 100 patiënten. Dit heeft een behoorlijke toename van de gevonden nieuwe mutaties (gemiddeld ongeveer 4% meer mutaties) met een minimale hoeveelheid extra valse positieven (minder dan 1%) aan het licht gebracht. Voor een patiënt betekent dit dat er een grotere kans is dat we relevante driver-mutaties vinden. Voor onderzoekers betekent dit dat onze analyse completer is dan voorheen, waardoor ze meer inzichten uit onze DNA-analyses kunnen halen dan voorheen.

De volledige details van het algoritme staan op Github.