Információ

Mi az oka annak, hogy az exome szekvenálásból származó VCF-fájlból hiányoznak a hívások?

Mi az oka annak, hogy az exome szekvenálásból származó VCF-fájlból hiányoznak a hívások?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Az adataim egy VCF-fájl az exome szekvenálási variánshívásból. Nem nagyon ismerem a szekvenálási folyamatot és a variánshívási folyamatot. Észrevettem, hogy néhány genotípus hiányzik, ami "./"-ként van rögzítve. a GT mezőn. A guglizásból megtudtam, hogy ezek nem homozigóta referencia genotípus ("0/0"), hanem a szekvenálási tudatlanság miatt hiányzó hívások.

Annak érdekében, hogy "tisztább" legyen az adataim, jobbnak láttam kiszűrni a hiányzó hívásokkal rendelkező lókuszokat, ha nincs belőlük túl sok. Ellenőriztem a lókuszok megfelelő "DP-jét" hiányzó hívásokkal és anélkül. Például:

chr1:123 GT:DP 0/0:2 1/1:4 ./. chr1:234 GT:DP 0/0:10 1/1:11 1/1:20 chr1:345 GT:DP 0/1:40 1/1:37 0/0:78 chr1:456 GT:DP 0/ 1:7 0/0:23 ./. chr1:567 GT:DP 0/1:34 1/1:39 0/0:58

A fenti játék példában 3 ember és 5 hely van. Ellenőriztem mind az 5 lókusz átlagos DP-jét, és megállapítottam, hogy a hiányzó hívásokkal rendelkező lókuszok (1. és 4. lókusz) átlagos DP-je szignifikánsan alacsonyabb, mint a hiányzó hívások nélküli lókuszok átlagos DP-je (2., 3. és 5. lókusz). Ez véletlen egybeesés? Vagy van valami konkrét oka annak, hogy a hiányzó hívásokkal rendelkező lókuszok alacsonyabb lefedettséggel rendelkeznek, mint a "normál" lókuszok? Kösz!


Bevezetés

Az exome szekvenálás egy olyan módszer, amely lehetővé teszi a genom exonikus régióinak szelektív szekvenálását – vagyis az érett mRNS-ben jelen lévő genom átírt részeit, beleértve a fehérjét kódoló szekvenciákat, de a nem transzlált régiókat (UTR) is.

Az emberben körülbelül 180 000 exon található, amelyek együttes hossza

30 millió bázispár (30 Mb). Így az exóm az emberi genomnak csak 1%-át képviseli, de a becslések szerint az összes betegséget okozó változat akár 85%-át is magában rejti (Choi et al., 2009).

Az exome szekvenálás tehát megfizethető alternatívát kínál a teljes genom szekvenáláshoz a genetikai betegségek diagnosztizálásában, miközben még mindig sokkal több lehetséges betegséget okozó variáns helyet fed le, mint a genotipizáló tömbök. Ez különösen fontos a ritka genetikai betegségek esetében, amelyeknél a kiváltó variánsok túl alacsony gyakorisággal fordulhatnak elő az emberi populációban ahhoz, hogy a genotipizálási tömbökbe bekerüljenek.

Megjegyzendő, hogy egy közelmúltban a klinikai gyermekneurológia területére összpontosító tanulmány azt jelzi, hogy az exome szekvenálás költségei valójában még ma sem magasabbak, mint a hagyományos genetikai tesztelés költségei (Vissers et al., 2017).

Részletek Exome szekvenálás vs teljes genom szekvenálás

Az oktatóanyagban bemutatott lépések elvileg teljes genomszekvencia (WGS) adatok elemzésére is alkalmasak. Összehasonlítható átlagos lefedettség mellett azonban a WGS-adatkészletek sokkal nagyobbak lesznek, mint az exome szekvenálásúak, és elemzésük ennek megfelelően több időt vesz igénybe.

A WGS nyilvánvaló előnye az exome-szekvenáláshoz képest természetesen az, hogy a genom még több régiójában teszi lehetővé a variánsok kimutatását. Kevésbé nyilvánvaló előnyként a WGS-adatok teljesebb információi könnyebbé tehetik az észlelést példányszám-változat (CNV) és szerkezeti változatai mint például a transzlokációk és az inverziók (bár az ilyen észleléshez bonyolultabb elemzési lépésekre lesz szükség, amelyekre ez az oktatóanyag nem tér ki).

Általánosságban elmondható, hogy az exome-szekvenálás rögzíti a legtöbb információt, amely ma standard bioinformatikai eszközökkel ésszerű költségek mellett elemezhető. Ezzel szemben a WGS annyi információt rögzít, amennyit a mai szekvenálási technológia nyújtani tud, és a jövőben lehetségessé válhat az ilyen adatok újbóli elemzése egy erősebb bioinformatikai szoftverrel annak érdekében, hogy kiaknázzák azokat az információkat, amelyeket akkoriban nem lehetett elemezni. az adatgyűjtésről.

Egy adott genetikai betegség hátterében álló kiváltó variánsok azonosítása, amint azt ebben az oktatóanyagban látni fogjuk, nemcsak a variánsok sikeres kimutatásától függ a páciens genomjában, hanem a páciens és a kiválasztott rokonok közötti variánsok összehasonlításától is. Leggyakrabban a beteg és szüleik genomszekvenciáiból álló családi trió adatait használják fel erre a célra. Az ehhez hasonló többmintás adatokkal lehetővé válik a betegség megfigyelt öröklődési mintájával kompatibilis bármilyen mendeli öröklődési sémát követő variánsok keresése, vagy az esetleges kiváltó ok kimutatása. de-novo mutációk ill a heterozigótaság elvesztése (LOH) események.

Részletek Kapcsolódó oktatóanyagok

Ez az oktatóanyag a valós betegadatok elemzésének gyakorlati szempontjaira összpontosít. Ha jobban érdeklik a variánshívás elméleti vonatkozásai, érdemes megnézni a Változatok hívása diploid rendszerekben című kapcsolódó oktatóanyagot.

A szomatikus variánsok hívásáról szóló oktatóanyag egy elemzési munkafolyamatot követ, amely meglehetősen hasonló az itt leírtakhoz, de megpróbálja azonosítani a tumorvariánsokat úgy, hogy összehasonlítja a tumormintát ugyanazon páciens egészséges szövetével. A két oktatóanyag együttesen arra szolgál, hogy megismerkedjen a Galaxy segítségével a genomikai gyógyászattal.

Napirend


Háttér

A DNS megabázisonkénti szekvenálási költségei a 2001-es több ezer dollárról a 2017-es cent töredékére csökkentek [1], és manapság több százezer genomot szekvenálnak világszerte.

A nagy áteresztőképességű szekvenálás (HTS) lehetővé teszi a kutatóknak, hogy példátlan felbontásban rögzítsék az emberi genom állapotát térben és időben, ahol a teljes genom szekvenálás (WGS) és a teljes exome szekvenálás (WES) kiemelkedik, mint kiemelkedő technika. A WGS használatával lehetőség nyílik DNS-variánsok azonosítására az egyed teljes genomjában, míg a WES technológia céldúsító készleteket használ oligonukleotid próbákkal, amelyek szelektíven választják ki a kódoló régiókat a variánsok azonosítására [2, 3]. Annak ellenére, hogy a nem kódoló régiókban előforduló mutációk felelősek lehetnek az emberi betegségekért [4, 5], és a betegségek öröklődésének egy része továbbra is megmagyarázatlan, a betegséget okozó mutációk 85%-a a kódoló régiókban található [6], ezért a WES-t A HTS fontos és nagyon költséghatékony alkalmazása, és számos genetikai betegség kiváltó variánsának felfedezéséhez vezetett [7, 8]. Ezenkívül a WGS-hez képest a WES elemzés gyorsabb, és nagyobb lefedettséget tesz lehetővé a kódoló régiókban [9].

A szekvenálási költségek csökkenésével a HTS diagnosztikai és kutatási felhasználása exponenciálisan megnövekedett, ami nagy igényt jelent a párhuzamos számítástechnikai eszközök iránt a big data elemzésére. Bár a nyers költségek határozottan csökkennek, az adatkezelés és -szervezés továbbra is kihívást jelent, mivel a generált adatok mennyisége nő.

Míg számos rendelkezésre álló forrás lehetővé teszi variánsok keresését az emberi genomban [10, 11, 12], egy adott projektre jellemző belső adatbázis elérhetősége előnyt jelent a hasonló tünetekkel és tünetekkel, földrajzi elhelyezkedéssel vagy genotípussal rendelkező betegek vizsgálatához. Ezért elengedhetetlen olyan automatizált csővezetékek kifejlesztése, amelyek képesek a HTS adatok feldolgozásának és bányászatának rutinfeladatainak elvégzésére (singletonok, mintacsaládok vagy csoportok), valamint az eredményeket egy könnyen olvasható adatbázisban tárolni.

Manapság számos eszközt használnak a variánshívásokhoz és annotáláshoz szükséges pipeline-ok végrehajtásához: A VDAP-GUI a FASTQ minőségellenőrzéstől az annotációig [13] végez elemzéseket, de nem képes adatbázist építeni, vagy több elemzés végrehajtását automatizálni. A HugeSeq egy olyan eszköz, amely a FASTQ-ból kiindulva tud Variant Call Format (VCF) fájlt (a GA4GH konzorcium által kifejlesztett formátumot) létrehozni, azonban megvan a korlátja, hogy csak egyetlen elemzést hajtson végre [14]. A SIMPLEX egy változat-felderítő eszköz, amely a Burrows-Wheeler Aligner (BWA) [15] és a GATK [16] technológiát használja ki.

Egy felhőalapú számítástechnikai infrastruktúra használatára támaszkodik, de nem hoz létre adatbázist a változatok gyűjtéséhez [17]. A bcbio eszköz (https://github.com/chapmanb/bcbio-nextgen) egy közösségi erőfeszítés, amely különféle célokra, például WES, RNS-seq, miRNA-seq, egysejt-elemzési csővezetékek biztosítására szolgál. Több mintát is képes elemezni, de nem teszi lehetővé több elemzés végrehajtását egyetlen paranccsal.

A Bcbio a Gemini [18] eszközt használja ki, amely egy SQLite adatbázist használ a változatok tárolására és lekérdezésére, amelyek korlátozottak a nagyméretű adatbázis-hozzáféréshez. Valójában az SQLite adatbázisok egyetlen írási műveletet tesznek lehetővé bármely adott időpontban, ami korlátozott átvitelt tesz lehetővé a további downstream elemzésekhez. Tekintettel arra, hogy a minták és szekvenciavariánsok hatalmas száma megnyitja az utat az átfogóbb genotípus-fenotípus korrelációs vizsgálatok felé, amelyek az SQLite adatbázison alapulnak, a Gemini nem alkalmas új csoport-összehasonlítási és mintasorozási algoritmusok megvalósítására.

A RUbioSeq [19] egy helyben telepíthető eszköz, felhasználóbarát grafikus felhasználói felülettel (GUI), amely folyamatokat hajt végre a különböző NGS-elemzésekhez, de nincs lehetősége a variáns tárolására és a genotípus-információk adatbázis-struktúrába való mintázására.

Korábban publikáltunk egy cikket egy olyan eszközről [20], amely a WEP-pel [21], a STORMSeq-vel [22] és a Galaxy-val [23] együtt bekerülhet a „webes eszköz” kategóriába, amelyből hiányzik az elemzési paraméterek finom szabályozása és az eredmények összeállítása. Továbbá nem veszik figyelembe az adatok helyi tárolását.

Mindezeket a korlátozásokat figyelembe véve javasoljuk a VarGenius szoftvert, amely több testreszabható folyamatot képes végrehajtani a célzott újraszekvenálási elemzéshez (beleértve a GBP munkafolyamatot a közös genotípus elemzéshez). Létrehoz egy PostgreSQL adatbázist is, amely tartalmazza a variáns- és génjegyzeteket, valamint a betegek adatait (nem, életkor, rokonság, fenotípusok és genotípusok). A VarGeniust egy segéddobozként terveztük orvosbiológiai kutatók számára, akik kevés bioinformatikai tapasztalattal rendelkeznek az elemzések egyetlen paranccsal történő futtatásához, valamint a számítástechnikai biológusok eszközeként, amellyel algoritmusokat tervezhetnek a mutációk felfedezéséhez kohorszszintű vizsgálatok során. A VarGenius adatbázis SQL programozói felületen keresztül kérdezhető le, amely nagyon intuitív szintaxissal rendelkezik. Az online felhasználói kézikönyvben leírt szkriptet (query_2_db.pl) biztosítunk, amely lehetővé teszi az alapvető automatizált lekérdezések végrehajtását.


Háttér

A Crohn-betegség (CD) a gyomor-bél traktus krónikus gyulladásos bélbetegsége (IBD), amelynek előfordulási gyakorisága 29,3 eset/100 000 személyév [1], és csak az Egyesült Államokban 780 000 embert érint [2]. A krónikus gyulladás, amely a CD jellegzetessége, a gyomor-bél traktus bármely részében előfordulhat, és bizonyos esetekben extraintestinálisan is megnyilvánulhat [3]. A betegség etiológiájában genetikai, mikrobiom és környezeti tényezők kombinációja játszik szerepet [4, 5]. A genomszintű asszociációs vizsgálatok (GWAS) hozzájárulnak a CD genetikai architektúrájának megértéséhez, és eddig 241 szignifikánsan asszociált lókuszt azonosítottak [6]. Ezek az eredmények megvilágítják a mögöttes molekuláris betegségek útjait, hozzájárulva a CD patogenezisének alapvető biológiájának megértéséhez. A GWAS eredményei rávilágítanak az endoplazmatikus retikulum stressz [7], a gát integritása [5], a veleszületett immunitás [8], az autofágia [9], a citokintermelés [10], a limfocita aktiváció [10], a baktériumokra adott válasz szerepére. a JAK-STAT-útvonal szerepe [10]. Néhány kivételtől eltekintve azonban az egyéni kockázati lókuszok csak szerény hatást gyakorolnak a betegségre való hajlamra. Összességében az ismert lókuszok a betegségek előfordulásának körülbelül 13%-át magyarázzák [11]. Így a CD végleges diagnózisához továbbra is endoszkópos, szövettani, radiológiai és/vagy biokémiai vizsgálatok kombinációja szükséges [12]. Számos szerológiai marker, elsősorban anti-Saccharomyces cerevisiae Az antitest (ASCA) és a perinukleáris anti-neutrofil citoplazmatikus antitest (pANCA) a közelmúltban azt javasolták, hogy klinikailag hasznosak a diagnózisban [13, 14]. Ezek a markerek azonban nem elég pontosak a CD önmagukban történő pontos diagnosztizálásához, ezért a hagyományos tesztek kiegészítésére használják őket. Ezenkívül az IBD-betegek akár 14%-ánál a diagnózis a betegség lefolyása során megváltozik [15], ami arra utal, hogy egyeseket tévesen diagnosztizálnak, és esetleg rossz betegséggel kezelik őket.

A betegséggel összefüggő változatok genetikai tesztelésének prediktív értéke ellentmondásos, mivel az azonosított mutációk általában gyenge korrelációt mutatnak, és nem azonosítanak ok-okozati mintákat. Ennek ellenére a 30 GWAS CD lókuszon alapuló számítási előrejelzések meglehetősen nagy pontosságot értek el a vevő működési jelleggörbéje alatti területtel (ROC AUC) 0,71-es szimulált adatokon, amely tovább javítható 0,74-re a családtörténet beépítésével [16]. . Egy másik tanulmányban egy logisztikus regressziós modell még jobb prediktív teljesítményt (ROC AUC =𠂐.86) ért el azáltal, hogy 573 GWAS-lókuszon edzett több mint 13 000 egyénben [17]. Vegye figyelembe, hogy ennek a modellnek a alkalmazásakor a betegekből és kontrollokból álló panelünk teljesítménye rosszabb volt a vártnál (ROC AUC =𠂐.63 CD-train panel esetén), valószínűleg azért, mert az exome szekvenálásunk nem fedte le a szükséges lókuszok többségét .

Míg a CD GWAS-alapú modellek jó előrejelzési képességgel rendelkeznek, nagy panelméretekre van szükségük a (szükségszerűen gyakori) jelentős lókuszok azonosításához. A teljes exóm (WES) vagy genom (WGS) szekvenálás alternatív, patogenezis-útvonal-orientált perspektívát jelenthet, mivel számos ritka vagy privát egynukleotidos humán exome variáns (SNV) funkcionálisan jelentős [18].

Itt megmutatjuk, hogy az összes egyén-specifikus, nem szinonim változat funkcionális hatásain alapuló egészségi állapot-előrejelzések felhasználhatók a CD-betegek és az egészséges egyének (HC) megkülönböztetésére. Használni a Pascal módszerrel [19] a GWAS összefoglaló statisztikája alapján azonosítottuk azokat a géneket, amelyek valószínűleg CD-relevánsak. Ebben a halmazban minden egyes gén esetében kiszámítottuk a panelünkben szereplő egyedenkénti funkciópontszámát az összes változatának előrejelzett funkcionális hatásai alapján. Az emberek CD-ként vagy HC-ként való felismerésére kiképzett támogató vektorgép (SVM) 0,70𠅊 ROC AUC-t ért el, hasonlóan a fent leírt eredményekhez. Vegye figyelembe, hogy a modell teljesítménye sokkal rosszabb volt, amikor ezekre a génekre vonatkozó pontozási függvényünk csak a génenkénti változatok számát (variánsterhelés) vette figyelembe, nem pedig a molekuláris funkcionalitásra gyakorolt ​​hatásukat. Ezek az eredmények arra utalnak, hogy az érintett gének molekuláris funkcióiban bekövetkezett változások jobban reprezentálják a betegséggel összefüggő útvonal-hiányosságokat, mint az útvonalonkénti változatok száma önmagában.

Ezenkívül számítási jellemzők szelekciós (FS) technikákat alkalmaztunk a CD-releváns gének közvetlen azonosítására exome adatainkból, ahelyett, hogy előre meghatározott (Pascal) gének. Ez a megközelítés javította a modell teljesítményét (ROC AUC =𠂐.74). Génszelekciónk és modellképzési megközelítésünk kombinációját AVA,Dx𠅊nalysis of Variation for Association with Disease X-nek neveztük el, azaz úgy gondoljuk, hogy az AVA,Dx elég általános ahhoz, hogy más betegségekre is alkalmazható legyen. Ez a megközelítés nem tartalmazott semmilyen előzetes CD-biológiai ismeretet, és a kiválasztott génjeink nem fedtek át lényegesen a korábban azonosított génkészletek egyikével sem. Ezek az eredmények arra utalnak, hogy az AVA,Dx korábban nem látott Crohn-betegség patogenezisének útvonalait tárhatja fel.

Modellünk valódi prediktív teljesítményének tesztelése érdekében a kötegelt (és a szekvenáló platform) hatáseltávolító algoritmusokat kifejezetten az adattípusunkra optimalizáltuk. Figyelemre méltó, hogy módszerünk hasonlóan pontos előrejelzéseket tudott készíteni (CD-teszt panel ROC/PR AUC =𠂐.69/0.92 és WTCCC-GTEx kombinált ROC/PR AUC =𠂐.76/0.94 ) nagyon különböző panelekből származó személyek számára.

Végezetül megjegyezzük, hogy a mi megközelítésünkben eddig csak nagyon kevés emberre volt szükség ahhoz, hogy következtetéseket vonjanak le. Sőt, míg csak a WES exonikus információit vettük figyelembe, ezekben az adatokban is sok szabályozási információ található. A nagyobb oktatópanelek és további funkciók, beleértve a szabályozási változatokat és potenciálisan a környezeti tényezőket (például az emberrel kapcsolatos mikrobióta), várhatóan javítják a modell teljesítményét. A jelenlegi eredmények azonban már az AVA,Dx-et a patogenezis utak kiemelésének hatékony módszereként és egyszerű CD kockázatelemző eszközként pozícionálják, amely javíthatja a klinikai diagnosztikai időt és a pontosságot.


2 MÓDSZER

2.1 A VCF

2.1.1 A VCF áttekintése

A VCF-fájl (1a. ábra) egy fejrészből és egy adatszakaszból áll. A fejléc tetszőleges számú metainformációs sort tartalmaz, amelyek mindegyike „##” karakterekkel kezdődik, és egy TAB-gal tagolt meződefiníciós sort, amely egyetlen „#” karakterrel kezdődik. A metainformációs fejlécsorok szabványosított leírást adnak az adatrészben használt címkékről és megjegyzésekről. A metainformációk használata lehetővé teszi, hogy a VCF-fájlban tárolt információkat a kérdéses adatkészlethez igazítsák. Használható továbbá a fájl létrehozásának módjáról, a létrehozás dátumáról, a hivatkozási sorozat verziójáról, a használt szoftverekről és minden egyéb, a fájl történetével kapcsolatos információról. A meződefiníciós sor nyolc kötelező oszlopot nevez meg, amelyek megfelelnek a kromoszómát (CHROM) reprezentáló adatoszlopoknak, a variáns kezdetének 1-es pozícióját (POS), a változat egyedi azonosítóit (ID), a referencia allélt (REF) , az alternatív nem referencia allélok (ALT) vesszővel elválasztott listája, a phred-skálás minőségi pontszám (QUAL), a webhelyszűrési információk (FILTER) és a további, felhasználó által bővíthető megjegyzések pontosvesszővel elválasztott listája (INFO). Ezenkívül, ha minták vannak a fájlban, a kötelező fejlécoszlopokat egy FORMAT oszlop és tetszőleges számú mintaazonosító követi, amelyek meghatározzák a VCF-fájlban szereplő mintákat. A FORMAT oszlop az egyes következő genotípus oszlopokban található információk meghatározására szolgál, amelyek kettősponttal elválasztott mezőkből állnak. Például a FORMAT mező GT:GQ:DP az 1a. ábra negyedik adatbejegyzésében azt jelzi, hogy a következő bejegyzések információkat tartalmaznak a genotípusról, a genotípus minőségéről és az olvasási mélységről minden egyes mintánál. Minden adatsor TAB-mal tagolt, és az egyes adatsorokban lévő mezők számának meg kell egyeznie a fejlécben lévő mezők számával. Erősen ajánlott, hogy minden használt annotációs címkét deklaráljon a VCF fejléc részben.

(a) Példa érvényes VCF-re. A ##fileformat és #CHROM fejlécek kötelezőek, a többi opcionális, de erősen ajánlott. A test minden sora a mintavételezett populációban egy genomi pozícióban vagy régióban jelenlévő változatokat írja le. Az összes alternatív allél szerepel az ALT oszlopban, és a genotípus mezőkből 1-es indexként hivatkoznak erre a listára, a referencia haplotípust 0-val jelöltük.Multiploid adatok esetén az elválasztó jelzi, hogy az adatok fázisosak (|) vagy fázistalanok (/). Így az ábrán a 2. és 5. pozícióban lévő két C és G allél ugyanazon a kromoszómán fordul elő az 1. MINTA-ban. Az első adatsor egy példát mutat a delécióra (jelenleg a SAMPLE1-ben) és két bázis másik bázissal (SAMPLE2) való helyettesítésére, a második sor egy SNP-t, egy beillesztést, a harmadik egy SNP-t, a negyedik egy nagy szerkezeti változatot, amelyet az annotáció ír le. az INFO oszlopban a koordináta a változat előtti alap koordinátája. (bf) Különböző szekvenciaváltozatok illesztései és VCF-reprezentációi: SNP, inszerció, deléció, helyettesítés és nagy deléció. A REF oszlopok az ALT oszlop haplotípusával helyettesített referenciabázisokat mutatják. A koordináta az első referenciabázisra vonatkozik. (g) A felhasználóknak tanácsos a lehető legegyszerűbb ábrázolást és a legalacsonyabb koordinátát használni, ha a pozíció nem egyértelmű.

(a) Példa érvényes VCF-re. A ##fileformat és #CHROM fejlécek kötelezőek, a többi opcionális, de erősen ajánlott. A test minden sora a mintavételezett populációban egy genomi pozícióban vagy régióban jelenlévő változatokat írja le. Az összes alternatív allél szerepel az ALT oszlopban, és a genotípus mezőkből 1 alapú indexként hivatkoznak erre a listára, a referencia haplotípus 0. Multiploid adatok esetén az elválasztó jelzi, hogy az adatok fázisosak (|) vagy fázis nélküliek (/ ). Így az ábrán a 2. és 5. pozícióban lévő két C és G allél ugyanazon a kromoszómán fordul elő az 1. MINTA-ban. Az első adatsor egy példát mutat a delécióra (amely a SAMPLE1-ben van jelen) és két bázis helyettesítésére egy másik bázissal (SAMPLE2), a második sor egy SNP-t, egy beillesztést, a harmadik egy SNP-t, a negyedik egy nagy szerkezeti változatot, amelyet az annotáció ír le. az INFO oszlopban a koordináta a változat előtti alap koordinátája. (bf) Különböző szekvenciaváltozatok illesztései és VCF-reprezentációi: SNP, inszerció, deléció, helyettesítés és nagy deléció. A REF oszlopok az ALT oszlop haplotípusával helyettesített referenciabázisokat mutatják. A koordináta az első referenciabázisra vonatkozik. (g) A felhasználóknak tanácsos a lehető legegyszerűbb ábrázolást és a legalacsonyabb koordinátát használni, ha a pozíció nem egyértelmű.

2.1.2 Konvenciók és fenntartott kulcsszavak

A VCF specifikáció számos általános kulcsszót tartalmaz szabványos jelentéssel. A következő lista néhány példát mutat a fenntartott címkékre.

A GT, genotípus, az allélokat számokként kódolja: 0 a referencia allél, 1 az ALT oszlopban felsorolt ​​első allél, 2 az ALT oszlopban felsorolt ​​második allél és így tovább. Az allélok száma a minta ploiditására utal, a szeparátor pedig azt jelzi, hogy az allélok fázisosak ("|") vagy fázistalanok ("/") más adatsorokhoz képest (1. ábra).

A PS, fáziskészlet azt jelzi, hogy az azonos PS értékű genotípusok alléljai ugyanabban a sorrendben szerepelnek.

DP, olvasási mélység ebben a pozícióban.

GL, genotípus valószínűségek minden lehetséges genotípusra a REF és ALT mezőben meghatározott allélkészlet alapján.

GQ, genotípus minősége, annak valószínűsége, hogy a genotípus hívás hibás, feltéve, hogy a hely variáns. Vegye figyelembe, hogy a MINŐSÉG oszlop általános minőségi pontszámot ad az ALT-ben tett állításra, amely szerint a webhely változat vagy változatlan.

INFORMÁCIÓ oszlop: A hiányzó értékeket pont jelzi. Gyakorlati okokból a VCF specifikáció megköveteli, hogy az adatsorok kromoszómális sorrendjükben jelenjenek meg. A teljes formátumspecifikáció elérhető a VCFtools webhelyén.

ÉRVÉNYESÍTETT, utólagos kísérlettel ellenőrizve

AN, az allélek teljes száma az úgynevezett genotípusokban

AC, allélszám genotípusokban, minden ALT allél esetében, a felsorolt ​​sorrendben

SVTYPE, szerkezeti változat típusa (DEL a törléshez, DUP a sokszorosításhoz, INV az inverzióhoz stb. a specifikációban leírtak szerint)

VÉGE, a változat véghelyzete

PONTOS, azt jelzi, hogy a változat helyzete nem ismert pontosan és

CIPOS/CIEND, a POS és END pozíciók körüli konfidencia intervallum a pontatlan változatokhoz.

2.1.3 Változatok típusai

A VCF rugalmas, és lehetővé teszi gyakorlatilag bármilyen típusú variáció kifejezését a referencia haplotípus (a REF oszlop) és az alternatív haplotípusok (az ALT oszlop) felsorolásával. Ez lehetővé teszi a redundanciát úgy, hogy ugyanazt az eseményt többféleképpen is kifejezhetjük különböző számú referenciabázis hozzáadásával vagy két szomszédos SNP egy haplotípusba való kombinálásával (1g. ábra). A felhasználóknak azt tanácsoljuk, hogy lehetőség szerint kövessenek az ajánlott gyakorlatot: egy referenciabázist az SNP-khez és beillesztésekhez, és egy alternatív bázist a törlésekhez. A lehető legalacsonyabb koordinátát kell használni olyan esetekben, amikor a pozíció nem egyértelmű. Az indel variánsok összehasonlításakor vagy összevonásakor a variáns haplotípusokat rekonstruálni és egyeztetni kell, mint az 1g. ábra példájában, bár az egyeztetés pontos jellege tetszőleges lehet. Nagyobb, összetettebb változatok esetén a nagy sorozatok idézése nem praktikus, és ezekben az esetekben az INFO oszlopban található megjegyzések használhatók a változat leírására (1f. ábra). A teljes VCF specifikáció egy sor ajánlott gyakorlatot is tartalmaz az összetett változatok leírására.

2.1.4 Tömörítés és indexelés

Tekintettel a variáns helyek nagy számára az emberi genomban és az egyedek számára, az 1000 genom projekt célja a szekvenálás ( Durbin et al., 2010), a VCF fájlokat általában kompakt bináris formában tárolják, a bgzip tömörítéssel, egy olyan programmal, amely a zlib-kompatibilis BGZF könyvtárat használja ( Li et al., 2009). A bgzip által tömörített fájlok kicsomagolhatók a szabványos gunzip és zcat segédprogramokkal. Gyors véletlenszerű hozzáférés érhető el a genomikus pozíció indexelésével a tabix segítségével, amely egy általános indexelő a TAB-elhatárolt fájlok számára. Mindkét program, a bgzip és a tabix, a samtools szoftvercsomag része, és letölthető a SAMtools webhelyéről (http://samtools.sourceforge.net).

2.2 VCFtools szoftvercsomag

A VCFtools egy nyílt forráskódú szoftvercsomag VCF fájlok elemzéséhez, elemzéséhez és kezeléséhez. A szoftvercsomag nagyjából két modulra oszlik. Az első modul egy általános Perl API-t biztosít, és lehetővé teszi különféle műveletek végrehajtását VCF-fájlokon, beleértve a formátumellenőrzést, az összevonást, az összehasonlítást, a metszéspontot, a kiegészítések készítését és az alapvető általános statisztikákat. A második modul C++ végrehajtható fájlból áll, amelyet elsősorban az SNP adatok VCF formátumú elemzésére használnak, lehetővé téve a felhasználó számára az allélgyakoriságok, a kapcsolati egyensúlyhiány szintjei és a különböző minőség-ellenőrzési metrikák becslését. A VCFtools további részletei a weboldalon (http://vcftools.sourceforge.net/) találhatók, ahol az olvasó hivatkozásokat is találhat a VCF generálására és manipulálására szolgáló alternatív eszközökre, mint például a GATK eszközkészletre (McKenna). et al., 2010).


Vita

Jelen tanulmányban az első teljes genom szekvenálási analízis eredményeit közöljük magas lefedettség mellett (90X), amelyet 81 105+/110+ (átlagéletkor: 106,6 ±ਁ,6 év) és 36 CTRL ( átlagéletkor 68,0 ±ਅ,9 év) egy meghatározott populáció (azaz az olasz félsziget) képviselője.

Ez a tanulmányterv először próbálja meg kezelni azokat a fő gyengeségeket, amelyekkel a hosszú élettartam genetikai vizsgálata során találkoztunk, és amelyeket Sebastiani és munkatársai nemrégiben kiemeltek:

A hosszú élettartam ‘nyugodt definíciója’, mint a 85 éves korig vagy annál idősebb életkorig tartó túlélés, a minta méretének növelése érdekében egy metaanalízis révén. Ez elkerülhetetlenül növeli a fenotípus heterogenitását, és ennek elkerülése érdekében csak az élettartam utolsó évtizedeit elérő egyedeket és a 100 évnél idősebb egyedeket vettük figyelembe a replikáció szempontjából. A látszólag alacsony, 105+/110+ fős szám annak tudható be, hogy ezeknek a legegyedibb személyeknek a toborzása bonyolult a teljes népességen belüli igen alacsony számuk miatt (az 1903-ban Olaszországban született egyéneket tekintve a 1903-ban élő emberek száma a 105. életkor 78 éves volt, az olasz ISTAT nemzeti nyilvántartás szerint 100 000 élve született) és kényes egészségi állapotuk

A populáció heterogenitásának kérdése genetikai származás és etnikai hovatartozás szempontjából. Ez a tanulmány kifejezetten egy populációra (az olaszra) összpontosított, hogy csökkentse a kusza populáció-specifikus dinamika miatti torzítást (Giuliani et al., 2017 Yashin és mtsai, 2014), figyelembe véve azt a tényt, hogy a populációspecifikus evolúciós dinamika (pl. mint a demográfia vagy a szelekció) bizonyos változatok magas gyakoriságához vezethet, amelyek az egészséges öregedéshez vagy a modern patológiákhoz kapcsolódnak (Sazzini et al., 2016). A közelmúltban ismertetett ökológiai megközelítés szerint (Franceschi et al., 2020 Giuliani et al., 2018a) 105+/110+ egyedet választottunk ki a földrajzi származás szempontjából (Északtól Dél-Olaszországig) a kontrollokkal tökéletesen illeszkedő egyedből.

A kontrollok kiválasztása kihívást jelent az emberi élettartammal foglalkozó tanulmányok számára. Itt az általános populációból kiválasztott egészséges, rokon egyedek csoportját tekintettük kontrollcsoportnak. Tisztában vagyunk vele, hogy mivel még életben vannak, néhányuk idővel 105+/110+ lesz, de úgy gondoljuk, hogy ez a szám mindenesetre nagyon kicsi lesz, tekintettel a 105+/110+ általános népességen belüli alacsony előfordulására. .

Öt gyakori variánst azonosítottunk az LD-ben (rs7456688, rs10257700, rs10279856, rs69685881 és rs7805969), amelyek szignifikancia a korrigált p-értéknél 10%, mind ugyanabban a régióban, a COA1 gén és az STK17 gén között. A WGS adatok génalapú elemzése az STK17A gént azonosította a legjelentősebb génként, amelyet a 2. kohorszban validáltak.

Az rs7456688-A allél U-alakú allélgyakorisága azt mutatta, hogy ezek a változatok 105+/110+ egyedre jellemzőek, és ez az első olyan vizsgálat, amely nagyszámú 105+/110+-ot tartalmaz ennek a jelnek a detektálására.

Mindezeket a változatokat megismételték a 2. kohorszban (kiigazítatlan p-értékekπ,05), amely 333 olasz százévesből (𾄀 év) áll, földrajzilag 358 kontrollhoz (átlagéletkor: 60,7ꀋ§.7਋ . ).

Ezen öt változat egyike, az rs10279856, szabályozó szerepet játszhat a régióban, amint azt a kockázati variánsok következtetéséből (Riviera) és a GTEx adatbázisból nyert eredmények is alátámasztják. Úgy tűnik, hogy az SNP rs10279856 pleiotróp szerepet játszik, mivel az STK17A gén és két másik gén (COA1 és BLVRA) eQTL-je. A haplotípus-alapú elemzés megerősítette, hogy a COA1 adta a legjelentősebb szignált, és azonosított egy haplotípust, amely erősen kapcsolódik az extrém hosszú élettartamhoz (chr7: 43720429�) (p-érték=1,84*10 𠄸). Ezenkívül a meglévő adatokkal való összehasonlítás (Giuliani et al., 2018b) egy SNP-t (rs623108) is azonosított, amely potenciálisan befolyásolja az STK17A expresszióját, jelezve, hogy a különböző SNP-ktől származó különböző jelek mérsékelt LD-ben úgy tűnik, hogy konvergálnak a COA1, STK1A expressziójának szabályozásában. , és BLVRA gének. További funkcionális vizsgálatok szükségesek e gének szerepének tisztázásához.

Figyelembe véve a Riviera analízis által azonosított négy SNP-t –, amelyek rs10279856, rs3779059, rs849166, rs849175 –, azt tapasztaltuk, hogy a leggyakoribb allélok a 105+/1020+7,9-6-9-6,907,9-6-7,9-6-61 allélekben, Az A, rs849175-A alternatív allélok) az SKT17A gén expressziójának növekedésével járnak a szívben (pitvari és bal kamra), a tüdőben, az idegben és a pajzsmirigyben (a GTEx portál adatai). Az STK17A részt vesz a DNS-károsodási válaszban és az apoptotikus folyamat pozitív szabályozásában (Sanjo et al., 1998), valamint a reaktív oxigénfajták (ROS) metabolikus folyamatának szabályozásában. Ezenkívül azt javasolták, hogy az STK17A külső ingerekre, például UV-sugárzásra és gyógyszerekre adott válaszként aktiválódjon (Sanjo et al., 1998). Az SNP rs7805969-A alléljáról (az STK17A/COA1 régióban található) összefüggést találtak a szisztémás lupus erythematosusszal (SLE) egy dél-brazíliai populációban (da Silva Fonseca et al., 2013), és az SKT17A expressziója csökkent. az SLE-betegség aktív szakaszában figyelték meg (Sandrin-Garcia és mtsai, 2009). Ezek az adatok azt sugallják, hogy ez a gén szerepet játszhat a DNS-károsodási válaszban, mivel az SKT17A expresszió növekedéséhez kapcsolódó variánsok (in-silico előrejelzés) gyakrabban fordultak elő 105+/110+-ban, mint a kontrollokban, ami alátámasztja Gorbunova és munkatársainak adatait. A DNS-javító mechanizmusok központi szerepe az öregedésben és a hosszú élettartamban (Gorbunova et al., 2007). Az öregedés során fellépő események következő sorozatát javasolták: (i) a mutáció rontja a stresszválaszban és a DNS-javításban részt vevő gének működését (2) a DNS-javítás hibásabbá vált, ami DNS-károsodás felhalmozódásához vezet (3) ez a folyamat felgyorsítja az öregedést - kapcsolatos visszaesés. Ebben a modellben az STK17A genetikai változatai 105+/110+ értékben fenntarthatják a DNS-károsodási válaszokat, elősegítve az egészséges öregedést. Ellenkezőleg, az autoimmun betegségeket (például az SLE-t) a DNS kettős szálú törések felhalmozódása jellemzi, ami valószínűleg a károsodott javítás miatt (Souliotis et al., 2016), ami összhangban van azokkal az adatokkal, amelyek az SKT17A csökkent expresszióját írták le. Ezek az emberi extrém hosszú élettartamra vonatkozó adatok alátámasztják az emlősök élettartamával foglalkozó közelmúltban végzett tanulmányt, amely fehérjeszinten elemzi az evolúciós korlátokat, és a DNS-javítást az egyik olyan mechanizmusnak találta, amely lehetővé teszi a fajok közötti élettartam meghosszabbítását (Kowalczyk et al., 2020).

Ezenkívül a 105+/110+ leggyakoribb genotípusai (rs10279856-G referencia allél és rs3779059-A, rs849166-A, rs849175-A alternatív allélek) nemcsak az STK17A expressziójához kapcsolódnak, hanem a COA1 gén csökkent expressziójához is. zsír, artéria, nyelőcső – nyálkahártya, ideg – sípcsont és bőr. A COA1 gén a MITRAC komplex (a citokróm c oxidáz komplex mitokondriális transzlációs szabályozási összeállítás intermedierje) összetevője, amely szabályozza a citokróm c oxidáz összeállítását. A MITRAC komplexek szabályozzák mind a mitokondriális kódolt komponensek transzlációját, mind a mitokondriumba importált nukleáris kódolt komponensek összeállítását, és különösen az I. és IV. légzési lánc komplexet. Eredményünk az első bizonyíték arra, hogy összefüggés van a nukleáris lókuszok feltérképezésének hosszú élettartamával egy olyan génben, amely mélyen részt vesz a mitokondriális dinamikában, alátámasztva azt a hipotézist, hogy a nukleáris/mitokondriális koevolúció döntő szerepet játszhat az emberi élettartam és egészség szempontjából (Garagnani et al., 2014). Ugyanazok az SNP-k összefüggésbe hozhatók a BLVRA expressziójának növekedésével a teljes vérben, és ugyanazon gén expressziójának csökkenésével az artériában (tibiális) és a nyelőcsőben (nyálkahártyában). A BLVRA gén által kódolt fehérje a biliverdin reduktáz családba tartozik, amelynek tagjai katalizálják a biliverdin bilirubinná történő átalakulását. A közelmúltban megállapították, hogy a BVRA aktivitáson alapuló redox ciklus fiziológiás citovédelmet biztosít, mivel a BVRA kimerülése súlyosbítja a reaktív oxigénfajták (ROS) képződését és növeli a sejthalált. Érdekes módon a BLVRA jelentősen hozzájárul az öregedési folyamat modulálásához a sejtek oxidatív állapotának beállításával (Kim et al., 2011). Ezenkívül a Biliverdin-reduktáz A-ról korábban kimutatták, hogy szabályozza az endotoxinra adott gyulladásos választ azáltal, hogy gátolja a Toll-like receptor 4 (TLR4) génexpresszióját (Wegiel et al., 2011).

Tekintettel a vizsgált tulajdonság összetettségére, a közelmúltban felmerült, hogy még a szuggesztív és marginálisan szignifikáns p-értékek is nagyon informatívak lehetnek a hosszú élettartam esetében (Erikson et al., 2016 Zeng et al., 2016), ez az érv alátámasztott. Yashin és munkatársai kimutatták, hogy a hosszú élettartam számos kis hatású alléltól is függ (Yashin et al., 2010). Ebben az összefüggésben az útvonalelemzés döntő jelentőségű, mivel számos, szerény p-értékkel rendelkező SNP integrációja azonosíthatja a hosszú életben szerepet játszó biológiai funkciókat és kulcsfontosságú útvonalakat (Johnson et al., 2015). Ez az elemzés több, kohorszunkban gazdagított útvonalat azonosított: axonvezetés, kalcium-jelátvitel, glicin-szerin és treonin metabolizmus, hosszú távú potencírozás, melanogenezis, PPAR-jelátvitel és íztranszdukció (további részletekért lásd az 1. kiegészítő anyagot).

Ebben a tanulmányban az APOE-e4 gén, amely számos, az emberi élettartammal foglalkozó tanulmányban azonosított, csak általános tendenciát mutatott, de az 1. kohorszban nem találtak szignifikáns összefüggést a hosszú élettartammal. Ez összhangban van a GEHA Konzorcium által közzétett legutóbbi adatokkal. Európai projekt az egészséges öregedés genetikájáról), ahol az APOE-e4 nem mutatott összefüggést a hosszú élettartammal az olasz lakosság körében. Az eltérést magyarázó tényezők ennek a haplotípusnak a változékonysága Európa-szerte, az alacsony gyakorisághoz vezető klinika Olaszországban (Dél-Olaszországban az APOE-e4 8% körüli), az egyes születési kohorszok által tapasztalt sajátos gén-környezet kölcsönhatás, valamint a nemi hatás (Giuliani et al., 2018a).ਊ 105+/110+ magánmutációk elemzése kimutatta, hogy egyes károsító variánsok és patogén változatok kompatibilisek az extrém hosszú élettartammal és az egészséges öregedéssel (9. kiegészítő fájl).

A ritka variánsok analízise szignifikáns asszociációkat mutatott ki az NME1 gén esetében, ha minden ritka változatot figyelembe vettünk, és a PLEKHG4 (puratrophin-1) gén esetében, amikor csak a károsító ritka változatokat vettük figyelembe. Az NME-1 az első felfedezett metasztázis-szuppresszor gén Steeg és munkatársai, 1988, amelynek expressziója gátolja a sejtmozgást és a metasztázisokat különböző humán rákos megbetegedések esetén. Szabályozza a különböző növekedési faktorok által stimulált jelátviteli útvonalakat, beleértve a TGF-béta-t, a vérlemezkékből származó növekedési faktort, az IGF1-et, a lizofoszfatidsavat és a szérumot, amely elnyomja a metasztázisokat (Russell et al., 1998). A közelmúltban bebizonyosodott, hogy az NME1-et gyorsan toborozzák a DNS-javítást elősegítő kétszálú törésekre (Kaetzel et al., 2015). A PLEKHG4 a spinocerebellaris ataxiával, egy neurodegeneratív betegséggel jár, amely a cerebelláris Purkinje sejteket érinti. Az ezekből az SCA-betegekből származó atrófiás Purkinje-sejtek Puratrophin-1-et és az aktinkötő fehérjét, a Spectrint tartalmazó citoplazma-aggregátumokat tartalmaznak (Ishikawa et al., 2005). Úgy tűnik, hogy ezek a régiók 105+/110+ egyedben megmaradtak, akik nagyrészt elhalasztják az életkorral összefüggő betegségeket és rákos megbetegedéseket, többek között más gyakori betegségeket (Ishikawa et al., 2005).

A szomatikus mutációk elemzése azt sugallja, hogy a 105+/110+ egyed védettnek tűnik az ilyen mutációk felhalmozódásától, és nem tapasztaltunk olyan növekedést, mint az életkorukra tekintettel várható lenne. 105+/110+ egyedre jellemző a szomatikus mutációk alacsonyabb előfordulása a hét gén közül hatban, ami statisztikailag szignifikáns a DNMT3A és ASXL1 gének esetében. A fehérjefunkciót potenciálisan befolyásoló szomatikus mutációkra fókuszálva a prevalencia nem különbözött a kontrollcsoporttól.

Ez alátámasztja a legújabb longitudinális adatokat, amelyek azt mutatták, hogy a szomatikus mutációk a DNMT3A és TET2 a korábban hematopoietikus rosszindulatú daganatokhoz köthető gének gyakoriak a legrégebbiekben (Genome of The Netherlands Consortium et al., 2016).

Ezek az eredmények azt mutatják, hogy 105+/110+ egyed megmenekült a bomlasztó mutációk életkorral összefüggő exponenciális növekedésétől, és ez hozzájárulhatott a szív- és érrendszeri betegségek elleni védelemhez (Genovese et al., 2014 Jaiswal et al., 2014 Jaiswal és Ebert, 2019). ).

Meg kell azonban jegyezni, hogy a 90-szeres lefedettség nem az aranyszabvány olyan szomatikus mutációk esetében, amelyek körülbelül 4000-szeres lefedettséget igényelnek, amint azt a közelmúltban végzett vizsgálatok kimutatták (Buscarlet et al., 2017). Az alacsonyabb szekvenálási mélység kevésbé érzékeny az alacsony allélfrakciójú változatok kimutatására. Más szomatikus mutációkkal kapcsolatos vizsgálatokat végeztek exome szekvenálási adatok vagy teljes genom szekvenálás figyelembevételével, csak 30-szoros átlagos lefedettséggel (többek között Zink et al., 2017 Jaiswal et al., 2014 Genovese et al., 2014). A módszertani változatosság (a lefedettség és a vizsgált genom egy része tekintetében) megnehezíti és nem mindig lehetséges a meglévő vizsgálatok összehasonlítását.

Éppen ellenkezőleg, a CVD-re vonatkozó meglévő PRS azt mutatta, hogy a 105+/110+ nem védett a CVD kockázatával szemben, mivel az adatok nem mutattak szignifikáns eredményeket a 105+/110+ és a kontrollok összehasonlításakor. Ennek három, egymást kölcsönösen nem kizáró ok lehet az oka: (1) A PRS nem tartalmaz populáció-specifikus dinamikát, és lehet, hogy nem kifejezetten informatív az olasz lakosság számára. általános populációk (3) A PRS-pontszám olyan változatokat is tartalmazhat, amelyek hatását sajátos környezeti tényezők vagy episztatikus kölcsönhatások semlegesíthetik. Ez az eredmény megegyezett azokkal a tanulmányokkal, amelyek kimutatták, hogy a százéveseket és a hosszú életű egyéneket a betegséggel összefüggő variánsok gyakorisága jellemzi, amelyek hasonlóak az általános populációhoz (Bonafè et al., 1999, 53. o. Beekman et al., 2010 Sebastiani és Perls , 2012 Freudenberg-Hua et al., 2014 Erikson et al., 2016, Erikson et al., 2016). A 105+/110+ genetikai adatok felhasználása rendkívüli értékű lesz a jövőbeli vizsgálatokban bizonyos ‘risk’ variánsok szerepének súlyozása érdekében, és felhasználható új, informatív PRS azonosítására.

Így az itt közölt adatok azt sugallják, hogy a 105+/110+ nem a kardiovaszkuláris kockázattal szembeni genetikai védelem miatt kerüli meg a szív- és érrendszeri betegségeket, hanem azért, mert megvédik őket az öregedés során megfigyelhető szomatikus mutációk (főleg bomlasztó) terhétől.

Az alábbiakban elismerjük a tanulmány fő korlátait:

A felfedezési szakaszban alkalmazott laza határvonal, amelyet azonban a kis hatású genetikai variánsok döntő szerepe a hosszú élettartamban (Yashin et al., 2010), valamint a 105+/110+ toborzási nehézségek motiválnak. a fenotípus ritkasága (azaz rendkívül hosszú élettartam)

Az a kiegyensúlyozatlan eset/kontroll arány, ahol az esetcsoport több mint kétszer akkora, mint az alacsony mintaszámú kontrollcsoporthoz képest (N =ꀶ). Mindazonáltal az itt elemzett kontrollcsoport a mai napig az egyetlen reprezentatív csoport az olasz félszigeten, beleértve az olasz változatosság határvonalának ellentétes végein lévő populációs klasztereket (Sazzini et al., 2020). Úgy döntöttünk, hogy az 1000 Genomes projekt TSI-jét nem vesszük be a kontrollcsoportba, először is azért, mert nem ismert az életkoruk, másodszor pedig azért, mert nem reprezentálják az egész olasz félszigetet (mivel Toszkána Olaszország központjában található), és fenntartjuk. a 81 fél-szupercentenáriussal párosult, akik Észak-, Közép- és Dél-Olaszországból érkeznek.

Az a lehetőség, hogy az itt azonosított jelek az olasz lakosságra jellemzőek. A gén-környezet kölcsönhatások a környezeti és kulturális környezet (többek között étkezési szokások és életmód) változékonysága miatt is populációspecifikusak, így nem zárhatjuk ki, hogy ezek az eredmények nem általánosíthatók. Csak több, más országokból származó félszázéves korúak adatai tisztázzák ezt a kérdést.

Kiválasztottunk egy 105+/110+ populációt, amely tökéletesen illeszkedik a földrajzi eredetre vonatkozó kontrollokhoz (Észak-Olaszországtól Dél-Olaszországig), hogy csökkentsük a genetikai populáció változékonysága miatti torzítást, azonban egy lehetséges korlát elválaszthatatlanul összefonódik ezzel a kísérleti tervvel. A gén-környezet kölcsönhatások populáció-specifikusak a környezeti és kulturális környezet (többek között az étkezési szokások és életmód) változékonysága miatt is, így valószínű, hogy a genetikával való interakciók eltérőek lehetnek, és nem általánosíthatók. Ebben az értelemben kívánatosak a populációvezérelt tanulmányok, amelyekben környezeti és kulturális adatok is szerepelnek.

Jelen tanulmány fő erősségei a következők: (1) ennek a tanulmánynak a megtervezése a 105 évnél idősebb egyének gondos kiválasztásán alapul annak érdekében, hogy egy különleges fenotípusra összpontosítson, amely rendkívül hosszú élettartamú (2) a szelekció 105+/110+ és a homogén populációban lévő kontrollok mindegyike megfelelt a földrajzi eredetnek (3) az ugyanabból a populációból származó százévesek második validációs kohorszának használata (4) a szekvenálás nagy lefedettsége, amely lehetővé tette a szomatikus mutációk elemzését.

Összefoglalva, ez a tanulmány alkotja az első teljes genomszekvenálást rendkívül hosszú élettartammal, nagy lefedettség mellett, amely lehetővé teszi a szomatikus mutációk elemzését is, amelyben 105+/110+-ot hasonlítanak össze egy egészséges egyed csoportjával, amelyek földrajzilag megfelelnek. Az eredmények azt mutatták, hogy a 105+/110+-okat sajátos genetikai háttér jellemzi, amely a hatékony DNS-javító mechanizmusokhoz kapcsolódik, amit a csíravonal adatok és a szomatikus mutációs mintázatok egyaránt igazolnak (alacsony/hasonló mutációs terhelés az általános populáció fiatalabb egészséges kontrolljaihoz képest). . A 105+/110+ modellje alátámasztja a legújabb szakirodalmat, amely azt sugallja, hogy a DNS-javító mechanizmusokban és a klonális vérképzésben a genetikai aláírás döntő szerepet játszik a sejtes homeosztázisban és a kardiovaszkuláris eseményekben, és ezek lehetnek a két központi mechanizmus, amelyek megvédik a 105+/110-et. + az életkorral összefüggő betegségektől, beleértve a szív- és érrendszeri betegségeket is.


Következtetések

A kapcsolatelemzés nagy potenciális előnyökkel jár a WES-vizsgálatok számára, amelyek célja a mendeli rendellenességeket eredményező genetikai változatok felfedezése. Mivel a kapcsolódási csúcsokon kívüli változatok kiküszöbölhetők, csökkenti a további vizsgálatra szoruló azonosított változatok számát. A WES-genotípusok kapcsolódási elemzése információkat nyújt a WES-adatokból kinyerendő betegség lókuszának elhelyezkedéséről, még akkor is, ha az ok-okozati variánst nem rögzítik, és olyan érdekes régiókra utal, amelyek a nyomon követési vizsgálatok célpontjai lehetnek. Azonban sok olyan tanulmányt publikálnak, amelyek kevésbé kifinomult helyettesítőket alkalmaznak a kapcsolatelemzésben, vagy egyáltalán nem veszik figyelembe az öröklődési információkat. Anekdotikus bizonyítékok arra utalnak, hogy a mendeli rendellenességekkel küzdő egyének MPS-vizsgálatainak jelentős része nem azonosítja az ok-okozati variánst, bár pontos számuk nem ismert a publikáció torzítása miatt.

Leírjuk, hogyan lehet a HapMap II. fázisú SNP genotípusokat kinyerni masszívan párhuzamos szekvenálási adatokból, szoftvert biztosítva ennek a folyamatnak a megkönnyítésére, és olyan fájlokat generálva, amelyek készen állnak a népszerű linkelő programok általi elemzésre. Módszerünk lehetővé teszi a kapcsolódási elemzés elvégzését genotipizálási tömbök igénye nélkül. A kapcsolatelemzés rugalmassága azt jelenti, hogy módszerünk bármely betegségmodellre és számos mintavételi sémára alkalmazható, ellentétben a WES adatok öröklődési információinak figyelembevételére szolgáló meglévő módszerekkel. A kapcsolódási elemzés magában foglalja a populáció allélgyakoriságát és a genetikai térkép pozícióit, ami lehetővé teszi a haplotípusok statisztikailag szokatlan megosztásának jobb azonosítását az érintett egyedek között egy családban.

A kapcsolódást WES genotípusok segítségével mutatjuk be három kis nukleáris családban – egy domináns családban, amelyből két exomot szekvenáltak, és két rokon családot, amelyekből egyetlen exomot szekvenáltak. Mivel ezek a családok nem túl erősek a kapcsolódási elemzéshez, több kapcsolódási csúcsot azonosítottak viszonylag alacsony LOD pontszámmal. Mindazonáltal a kapcsolódási csúcsokon kívüli változatok elvetése az ezekben a családokban kimutatott összes nem szinonim exonikus variáns 81,2% és 99,43% közötti részét eliminálta. A fennmaradó variánsok száma tovább csökkenthető standard stratégiák alkalmazásával, például egy bizonyos küszöb feletti kisebb allélgyakoriságú ismert SNP-k elvetésével. Munkánk bizonyítja az öröklődési információk figyelembevételének értékét még nagyon kicsi családoknál is, amelyek szélsőségesen egyetlen beltenyésztett egyedből állhatnak. Ahogy az exome szekvenálás ára csökken, megvalósíthatóvá válik minden családból több egyed szekvenálása, ami kevesebb kapcsolódási csúcsot eredményez magasabb LOD pontszámmal.

Az exome rögzítése a jelenlegi technológiákkal nagyszámú hasznos SNP-t eredményez a kapcsolódási térképezéshez. Az öt vagy több leolvasással lefedett SNP-k több mint felét nem célozta meg az exome rögzítési platform. A befogott nem célzott SNP-k hozzávetőleg 78%-a 200 bp-on belül van a célzott jellemzőtől. Ez azt a tényt tükrözi, hogy a fragmentumok hossza jellemzően meghaladja a próba hosszát, ami azt eredményezi, hogy a próba vagy csali mindkét végén szegélyező szekvenciákat rögzítenek és szekvenálnak. A szerencses eredmény az, hogy jelentős számú nem exonikus SNP válik elérhetővé, amelyeket fel lehet és kell használni a kapcsolódási elemzéshez.

Azt találtuk, hogy a genotípus-következtetés során a heterozigozitás előzetes valószínűségének 0,5-re állítása eredményezte a legjobb összhangot a WES és a tömb genotípusok között. A MAQ SNP modell szerzői a használatát javasolják t = 0,2 az ismert SNP-k genotípusainak megállapításához [38], míg a variánsok kimutatására használt alapértelmezett érték t = 0,001. Eredményeink rávilágítanak arra, hogy ezt a paramétert az adott alkalmazáshoz kell igazítani, legyen az akár genotipizálás, akár ritka variánsok kimutatása. Bár arra számítottunk, hogy a WES genotípusok kevésbé pontosak, mint a tömb genotípusok, mind a négy minta magas, 99,7%-os konkordanciát ért el az öt vagy több leolvasással lefedett SNP-k esetében t = 0.5

Azt találtuk, hogy a WES genotípusokból kapott LOD-pontszámok jól egyeztek az azonos egyed(ek)ből származó tömb genotípusok eredményeivel a kapcsolódási csúcsok helyén, a LOD-pontszám medián különbsége nulla és két vagy három tizedesjegy között mindhárom család esetében. Ez annak ellenére volt így, hogy az elemzéshez használt tömb alapú genotípus készletek több markert tartalmaztak, és magasabb átlagos heterozigozitással rendelkeztek, mint a megfelelő WES genotípus készletek, ami azt a tényt tükrözi, hogy a genotipizáló tömbök a viszonylag magas kisebb allélgyakoriságú SNP-k lekérdezésére szolgálnak. egyenletesen elosztva a genomban. Ezzel szemben a WES-adatokból kinyert genotípusok általában exonok köré csoportosulnak, ami egyre kevesebb heterozigóta markert eredményez a metszés után, hogy elérje a kapcsolódási egyensúlyt. Arra a következtetésre jutottunk, hogy ha rendelkezésre állnak, a nagy felbontású SNP tömbből származó tömb alapú genotípusok előnyösebbek a WES genotípusokkal szemben, de ha nem, a WES genotípusok kapcsolódási elemzése elfogadható eredményeket ad.

Amint a WGS gazdaságosabb lesz, a WGS-adatokból kinyert genotípusok felhasználásával kapcsolatelemzést végezhetünk, ami kiküszöböli az SNP-lefedettség exonokon kívüli hiányosságait. Az általunk biztosított szoftvereszközök módosítás nélkül képesek a WGS genotípusok befogadására. A jövőben az olyan kezdeményezések, mint az 1000 Genomes Project [1] populáció-specifikus allélgyakoriságot biztosíthatnak a HapMap-ben jelenleg nem szereplő SNP-k számára, tovább növelve az elemzésekhez elérhető SNP-k számát, valamint a vizsgált populációk számát.

A klasszikus Lander-Green algoritmus megköveteli, hogy a markerek kapcsolódási egyensúlyban legyenek [40]. A kapcsolódási egyensúlyhiány modellezése lehetővé tenné az összes marker beépítését anélkül, hogy a markerek egy részhalmazát ki kellene választani a kapcsolódási egyensúlyban. Ez lehetővé tenné a kapcsolatok feltérképezését távoli kapcsolatok segítségével, például olyan távoli beltenyésztett egyedekkel, akiknek a leszármazásukra homozigóta DNS-traktusa (< 1 cM) osztozna. Már javasoltak olyan módszereket, amelyek magukban foglalják a kapcsolódási egyensúlyhiányt, beleértve a változó hosszúságú HMM-et, amely távoli rokon egyedek kimutatására alkalmazható [41]. A további munka a távoli kapcsolatok közelítése felé irányul, hogy összekapcsolják a rokon származású készleteket [42]. Ezek a módszerek a maximális információt nyerik ki az öröklött betegségben szenvedő egyének MPS-adataiból.

Klasszikus kapcsolatelemzéssel integráltuk az MPS viszonylag új területét a családokba. Ha lehetséges, határozottan támogatjuk a kapcsolódási térképezés alkalmazását olyan MPS-vizsgálatokkal kombinálva, amelyek célja a mendeli rendellenességeket okozó változatok felfedezése. Ez a megközelítés nem igényel célirányosan felépített HMM-eket, de felhasználhatja a Lander-Green algoritmus meglévő szoftveres megvalósításait. Ahol nem állnak rendelkezésre genotipizálási tömb genotípusok, javasoljuk, hogy az MPS-adatokat teljes kapacitásukkal használják fel MPS-genotípusok használatával a kapcsolódási elemzéshez. Ez csökkenti a további értékelésre szoruló lehetséges, betegséget okozó változatok számát. Ha az ok-okozati változatot a WES-vizsgálat nem azonosítja, a kapcsolódási elemzés rávilágít a genom azon régióira, ahol a célzott reszekvenálás a legnagyobb valószínűséggel azonosítja ezt a változatot.


Genom- és exome szekvenálás fejlesztése a jelölt gén azonosítására öröklött betegségekben: integrált technikai és bioinformatikai megközelítés.

Az NGS bevezetése óriási változást hozott az orvosbiológiai kutatásban azáltal, hogy új eszközöket biztosít a nagyszabású automatizált szekvenálás gyors és költséghatékony végrehajtásához. Azok a kérdések, amelyek megválaszolása és megválaszolása korábban nem volt lehetséges vagy megfizethető volt, most kezelhetővé vált. Az NGS-sel vizsgált alapkutatási kérdések hulláma, a platformok kémiájának és munkafolyamatainak fejlesztésével párosulva megnyitotta az utat az NGS klinikai diagnosztikai szférába történő átültetése előtt. Nevezetesen, az elmúlt 3 évben a diagnosztikai laboratóriumok megkezdték az NGS-alapú diagnosztikai vizsgálatok fejlesztését és bevezetését. Ezek közé tartoznak (1) többgénes panelek számos öröklött rendellenesség és onkológiai állapot számára (2-7) (2) humán leukocita antigén lókusz jellemzése (8-10) (3) patogén genom szekvenálás a rezisztencia azonosítására és értékelésére (11,12). ) (4) exome szekvenálás a jelölt gén felfedezéséhez öröklött betegségekben és a mutációs táj jellemzése tumorokban (13-16) és (5) teljes genom szekvenálás. (17-19) A kezdeti törekvések támogatására használt nagy áteresztőképességű NGS-platformok kiegészítéseként az újabban kereskedelmi forgalomba került, gyorsabb átfutási idővel rendelkező NGS-műszerplatformok felgyorsítják az NGS elterjedését a klinikai laboratóriumi tartományban. Az NGS bevezetését megkezdő minden laboratóriumnak kihívást jelentett az új kémiák és műszerek elsajátítása, valamint az NGS-adatelemzés összetett birodalmába való belépés.

Ebben az áttekintésben az NGS-technológiának az emberi exomák és teljes genomok elemzésére való felhasználására összpontosítunk, különösen az öröklött betegségekben előforduló betegséget okozó gének azonosítása céljából. Az exóm- és genomszekvenálás alkalmazása jelentős lendületet kap azokban a forgatókönyvekben, amelyeknél a klinikai fenotípusok és a családvizsgálatok genetikai etiológiára utalnak, és a rendelkezésre álló genetikai vizsgálatok nem voltak informatívak. Míg a legtöbb eddigi jelentés az exom- vagy genomszekvenálás klinikai kutatási környezetben történő alkalmazását írja le, néhány klinikai laboratórium jelenleg exom- vagy genomszekvenálást használ a klinikai diagnosztika támogatására. Ebben az áttekintésben az Illumina NGS technológiát emeljük ki, mivel a szerzők ezzel a szekvenálási módszerrel rendelkeznek a legnagyobb tapasztalattal, és ezt használták a legtöbb publikált exome- és genomvizsgálatban. Az áttekintés először az exome és a genom szekvenálás technikai vonatkozásait írja le, majd az ezzel a megközelítéssel kapcsolatos bioinformatikai megfontolásokat és kihívásokat tárgyalja. Ezt követően az irodalomból származó példákat emelünk ki, és a klinikai diagnosztika transzlációs megfontolások megvitatásával zárjuk.

EXOME ÉS GENOM SZEKVENCIONÁLÁS: INTEGRÁLT TECHNIKAI ÉS BIOINFORMATIKAI FOLYAMAT

Exome és Genom Library előkészítése. - DNS-könyvtárakat kell generálni az NGS-hez, és az Illumina platformon történő szekvenáláshoz szükséges könyvtárak létrehozásának folyamatát az 1. ábra szemlélteti. A kezdeti előkészítő lépések ugyanazok a genom- és exomkönyvtárak esetében, és tartalmazzák a genomiális DNS-t fragmentáció és a fragmensek átalakítása oligonukleotid-adapter-címkézett könyvtárrá. A genomikus DNS fragmentálására többféle módszert alkalmaznak, ideértve a porlasztást, az ultrahangos kezelést, a restrikciós enzimes emésztést, a kémiai módszereket és az adaptív fókuszált akusztikával végzett ultrahangos kezelést (1. ábra, 1–6. lehetőség). A kapott DNS-fragmenseket ezután enzimatikusan javítjuk a platform-specifikus adapter-oligonukleotidok ligálása előtt. Az enzimatikus végjavítás magában foglalja a tompa végek létrehozását a fragmentált DNS-ből, amelyeket azután 5'-foszforilezünk, és hozzáadunk egy 3'-adenin (A) túlnyúlást. Az 5'-timin (T) túlnyúlással rendelkező platform-specifikus adaptereket az adenilált fragmensekhez ligáljuk. A többlépcsős végjavítási és adapterlekötési folyamat manuálisan intenzív. Ezen folyamatlépések folyadékkezelő platformokon történő végrehajtása növelheti a könyvtár-előkészítési sebességet, miközben megőrzi a könyvtár minőségét. Erre a megközelítésre példaként a Beckman Coulter Genomics SPRI-TE (Danvers, Massachusetts) műszerét használjuk a könyvtár-előkészítéshez, amely automatizálja az enzimatikus végjavítási és adapterligálási lépéseket, és opcionális méretkiválasztási lépést kínál egy meghatározott fragmentumú könyvtár létrehozásához. -méret eloszlás. Az adapterek utáni ligálást, egy polimeráz láncreakciós (PCR) lépést, az adapterekkel komplementer "farkat" tartalmazó primerekkel, a könyvtár koncentrációjának növelésére hajtják végre az exome dúsítása vagy a genom szekvenálása előtt. Az 1., A–C. ábra reprezentatív gélelektroforézis eredményeket mutat be egy Agilent Bioanalyzer (Santa Clara, Kalifornia) készüléken, nyírt emberi genomi DNS-sel, amelyet ultrahangos kezeléssel generáltak a Covaris (Woburn, Massachusetts) által forgalmazott adaptív fókuszált akusztikus technológiával, majd adapter ligálást és PCR-t. . A PCR-termék mérete az adapterrel ligált könyvtár méretétől növekszik a farok hozzáadásával (a PCR-láncindítókból), amelyek szintén tartalmaznak olyan szekvenciákat, amelyek szükségesek (1) az Illumina flow sejt felszínén immobilizált komplementer oligonukleotidokhoz való kapcsolódáshoz és ( 2) kötődés szekvenáló primerekhez. Ez a méreteltolás körülbelül 50 bp, és egyben kontrollként is szolgál az adapter ligálásánál.

Egy új könyvtár-előkészítési technológia, a Nextera (amelyet az Epicentre, Madison, Wisconsin fejlesztett ki, és az Illumina szerezte be), egyidejűleg fragmentálja a DNS-t, és adapterszekvenciákat vezet be a címkézésnek nevezett folyamat során. Ez a technológia egy transzpozonnal komplexált transzpozáz enzimet használ, amely jelen esetben Illumina adaptereket tartalmaz (termék adatlap). A transzpozáz enzimkoncentrációtól és inkubációs időtől függő módon fragmentálja a DNS-t, és az adapterszekvenciákat a vágott helyre inszertálják.A reakciókörülmények beállíthatók az Illumina szekvenáláshoz megfelelő fragmentumméret-eloszlás létrehozásához. A Nextera módszerrel előállított adapter-címkézett fragmentumokat ezután PCR-rel amplifikálják olyan farkú primerekkel, amelyek Illumina-specifikus áramlási sejt-illesztési és szekvenálási primerszekvenciákat és opcionális indexelő (vagy vonalkódoló) szekvenciákat tartalmaznak. Több könyvtár összevonása és egyidejű szekvenálása érdekében történő indexelése kihasználja az eszközök kapacitását, és csökkenti a költségeket, amint azt alább tárgyaljuk. A legtöbb könyvtár-előkészítési módszer jelenleg 1 mikrogramm és több mikrogramm genomiális DNS bevitelét igényli. A bevitt DNS mennyisége 50 ng-ra csökkenthető a Nextera technológiával (20), ami nagyon hasznos lehet olyan alkalmazásokban, ahol korlátozott mennyiségű DNS áll rendelkezésre.

Exome dúsítás. Az exome dúsítása érdekében a PCR-rel amplifikált könyvtárkészítményeket oldatban hibridizálják biotinilált exonspecifikus befogó próbákkal. A hibridizált próbákból és a komplementer könyvtárfragmensekből álló komplexeket sztreptavidinnel bevont paramágneses gyöngyökön rögzítik, a meg nem kötött fragmenseket lemossák, és a gyöngyhöz kötött könyvtárat templátként használják a PCR-amplifikációhoz, így egy exomával dúsított könyvtárat kapnak. A szekvenálás előtt a genommal vagy exómmal dúsított könyvtárak méretét géltisztítással lehet kiválasztani, hogy szűk fragmensméret-eloszlást kapjunk (tipikusan 50-100 bp), ami megkönnyíti az inszerciók és deléciók adatelemzését. A könyvtár egy aliquot részét kvantitatív PCR-nek vetjük alá adapter-specifikus primerekkel, hogy pontosan meghatározzuk azon könyvtárfragmensek koncentrációját, amelyek klasztereket hozhatnak létre az Illumina flow cellán (1. ábra).

Számos kereskedelmi szállító kínál megoldásban exome befogó reagenseket, köztük az Agilent, a Roche NimbleGen (Madison, Wisconsin) és az Illumina, amelyek mindegyike különbözik a célzott rögzítési területektől, a rögzítő szonda szekvencia összetételétől és a teljesítmény jellemzőitől. (21-23) Az Agilent Sure-Select rögzítőkészlete a genom 50 Mb-ját célozza meg biotinilált RNS-próbákkal, amelyeket a következő adatbázisokból terveztek: Consensus Coding Sequence (24) (CCDS), Re fSeq, (25) miRBase, (26) GENCODE, (27) és az Rfam adatbázis (28), amely RNS családok és RNS gének szekvenciainformációit tartalmazza. A Roche NimbleGen SeqCap EZ Human Exome Library oldatrögzítő készletében nemrégiben kiadott 3.0-s verziója a genom 64 Mb-ját célozza meg a CCDS.2, RefSeq, Vega, (29) GENCODE, Ensembl, (30) miRBase és a snoRNABase. (31) Az Illumina TruSeq próbakészlet DNS-próbákat használ 62 Mb szekvencia rögzítésére CCDS, RefSeq, RefSeq plus (RefSeq exonok plusz 5' és 3' nem transzlált régiók, mikroRNS és nem kódoló RNS szekvenciák), GENCODE és előrejelzett mikroRNS-célpontok.

Illumina Sequencing: Koncepció – Számos, genom- és exomeszekvenálási kapacitással rendelkező platform kapható a kereskedelemben, ezek közé tartozik az Illumina Genome Analyzer és a HiSeq sorozat, valamint a Life Technologies SOLiD műszerei. Az Illumina, a SOLiD és a további NGS-alkalmazásokhoz használt egyéb platformok részletesebb leírása érdekében az olvasó több publikációban is megtalálható. (6,32-38) Az Illumina HiSeq 2000 műszere 3-as verziójú (v3) kémiával képes egyidejűleg szekvenálást végezni 2 áramlási cellában, így körülbelül 600 Gb szekvenciát eredményez 2x100 bázishosszúságú leolvasással 12 napos futtatásonként. Ebben a konfigurációban 2 humán genom 8 sávos áramlási sejtenként (1 genomkönyvtárral 4 sávban elosztva) szekvenálható 30-szoros átlagos olvasási mélységlefedettséggel. Összehasonlításképpen, sávonként 2 indexelt exome minta szekvenálható, így 100-200-szoros átlagos olvasási mélység lefedettsége érhető el. Az alábbiakban részletesebben tárgyaljuk a genom- és exomszekvenálás lefedettségi követelményeit.

A szekvenálás előtt az adapter-ligált DNS-fragmenskönyvtárakat limitált hígítási körülmények között hibridizáljuk az üvegáramlási sejt felületén lévő komplementer oligonukleotidokhoz (2. ábra). Ezután minden hibridizált könyvtárfragmentumot áthidalva amplifikálunk, hogy körülbelül 1000 kópiából álló klonális DNS-fragmens-"klasztert" hozzunk létre. A klonális klaszterek szekvenálása ciklikus módon, reverzibilis festék-terminátor kémiával megy végbe, lehetővé téve, hogy egyszerre csak 1 komplementer bázis épüljön be a növekvő szálba. Mind a 4 bázis kovalensen kapcsolódik egy spektrálisan egyedi fluoroforhoz, és nagy érzékenységű képalkotó optikát használnak az egyes alapok beépítése utáni fluoreszcens kimenetének rögzítésére. Az alaphívások végrehajtása aszerint történik, hogy az áramlási cella minden egyes klaszterében minden ciklusban fluorofor kerül kimutatásra. Ezért minden DNS-fragmens 1 klaszterré alakul, amelyet progresszív, ciklikus módon szekvenálnak, hogy egy olyan szálat kapjanak, amelynek hossza a szekvenálási ciklusok számától függ. Az 1. szekvenálási fürt kimenete egyetlen, összetett olvasás. A páros végű szekvenálásnál ugyanazt a klasztert a másik végéről is szekvenálják, létrehozva a páros végű olvasás 2. olvasását.

Illumina Sequencing: Signal to Noise Processing.-- Minden NGS-platform hajlamos a saját jellegzetes szekvenálási hibáira, amelyek az egyedi kémiájuk miatt másodlagosak, és ezeket a hibákat figyelembe kell venni a szekvenálási eredmények elemzése és értelmezése során. Az Illumina szekvenálásnál előfordulhatnak egy nukleotid helyettesítési hibák, és a hibaképződéshez hozzájáruló számos tényezőt a 3.39. ábra foglalja össze. Mivel minden bázis egyenként épül be egy növekvő DNS-szálba, a bázis beépülése fázison kívül eshet a klonális klaszteren belül, ha 1 bázis van. kihagyják (fázisozás), vagy több bázist építenek be egyetlen ciklusba (előfázis), ami egy klonális klaszteren belül egyenetlen fluoreszcenciát eredményez. (39) Másodszor, a háttérfluoreszcencia növekedése az analitikai futtatás során a jel/zaj arány csökkenéséhez vezet. Harmadszor, hibák lépnek fel, ha egy klaszter keveredik, vagyis ha egynél több egyedi adapterrel ligált fragmentum kolokalizálódik az áramlási cella ugyanazon a pontján. Végül, mind a 4 fluorofor emissziós spektruma átfedésben van, ami megnehezítheti annak meghatározását, hogy melyik bázis épült be (fluorofor áthallás), ez a jelenség súlyosbodik, ha a klonális klaszterek fizikailag közel vannak egymáshoz.

Különféle szoftveralkalmazások állnak rendelkezésre az alaphívásokhoz az Illumina platformon, és mindegyik kijavítja a hibaforrások legalább egy részét. (39) Az Illumina platformhoz tartozó tisztasági szűrő eltávolítja az alacsony tisztaságú csoportokat. Az Illumina alkalmazás, a Bustard kijavítja vagy kiszűri az áthallás, fázisozás és előfázisozás alaphívásait, majd kijelöli a legmagasabb jelintenzitású bázist, amely a minőségi (Q) pontszám becslésére szolgál [Q = -10 x [log.sub .10](e)] az alaphíváshoz. A Q pontszám logaritmikusan kapcsolódik a hibavalószínűséghez (e), és működésében analóg a Sanger-szekvenálásban használt Phred minőségi pontszámmal. (40,41) Például egy Q30-as bázis esetén 1:1000 a valószínűsége annak, hogy hibásan hívják, egy Q20-as bázisnál pedig 1:100 a hibás hívás valószínűsége. A Q pontszámot a szekvencia leolvasása során minden bázisra kiszámítják, és szabványos minőségi mérőszámként használják a downstream adatelemzéshez.

Az NGS-olvasások elemzése a referenciaszekvenciához kapcsolódó variánsok listájának létrehozása érdekében többlépéses folyamat. A 4. ábrán látható az általunk használt csővezeték vázlata, amelyet alább tárgyalunk.

Olvasások igazítása egy referenciasorozathoz. A sorozat-alaphívási fájlok létrehozása után a rendszer átalakítja azokat egy általános fájlformátumba (sok csoport által használt FASTQ fájlformátum) a további elemzésekhez és tároláshoz. Millió-milliárd leolvasás bázishoz kapcsolódó Q pontszámokkal tartalmazza az exome és a genom szekvenálásból származó FASTQ fájlt. Több referencia-igazítási program is elérhető, köztük a Burrows-Wheeler Aligner (42-44) és a Novoalign (45) nyílt forráskódú szoftver (4. ábra). A kezdeti igazítási folyamat magában foglalja az olvasmányok leképezését a referenciaszekvencia legjobban illeszkedő helyére. Ez a lépés minden leolvasást egy másik minőségi pontszámhoz társít, amelyet leképezési minőségi pontszámnak neveznek, és a teljes adatkészlet leképezett olvasatait a BAM nevű bináris igazítási fájlformátumban tárolja. A feltérképezett olvasmányok megjeleníthetők, és az olvasmányok ellenőrzésére szolgáló népszerű megjelenítő a nyílt forráskódú Integrative Genomics Viewer. (46,47) Az 5. ábrán látható egy példa a humán genom adatkészletből a hivatkozáshoz igazított leolvasásokra. Ebben a példában az egyén heterozigóta citozin-timin (C>T) változást mutat a VSIG4 génben, amint azt Sanger megerősítette. szekvenálás. A néző az egyes nukleotidok lefedettségét mutatja, a színes négyzet által mutatott referencia változásával. Az igazított leolvasások a megjelenítőn is lekérdezhetők a leképezési minőség érdekében, ha a megjelenítőn belüli szürke mezők fölé görgetnek. A referenciaszekvencia nukleotidjai a néző alján láthatók az exonok aminosavszekvenciájával együtt.

Kezdeti és finomított variánshívás. – A variánshívás az a lépés, amelyben az egymáshoz igazított szekvencia-leolvasásokban lévő nukleotidokat használjuk a variánsok jelenlétére és zigozitására következtetni. A jelenlegi munkafolyamatban ez egy nukleotidból álló polimorfizmusokat (SNP-ket), valamint beillesztéseket és törléseket (indeleket) hoz létre a Variant Call Format (VCF) fájlformátumban. A Genome Analysis Toolkit (GATK) (48-50) és a SAMtools (51,52) 2 példa az általánosan használt programokra ennek a feladatnak a végrehajtására (4. ábra). A változatok hívásához figyelembe veszik a referencia és az alternatív allélbázisok arányát a leolvasásokban, valamint más olvasási és igazítási paramétereket, beleértve az általános olvasási lefedettséget, az alapminőséget és az olvasási leképezési pontszámokat. A legegyszerűbb variánshívási módszer egy küszöb" módszer, amely értékeli és meghívja a változatokat, ha a paraméterek, például a változat olvasási százaléka egy rögzített tartományba esik. A GATK és a SAMtools azonban statisztikai módszert használ a legvalószínűbb genotípus kiszámítására minden egyes igazítási pozícióban és adjon meg egy változat minőségi pontszámát, amely az algoritmus „megbízhatóságának” becslése a változathívásban. Az egyik jelentős tényező, amely javítja ezeket a számított változatminőségeket, a magas olvasási lefedettség. Minél nagyobb egy változat olvasási lefedettsége, annál kevésbé hajlamos a változat mintavételi hiba, ami torzíthatja a referencia és az alternatív allélok valós arányát.

Az igazítás és a leképezés pontossága különbözik az egyes algoritmusok között, és ezen algoritmusok empirikus összehasonlítása hasznos a bioinformatikai megközelítés mellett. Kompromisszum áll fenn a számítási sebesség és a leképezési pontosság között, ami kezdeti igazításokhoz vezethet a hamis pozitív és hamis negatív változatokkal, amelyek további feldolgozással korrigálhatók. A kezdeti igazítás és a variánshívás befejezése után ezért javasolt az igazítás finomítása az adatok pontosságának javítása érdekében (1) helyi átrendezéssel, (2) a PCR ismétlődések eltávolításával és (3) a változat minőségi pontszámainak újrakalibrálásával (ábrák). 4. és 6.). A téves pozitív és téves negatívumok egyik fontos forrása az indelek körüli leolvasások eltolódása. (49) Az NGS-műszerek által előállított rövid leolvasásokat nehéz feltérképezni, ha a leolvasások indeleket tartalmaznak. A leolvasások gyakran a megfelelő genomiális helyre igazodnak, de az indel miatt néhány bázissal eltolódhatnak, ami potenciálisan az indel zigozitásának helytelen meghívását okozhatja, és további hamis pozitív variánshívásokat vezet be. Az egyik széles körben használt, nyílt forráskódú átrendezési algoritmus az indelekhez a GATK eszközkészletében található. (49) Egy példa látható a 6. ábrán, A, ahol a 3 bp-os deléció zigozitása nem egyértelmű, és számos lehetséges változat található a deléció közelében (felső panel). A finomítás után (6. ábra, A, alsó panel) a deléció egyértelműen homozigóta, és a közeli potenciális változatok már nincsenek jelen. A Sanger-szekvenálás homozigóta 3 bp-os deléciót és a közeli variánsok hiányát jelzi, megerősítve a finomított igazítás pontosságát.

Az adatfinomítás másik szempontja a PCR-másolatok eltávolítása, amelyek olyan leolvasások, amelyeknek azonos kezdő- és végpontja van. A másolatok a PCR-rel létrehozott azonos fragmensek szekvenálásából származnak a könyvtár-előkészítés során. Polimeráz láncreakciós hibák vezethetők be és terjedhetnek a könyvtár fragmentum templát egyenlőtlen amplifikációjával, ami téves pozitív eredményekhez vagy helytelen variáns zigozitáshívásokhoz vezethet. A PCR-másolatok eltávolítása a variánshívás előtt a PICARD (53) vagy a SAMtools segítségével történik. Az ismétlődő leolvasások közül csak a legmagasabb kombinált alapminőségű olvasást használjuk (6. ábra, B). A PCR duplikátumok eltávolítása során a leolvasások 10-15%-a eltávolításra kerül az exome adatkészletekből, és körülbelül 6%-a a genom adatkészletekből. Ez a különbség az eltávolított leolvasások százalékában az exome versus genom könyvtár előkészítési protokollokban végrehajtott PCR-ciklusok nagyobb számának köszönhető (pl. 18 versus 10 PCR ciklus).

Az igazítások finomításának harmadik szempontja az alapminőségi pontszámok újrakalibrálása a GATK eszközkészlettel (54) (6. ábra, C). A minőségi pontszám újrakalibrálása pontosabb minőségi pontszámokat eredményez, amelyek közelebb állnak a hibás alaphívás valószínűségéhez. Itt magát az igazítást használják a tényleges bázishívási hibaarány becslésére, az alap eltérést a referenciával táblázatba foglalva, az ismert vagy várható variáns régiók kizárásával (pl. dbSNP55 és feltételezett variánsok a kérdéses igazításhoz). A bázisok paraméterek szerint vannak kategorizálva, beleértve a leolvasási pozíciót, az olvasás előtti bázisokat és a műszerhez rendelt minőségi pontszámokat. Az alapminőségi pontszám ezután frissül az azonos kategóriába tartozó összes bázis igazítási hibaarányai alapján. A 6C. ábrán látható módon az alapminőségi pontszámok általában nőnek az újrakalibrálás után (54) (J.D.D. K.V.V., nem publikált adatok, 2011. január). Ez a szoftver lekérdezi az olvasás minden pozícióját, és a BAM fájlban lévő összes olvasást újrakalibrálja. Amint mind a 3 lépés befejeződött, a BAM fájl ismét meghívásra kerül, hogy létrehozzon egy második, finomított VCF fájlt, amely felhasználható további elemzésekhez. Egy további stratégia a hamis pozitív variánshívások csökkentésére a GATK-ban elérhető, variánsminőség újrakalibrációnak nevezett, statisztikailag kifinomult algoritmust (49), amely megpróbálja meghatározni a variánshiba valószínűsége és számos variáns paraméter közötti kapcsolatot.

Változatok megjegyzései. A változatok a kezdeti és a finomított igazítás befejezése után további elemzés céljából megjegyzésekkel vannak ellátva. Az ANNOVAR (56, 57) és az snpEff (58) egyaránt használható változatos megjegyzésekhez, és Linux vagy UNIX platformokon való futtatásra tervezték. Az annotált változatinformáció testreszabható, és tartalmazhat bázisváltozást a génen belüli változás referencia zigozitási helyétől (pl. exon, intron, splicing), genomiális, komplementer DNS- vagy fehérjepozícióban (pl. g./c./p. számok) és változatok besorolása (azaz szinonim, nem szinonim, missense, indel). A VCF-fájlokban gyakran szereplő egyéb paraméterek, például az olvasási lefedettség mélysége, a leképezés minősége és az alapminőségi pontszámok szintén beépíthetők az annotációelemzésbe. A szerkezeti változatokat, beleértve a nagy (körülbelül 40-50 bp-nál nagyobb) indeleket, nehéz azonosítani az exome adatokban, hacsak nem minden töréspont jól fedett régiókban található. A szerkezeti változatok észleléséhez további speciális szoftverek szükségesek, és általában sokkal nagyobb hibás hívási arányt jelentenek, mint az SNP és a kis indel hívószoftverek. (59-64) A változatok pontos azonosítása továbbra is kihívást jelent az exome- és genom-NGS-adatokkal kapcsolatban, a rövid leolvasások feltérképezésének nehézségei és a jelenlegi bioinformatikai algoritmusok korlátai miatt. A változatok pontosságának minőség-ellenőrzési mérőszámai úgy fejleszthetők, hogy a változatokat egy alternatív módszerrel, például a Sanger-szekvenálással erősítik meg. Az exóm- és genomskálán, ahol több tízezer-millió változatot neveznek, a pontosság egyik mércéje az NGS-változatok összehasonlítása az SNP-microarray-k által generált változatokkal. Az NGS és az SNP tömbök közötti egyezés körülbelül 98% és 99% között van az exome és a genom adatokban (22, 35, 65, 66) (nem publikált eredményeink). Amellett, hogy minőség-ellenőrzési mérőszámként szolgálnak, a genomi microarray adatok segíthetnek a jelölt gén felfedezésében, és az alábbiakban részletesebben tárgyaljuk őket.

Az exome- és genomadatok elemzésének infrastruktúrája és időigénye.--Az NGS által generált nyers adatfájlok VCF-fájlokká való feldolgozása kiváló minőségű változatokkal olyan bioinformatikai szakértelemmel és számítási teljesítménnyel rendelkező személyzetet igényel, amely meghaladja a szabványos személyi számítógépek kapacitását. A szerzők beállítása szerint a nyers szekvenálási fájlok FASTQ fájlokká konvertálása, a kezdeti és finomított igazítások elvégzése, valamint a variánsok hívása és annotálása 96 gigabájt (GB) 96 gigabájt (GB) véletlen elérésű memóriával és 3,33 GHz-es processzorral rendelkező 2X6 központi feldolgozó egységgel konfigurált munkaállomásokon történik. sebesség. Az exome- és genomadatok FASTQ-fájlokká konvertálása 1 órát, illetve 8 órát vesz igénybe, 24 szál használatával ezeken a munkaállomásokon. Az exomadatok kezdeti és finomított összehangolása körülbelül 12 órát, a genomadatok pedig körülbelül 3 napot igényel, míg az exomokat és genomokat igénylő variánsok 3 vagy 24 órát vesznek igénybe. A változat-annotációhoz szükséges idő változó (kevesebb, mint 1 óra, az annotációs paraméterek számától függően). A feldolgozási idő csökkentése érdekében jelenleg az egyes munkaállomásokat kiváltjuk egy dedikált szerverrel és tárhellyel, amely egyetemünk Nagyteljesítményű Számítástechnikai Központjában található. Ez lehetővé teszi, hogy adatainkat egy 16 blade-s klaszteren dolgozzuk fel, 2 interaktív csomóponttal és 14 számítási csomóponttal. Az interaktív csomópontok 24 GB memóriával, a számítási csomópontok 48 GB-tal rendelkeznek, és mind a 16 csomópont 500 GB helyi merevlemez-memóriával és 2,8 GHz-es processzorsebességgel rendelkezik. Klinikai kutatócsoportunk 2 főállású PhD szintű tudósból, 2 főállású bioinformatikusból és egy technikusból áll, akik összehangoltan dolgoznak az exome és genom adatok generálásán, feldolgozásán és elemzésén.

Műszaki és bioinformatikai szempontok az exome- és genomszekvenáláshoz

Lefedettség leolvasása az exome és a genomszekvenálás során. A genomszekvenálás során az egyes szekvenált bázisok lefedettsége (vagy az egymáshoz igazított leolvasások száma) alacsonyabb, mint az exome szekvenálásnál. Az exome jelenlegi átlagos lefedettsége 100-200-szoros, feltételezve, hogy 2 exomot indexelnek, összevonnak és az Illumina HiSeq 2000 egyetlen sávjában futnak v3 kémiával. Összehasonlításképpen, egy emberi genom átlagos lefedettsége 30-szoros, ha egy genomot futtatunk egy áramlási sejt 4 sávjában. Ezek a lefedettségbeli különbségek ugyanazon a mintán különböző változatok készleteihez vezethetnek. Clark és munkatársai (22) (2011) 3 különböző exome-befogó reagenst, majd Illumina szekvenálást alkalmazva hasonlították össze ugyanazon egyed genom- és exomeeredményeit.Amikor a genomszekvencia-adatkészlet elemzését az Agilent, NimbleGen és Illumina exome capture próbák exome-adatkészleteinek rögzített régióira korlátozták, megfigyelték, hogy 35 448 30 097, illetve 42 633 variánst neveztek közösnek. További megállapítások voltak, hogy (1) az exome szekvenálásnak nevezett változatok kimaradhatnak a genom szekvenálásból a genom adatok alacsonyabb lefedettsége és alapminőségi pontszámai miatt, és (2) a genom szekvenálásra egyedi variánsok, amelyeket az exome-befogás során megcéloztak, de alacsonyak voltak. nulla leolvasási lefedettségre, ezek a dúsítási hiba miatt következtek be ezeken a pozíciókon. (22) A szerzők azt is megállapították, hogy az exome adatkészletben szereplő variánsok átlagos minőségi pontszáma magasabb volt, mint a genom adatkészletben, megjegyezve, hogy az exome adatok átlagos lefedettsége 2-3-szorosa a genom adatokénak. Clark és munkatársai (22) rávilágítanak arra az elképzelésre, hogy a változatok minőségi pontszámait befolyásolja az olvasási lefedettség, és Ajay és munkatársai (67) 2011-es tanulmányához kapcsolódik, akik egy emberi genomot 102-szeres átlagos lefedettségre szekvenáltak. Illumina kémiával. Ezt az adatkészletet használták a pontos variánshívás mérőszámainak meghatározására, és azt javasolták, hogy a szekvenálás hatékonysága a genom azon részén alapuljon, amelyben a variánshívások robusztusan meghatározhatók, vagy a hívható részen." A genom hívható részének meghatározására használt paraméterek tartalmazta az alapminőségi pontszámokat, a feltérképezési minőségi pontszámokat és a megbízhatósági pontszámokat, amelyeket a változat minősége határoz meg az olvasási mélység (vagy lefedettség) méréséhez viszonyítva. Az Illumina Genome Analyzer és a 2010 elején elérhető HiSeq kémia segítségével megállapították, hogy az átlagos lefedettségi mélység 50X szükséges volt, hogy a hívható genom körülbelül 94%-ánál pontosan hívja meg a genotípusokat, 30-szoros átlagos leolvasási lefedettséggel, a genom körülbelül 90%-a hívható volt. (67) Itt a genom hívható részében meghívott változatok pontosságát a konkordancia határozta meg tömbadatokból származó genotípus-hívásokkal. Fontos, hogy kimutatták, hogy a lefedettség egységességének növekedésével a folyamatosan javuló szekvenálás A kémiák és a szoftverek esetében a lehívható genom 95%-ának pontos lehívásához szükséges átlagos térképezési mélység csökkent. (67) E megállapítások kiterjesztése a diagnosztikai fordításra azt jelenti, hogy kritikus lesz empirikusan meghatározni az olvasási lefedettség követelményeit egy adott szekvenálási platformon a pontos variánshívás elérése érdekében. Az exome szekvenáláshoz használt minták indexelhetők vagy "vonalkódolhatók" a könyvtár előkészítése során egyedi szekvenciák adapter-oligonukleotidokba való beépítésével, ami lehetővé teszi több könyvtár szekvenálását ugyanazon az áramlási sejtsávon. Az indexelt és összevont mintákból generált leolvasásokat a későbbi bioinformatikai dekonvolúció során a származási mintához rendeljük. Az indexelési stratégiákhoz összevont minták számánál figyelembe kell venni a mintánkénti átlagos olvasási lefedettség ebből eredő csökkenését, valamint az alacsony olvasási lefedettségű területek hatását, ami kizárhatja a pontos variánshívást.

Exome Versus Genome Data: Area Sequenced.-- Mivel a genom szekvenálási minta-előkészítésben nincs célgazdagítás, az ezzel a megközelítéssel előállított adatok kódoló, intronikus, nem lefordított és intergenikus régiókat tartalmaznak, míg az exome szekvencia adatok csak azokat a régiókat tartalmazzák, amelyek szondák fogták el. A két adatkészlet közötti különbség könnyen láthatóvá válik a genom és az exome adatok összehasonlításával (7. ábra). A 7. ábra (A) a jól befogott RET-gén exonjainak egy részhalmazát mutatja. A genom adatok a teljes régióban teljesek, míg az exome adatok csak azokon a genomiális helyeken olvashatók, amelyeket a befogószondák gazdagítottak. Az exome adatokban vannak olyan régiók, amelyekben nincsenek szondák, mások pedig rosszul rögzíthetők a könyvtár előkészítése során. Ez azt jelenti, hogy a végső adatkészletben hiányzik a szekvencia, amint azt az ABCF1 gén mutatja a 7. B ábrán. Ez a gén nem teljesen feldúsult, a befogó próbák a kimutatott 19 exonból csak 5-öt fednek le. Ezzel szemben a genom szekvenálási adatok teljesek ebben a régióban. A szondák hiánya az exome-befogó reagensekben elsősorban annak tudható be, hogy nehéz egyedi próbákat tervezni bizonyos kódoló régiókhoz. Ha az érdeklődésre számot tartó géneket vagy exonokat nem rögzítik, vagy nem dúsítják fel megfelelően az exome-befogás, akkor más megközelítések, például a Sanger-szekvenálási vizsgálatok is megtervezhetők e gének lefedésére.

Következő generációs szekvenálási korlátozások: Ismétlődő szekvenciák és GC torzítás. Az NGS két fontos technikai korlátja, amelyek befolyásolják a genom és az exom szekvenálását, a homológ szekvenciák és a guanin-citozin (GC) torzítás. A néhány bázistól a több millió bázisig terjedő, erősen ismétlődő szekvenciák az emberi genom körülbelül 50%-át teszik ki, és tartalmaznak egymásba szúrt ismétlődéseket (nagyon hasonló szekvenciák, amelyek térben elkülönülnek a genomban) és tandem ismétlődéseket (egymás melletti ismétlődések). (68) Az exome-befogó próbák humán genomiális DNS-hez történő hibridizációja során nagymértékben homológ (pszeudogénekből vagy géncsaládokból származó) vagy ismétlődő (átszórt vagy tandem ismétlődésű) szekvenciákat lehet befogni, és így együtt dúsítani a kérdéses célpontokkal együtt. Az igazító programok háromféleképpen kezelhetik az ismétlődő vagy erősen homológ szekvenciákat: (1) az ismétlődő szekvencia régiójában lévő leolvasások elvetése, (2) a legkevesebb eltérést tartalmazó régióhoz igazítás (legjobb egyezés), és (3) az összes jelentése igazítások. (68) Az ismétlődő vagy homológ szekvenciák egymáshoz igazításának kihívása mind az exome, mind a genom szekvenálása során szembesül, és a helyes olvasási igazítás legjobb stratégiája az lenne, ha pontos leolvasásokat generálnánk, amelyek hosszabbak, mint a szokásos ismétlődések (amelyek néhány száztól több ezerig terjedhetnek). bázisok) a genomban, (68) ami jelenleg nem kivitelezhető a rendelkezésre álló NGS-platformokkal (azzal az eltéréssel, hogy a Pacific Biosciences (Menlo Park, Kalifornia) egymolekulás szekvenáló platformjának hosszabb olvasási hossza átfoghat bizonyos típusú ismétlődő régiókat) . Ennek az akadálynak a mérséklése érdekében a páros végű szekvenálást az igazítók kihasználják, és a társpár információit használják fel az ismétlődő szekvenciákból generált rövid leolvasások pontos összehangolására. (68) A nagyobb beillesztési méretű könyvtárak létrehozása és az átlagos olvasási mélység-különbségek használata az ismétlődések kimutatására két másik módja az igazítási pontosság javításának. (68)

Az exome szekvenálással kapcsolatos másik technikai szempont az, hogy a magas vagy alacsony GC-tartalmú kódoló régiókat kevésbé hatékonyan rögzítik a jelenlegi protokollokban használt egyetlen hőmérsékletű hibridizációs körülmények között. A GC torzításról ismert, hogy befolyásolja a PCR hatékonyságát és az oligonukleotid próbák hibridizációját (22), ezért ez az exome-befogási módszerek torzításának inherens forrása. Clark és munkatársai (22) leírták azt a nehézséget, amellyel a magas vagy alacsony GC-tartalmú célpontokat rögzítik, és ez mindhárom exome rögzítési platform velejárója. A 8. A. ábra azt mutatja, hogy a GC torzítás különösen kifejezett az emberi gének első exonjának befogása esetén. Ez a GC torzítás az első exonok túlreprezentáltságát jelenti, alacsony vagy semmilyen lefedettséggel az exome adatkészletekben. A 8. B ábra szemlélteti ezt a pontot, és egy példát mutat be egy génre, a MAZ-ra, amelynek az 1. exonhoz tervezett próbája van, azonban ennek az exonnak a befogási hatékonysága nagymértékben csökkent a gén többi exonjához képest.

EXOME ÉS GENOM SZEKVENCIÁLÁS A JELÖLT GÉNEK FELFEDEZÉSÉHEZ: A VÁLTOZATLISTÁTÓL A JELÖLT GÉNEKIG

Miután a variánsok listája elkészült és megjegyzésekkel ellátva, megkezdődhet a jelölt gén(ek) azonosításának folyamata. A genom szekvenálási adatkészleteknél az alany etnikai hovatartozásától függően körülbelül 3-3,5 millió pozíció fog eltérni a referenciaszekvenciától. Az exome szekvenálás során a kódoló régiókban 15 000-20 000 változás figyelhető meg a referenciaértékhez képest. Akár genom-, akár exome-adatkészletekkel kezdi, a legtöbb kutató kezdetben a kódoló régiókban és az illesztési helyekhez szorosan szomszédos variánsokra korlátozza az elemzéseket, mivel ezek a genom leginkább értelmezhető részei. Ezen adatkészletek hatalmassága miatt, bioinformatikai eszközökre van szükség a variánslisták szűkítéséhez a jelölt gének variánsainak egy kis részhalmazára. Ezen a fejlődő területen a bioinformatikai megközelítések két fő kategóriáját alkalmazzák: heurisztikus szűrési módszereket és statisztikai előrejelző algoritmusokat vagy ezek kombinációját. Ezek a megközelítések kiegészíthetők. tömbadatok beépítésével, amelyek felhasználhatók arra, hogy a variánsok keresési terét meghatározott kromoszómarégiókra fókuszálják, az alábbiak szerint.

Heurisztikus szűrési módszerek

A megjegyzésekkel ellátott változatlistával a családtanulmányokban az ok-okozati génfelfedezés felé vezető első lépés tipikusan a heurisztikus szűrők alkalmazása a feltételezett betegség öröklődési mintákon, a betegség gyakoriságán és a jelölt variánsra vonatkozó feltételezéseken (921. ábra). Egy feltételezett "ritka" örökletes rendellenességben az egyik első feltételezés az, hogy a kiváltó variáns nem szerepel nyilvános adatbázisokban, például a dbSNP-ben, az 1000 Genomes Projectben (69, 70) vagy a házon belüli kontroll adatbázisokban. Szűrőként alkalmazva ez a kezdeti feltevés eltávolítja az ezekben az adatbázisokban jelenlévő változatokat, és jellemzően az exome variánsok listáját körülbelül 95%-kal, körülbelül 20 000-ről körülbelül 1000-re csökkenti. Fontos szempont ezzel a szűrővel kapcsolatban, hogy a dbSNP-ben néhány ismert ritka patogén variáns és gyakoribb, a genom-szintű asszociációs vizsgálatok által betegséghez köthető változat is jelen van. További figyelmeztetésként, az 1000 genomprojektben részt vevő alanyok egy része valószínűleg genetikai betegség hordozója, vagy alacsony penetranciájú vagy későbbi korban jelentkező genetikai betegségük van. A szűrés egy alternatív feltételezése az, hogy a gyakori változatok nem patogének, és kisebb allélgyakoriság alapján szétválaszthatók a dbSNP, az 1000 Genomes Projekt vagy házon belüli ellenőrzési adatbázisok. Ez a megközelítés problematikus lehet egy összetett heterozigóta változat esetén, ahol az egyik változat gyakoribb lehet a populációban, mint a másik. Egy másik lehetőség az összes változat eltávolítása egy bizonyos kisebb allélgyakoriság felett, például 5% vagy nagyobb.

Bár a legtöbb ismert erősen penetráns, betegséget okozó változat 1%-nál kisebb gyakorisággal fordul elő a populációban, a káros változatok nagyobb gyakorisággal fordulhatnak elő. Ezt bizonyítja egy nemrégiben végzett tanulmány, amelyben 697 mintában 942 génből rögzített exonokat használtak. (71) A szerzők többféle megközelítést alkalmaztak a különböző frekvencia tálcákban található variánsok funkcionális spektrumának vizsgálatára ezekkel az adatokkal. Először is felmérték a variáns előrejelzett következményeit a fehérje működésére, és azt találták, hogy a missense variánsok 63%-a és a nonszensz változatok 78%-a az 1%-nál kevesebb frekvenciatartományban volt, így a variánsok egy része a frekvencia tálcákban maradt. magasabb, mint 1%. Hasonló mintázatot találtak, amikor értékelték a variáns következményeit a fehérjefunkciókra gyakorolt ​​hatásával a Sorting Intolerant from Tolerant (SIFT) (72,73) és a Polymorphism Phenotyping (PolyPhen) algoritmusok. (74) Ezzel a mérőszámmal azt találták, hogy a károsító változatok 72%-a és a lehetséges károsító változatok 63%-a az 1%-nál kevesebb frekvenciasávban található. Ezért a variánsok gyakorisága alapján történő szűrésnél fontos figyelembe venni az 1%-nál nagyobb gyakoriságú változatokat, hogy elkerüljük a kiváltó változat hiányát.

A következő szűrési lépések a lehetséges jelölt változatok listájának további szűkítését szolgálják. Itt bemutatjuk a heurisztikus szűrési megközelítés következő lépéseinek lehetőségeit, de azt javasoljuk, hogy az adott családvizsgálathoz használt pontos lépéseket empirikusan határozzák meg. Az általános szűrők közé tartozik (1) csak a páciens betegségének fenotípusában korábban szerepet játszó gének vizsgálata, (2) metszéspontok (azaz közös változatok) és az érintett és nem érintett egyedek közötti különbségek vizsgálata a származási adatok alapján, (3) a kapcsolat vagy az azonosság beépítése. -genomikus microarray elemzésekből származó leszármazási információk, és (4) szűrők alkalmazása a jelölt variánsra vonatkozó feltételezések alapján (pl. zigozitás, variáns osztályozás vagy patogenitás előrejelzése) (921. ábra). Először is, a páciens rendellenességében korábban szerepet játszó gének kezdetben az ok-okozati variánsok szempontjából értékelhetők. Ha a lista nem túl kiterjedt, ezt manuális olvasási ellenőrzéssel lehet elvégezni egy megjelenítőben, például az Integrative Genomics Viewerben, a feltételezett öröklődési mintához illeszkedő változatok vizsgálatával. Sok ismert vagy jelölt gént tartalmazó rendellenesség esetén hatékonyabb lehet a listát egy genomböngésző sávvá alakítani, amely a szűrés során felhasználható e gének variánsainak specifikus kiemelésére. Másodszor, a metszés- és különbségszűrők akkor hasznosak, ha több érintett és/vagy nem érintett egyedet szekvenálnak. A szűrők alkalmazásakor fontos figyelembe venni a variáns zigozitását és a feltételezett öröklődési mintázatot, mielőtt az egyedek között azonos kromoszómális pozíciókban lévő variánsokat eltávolítanánk. Például egy feltételezett recesszív öröklődési mintával rendelkező családi vizsgálatban más nem érintett családtagok is hordozók lehetnek a rendellenességben, ezért az azonos kromoszómapozíciókban lévő variánsok eltávolítása a kiváltó variáns eltávolítását eredményezheti az adathalmazból.

A családtanulmányokban a strukturális eltérésekkel, a kópiaszám-variációkkal és az érintett egyedek között megosztott heterozigótaság elvesztésével járó régiók azonosítása, amelyek nincsenek jelen a nem érintett egyedekben, segíti a kiváltó variánsok keresését ezekre a régiókra összpontosítani. Egy hasznos stratégia szerint a genomi microarray adatok exome- vagy genomadatokkal párosíthatók, hogy meghatározzák ezeket a régiókat, és azonosítsák az identitás szerinti származásonkénti információk helyét a családvizsgálatokban. (75) A megosztott genomiális szegmenselemzés (vagy haplotípus-fázisozás) kísérleti vagy bioinformatikai megközelítéssel is elvégezhető. (76) Roach és munkatársai (77) 2010-ben egy példát mutattak be egy sikeresen megvalósított bioinformatikai stratégiára a haplotípus-fázisozásra, amely a jelölt gén felfedezéséhez vezetett. Genomszekvencia adatok egy 4 tagú családból, amelyben két testvér Miller-szindróma (Online Mendelian Heritance) szenved. Man [OMIM] No. 263750) és primer ciliáris dyskinesia (OMIM No. 608644) vizsgálatokat alkalmaztak az azonos haplotípus blokkok régióinak számítási meghatározására. Ezzel a keresési területet a két testvér genomjának 22%-ára csökkentették. (77) Recesszív öröklődési mintát feltételezve összetett heterozigóta mutációkat azonosítottak 4 gén kódoló régiójában, amelyek közül kettőt (DHODH és DNAH5) egy külön vizsgálatban is feltártak, amely a 2 érintett egyed exome szekvenálását is magában foglalta. (78) Browning és Browning (76) egy közelmúltban megjelent publikációjában (2011) kísérleti megközelítéseket és fázisozási algoritmusokat ír le.

Végül a jelölt gén és az ok-okozati variáns jellemzőire vonatkozó feltételezések felhasználhatók további szűrésre. Az egyik feltételezés az, hogy a kiváltó variáns valószínűleg változást okoz a fehérje szintjén, ezért az olyan változásokat, mint a nonszensz, a missense, a splicing és a frameshift variánsok előnyben részesítik. A rendellenesség feltételezett öröklődési mintája úgy is tekinthető, hogy előnyben részesíti a homozigóta vagy heterozigóta változatokat. Például egy recesszív rendellenességben a kiváltó variáns vagy homozigóta, vagy összetett heterozigóta, így az egyetlen heterozigóta mutációt hordozó gének eltávolíthatók. Egy másik feltételezés az, hogy a kiváltó variánsnak funkcionális hatása lesz, és nagyobb valószínűséggel fordul elő egy konzervált versus variábilis génrégióban. Egy változat funkcionális hatásának felmérésére gyakran használnak előrejelző programokat, mint például a SIFT, Genomic Evolutionary Rate Profiling (79,80) és PolyPhen, és az eredményeket beépítik a szűrési és/vagy prioritási folyamatba. A jelölt gén azonosítása után kereszthivatkozás a szakirodalomra és a konzultációs adatbázisokra, beleértve a Human Gene Mutation Database-t, (81) OMIM-et (82) és a lókusz-specifikus adatbázisokat (pl. http://www.arup. utah. edu/database/ elérve: 2012. május 9.), feltárhat egy korábban leírt genotípus-fenotípus összefüggést.

A patogén variánsok kutatási környezetben történő feltárására szolgáló exome szekvenálási megközelítések jelentős hasznosságot mutattak, amint azt a szakirodalomban publikált sikerek bizonyítják számos, elsősorban mendeli rendellenességre, recesszív, domináns és de novo öröklődési mintákkal. Heurisztikus szűrési megközelítést alkalmaztak a kórokozó variánsok azonosítására a halálos kimenetelű neurodegeneratív betegség, az amiotrófiás laterális szklerózis (OMIM No. 105400) egy családi esetében, autoszomális domináns öröklődési mintázattal. (83) Exome szekvenálást végeztünk 2 érintett egyeden ebből a családból, és a dbSNP és az 1000 Genomes adatbázis variánsait eltávolítottuk, majd a fennmaradó variánsokat metszettük. Ez 1978 megosztott változatokat és indeleket eredményezett. A szinonim, nem kódoló SNP-k és nem kódoló indelek eltávolítása után a szerzők Sanger 75 heterozigóta SNP-t és 13 heterozigóta indelt szekvenáltak egy nem érintett családtagban, és eltávolították a megosztott pozíciókat, hogy a listát 24 heterozigóta SNP-re és 9 heterozigóta indelre csökkentsék. Ezután eltávolították a 200 neurológiailag normális egyedből álló kontrolladatbázisban jelenlévő variánsokat, amelyek 6 heterozigóta SNP-t hagytak hátra, és egyetlen heterozigóta indelt sem. Ezek közül 4 SNP-t jósolt a SIFT károsító hatása, és a szerzők a VCP génre összpontosítottak, amely egy ritka betegségben korábban leírt variánst tartalmazott, amiotrophiás laterális szklerózissal átfedő tünetekkel. A VCP szekvenálása az amiotrófiás laterális szklerózis további eseteiben 4 további mutációt tárt fel ebben a génben, amelyek nem voltak jelen a nem érintett kontrollok kiterjedt csoportjában. A VCP a proteaszómális lebontáshoz szükséges ATP-ázt kódolja, de a betegség progressziójának pontos molekuláris mechanizmusa az ilyen változatokat hordozó betegekben még meghatározásra vár.

Worthey és munkatársai (84) (2011) exome szekvenálást végeztek egyetlen betegben, amely sikeresen végrehajtotta a klinikai kezelést, és egy súlyos, életveszélyes gyulladásos bélbetegségben szenvedő fiúgyermeken végeztek exome szekvenálást (OMIM No. 266600). . Recesszív öröklődési mintát feltételezve a szerzők 66 gént elemeztek összetett heterozigóta variánsokkal, és mindegyiket kizárták a szekvencia megőrzése és gyakorisága alapján. Emellett 70 homozigóta és hemizigóta, nem szinonim változatot is elemeztek, és 8 új, potenciálisan káros (a PolyPhen által előre jelzett) változatra összpontosítottak. A legfontosabb prioritás az X-kromoszóma gén XJAP variánsa volt. A XIAP génről ismert, hogy fontos a programozott sejthalál és a proinflammatorikus válasz szempontjából. A szerzők funkcionális vizsgálatokat végeztek a betegek és a kontroll perifériás vér mononukleáris sejtjeivel, és abnormális XIAP funkciót mutattak ki. A kombinált molekuláris és funkcionális eredmények olyan kezelési döntéshez vezettek, amelyben a páciens allogén köldökzsinórvér progenitor sejt transzplantáción esett át, amely a publikáció időpontjában megoldotta a beteg gyulladásos bélbetegség tüneteit.

A genomszekvenálást alkalmazó sikeres heurisztikus szűrés egy másik példájában Bainbridge és munkatársai (19) (2011) 2 recesszív mozgászavarban szenvedő dopa-reszponzív dystonia (OMIM No. 128230) által érintett ikertestvér genomszekvenálási adatait gyűjtötték össze. A szerzők körülbelül 2,5 millió egy nukleotidból álló variánst neveztek meg minden egyénben, és körülbelül 1,6 millióan oszlanak meg a két testvér között. A dbSNP-ben lévő variánsok eltávolítása után 9531 megosztott változatot azonosítottak a genom kódoló régiójában. A megosztott, nem szinonim változatokra fókuszálva a lista 4605-re csökkent, és ezek közül 77 változat kisebb, mint 0,5%-os allélgyakorisággal van jelen. A szerzők ezután homozigóta vagy 2 vagy több heterozigóta változatot tartalmazó géneket kerestek, és kereszthivatkozásokat adtak a dystóniában ismert gének adatbázisára. Ez a megközelítés vezetett összetett heterozigóta variánsok felfedezéséhez az SPR génben, amelyek korábban dopa-reszponzív dystóniával társultak. Ennek a génnek a fehérjeterméke egy aldo-keto-reduktáz, amely fontos a BH4 bioszintézisében (85), amely mind a dopamin, mind a szerotonin termelődését befolyásolja. A molekuláris diagnózis eredményeként a kezelés menete megváltozott, és mind a dopamin prekurzor (L-dopa), mind a szerotonin prekurzor (5-hidroxi-triptofán) szerepelt benne.Az 5-hidroxi-triptofánnal végzett kezelés mindkét beteg tüneteit javította, jelentős mellékhatások nélkül.

Sobreira és munkatársai (18) (2010) genom-szekvenálási adatokat generáltak 1, autoszomális domináns metachondromatosisban szenvedő egyénnél (OMIM No. 156250), amely többszörös exostosisokat tartalmaz, amelyek főként a kezeket és a lábakat érintik. A szerzők más családtagoktól származó kapcsolódási adatokat használva azonosították az érintett egyedekben 6 közös genomi régiót, majd ezeknek a régióknak a kódoló szekvenciájában keresték a nem szinonim és nonszensz SNP-ket és indeleket. Ezzel a stratégiával azonosítottak egy okozó mutációt a PTPN11 génben, egy olyan génben, amely ugyanabban az exonban egy nonszensz variánst is tartalmazott egy második, ezzel a betegséggel érintett családtagban. A PTPN11 gén a protein tirozin-foszfatáz családba tartozó jelátviteli molekulát kódol, amelyről ismert, hogy több sejtfolyamatban is részt vesz. (86) Ez néhány példa a sikeres génfelfedezési esetekre az irodalomból. További perspektívaként az olvasó figyelmébe ajánljuk Ku és mtsai (13) (2011) közelmúltbeli áttekintését, amely az irodalomból olyan esetek egy részét foglalja össze, amelyek sikeresen alkalmazták az NGS-megközelítéseket az ok-okozati génfelderítéshez.

Statisztikai modellezési és előrejelzési módszerek

Míg a heurisztikus szűrési módszerek sikeresnek bizonyultak a jelölt és a kiváltó gének azonosításában egyre több rendellenességben, ezek korlátozottak, mivel nem nyújtanak statisztikai bizonytalanságot egy adott variáns vagy jelölt gén esetében. Ezzel összefüggésben új jelölt génfelfedezési előrejelző algoritmusokat fejlesztenek ki (9. ábra). A Variant Annotation, Analysis and Selection Tool (VAAST) egy ilyen algoritmus. (87) Többparaméteres valószínűségi egyenlet segítségével a VAAST összehasonlítja az allélgyakoriságokat az esetek, a kontrollok és a háttéradatkészletek között, a variánsok súlyosságának aminosav-szubsztitúciós elemzéssel történő modellezésével együtt, hogy létrehozza a variánsok listáját, amelyek mindegyike VAAST-rangsorolási pontszámmal és egy P érték. A P érték annak a valószínűsége, hogy egy változat statisztikailag szignifikáns egy esetben a kontroll adatkészlethez képest. A VAAST hasznosságát a közelmúltban egy publikáció mutatta be, amely egy korábban nem jellemzett, ritka, domináns, X-hez kötött Mendel-rendellenesség okozó variánsának felfedezését írja le, amely a csecsemőfiúk "elöregedett megjelenését" és a születés utáni növekedés leállását okozza, amit Ogdennek hívnak. szindróma (OMIM No. 300855). (88) A szerzők csak az X-kromoszóma exome szekvenálását végezték el két nem rokon családban. Az 1. családban a VAAST-ot a következő feltevésekkel alkalmazták: (1) domináns öröklődési modell hiányos penetranciával és (2) 0,1%-os vagy kisebb gyakorisággal a kontroll adatkészletekben. A 2. családban heurisztikus szűrési modellt alkalmaztak. Mindkét esetben azt találták, hogy a kiváltó variáns az NAA10 génben található, amely az N-terminális acetilációért felelős fehérjét kódolja, ami egy gyakori poszttranszlációs fehérjemódosítás.

Az ok-okozati variánsok előrejelzésének egy másik megközelítése, amelyről Ionita-Laza és munkatársai (89) a közelmúltban, 2011-ben számoltak be, egy súlyozott összegű megközelítést alkalmazó statisztikai módszert ír le, amely figyelembe veszi a gének "háttérbeli" variációját, hogy elkerülje a nagy vagy erősen variábilis géneket. a populációban előkelő helyen áll a jelöltlistán, képes összefüggő vagy független adatkészleteket befogadni, kapcsolódási vagy funkcionális adatokat tartalmazhat, és számítási megközelítést alkalmaz az egyes gének statisztikai bizonyosságának (P-érték) mérésére. Azt javasolják, hogy kombinálják a súlyozott összegű algoritmust heurisztikus szűréssel, hogy rangsorolt ​​génlistát hozzanak létre. Az elv bizonyításaként a szerzők a Miller-szindrómára (78), a Freeman-Sheldon-szindrómára (90) és a Kabuki-szindrómára (91) korábban publikált exome-adatsorokat használták fel, és kimutatták, hogy algoritmusuk ugyanazokat a kiváltó variánsokat és géneket jósolta meg, amelyeket eredetileg. heurisztikus szűrési stratégiák fedték fel. (89) Ahogy a statisztikai modellező algoritmusok sokoldalúbbá és felhasználóbarátabbá válnak, egyre inkább kiegészítik, vagy bizonyos esetekben kiszorítják a heurisztikus szűrési módszereket, mivel képesek rangsorolt ​​génlisták létrehozására statisztikai valószínűségi mérőszámokkal.

A JELÖLT GÉNEK OK-OK-KÖZSÉGÉNEK BIZONYÍTÁSA EXOME- ÉS GENOMTANULMÁNYOKBÓL

A jelölt gének genetikai elemzése

Az utólagos genetikai és/vagy funkcionális vizsgálatok fontosak egy jelölt gén ok-okozati összefüggésének megállapításához az előre jelzett káros változatokkal (9. ábra). Egyes esetekben a páciens további laboratóriumi vizsgálata, amelyről a jelölt gén tájékoztat, alátámaszthatja az okozati összefüggést. A variánsoknak számos különböző kategóriája van, amelyek feltárulhatnak a jelölt gének keresése során. Először is, a gén és a variáns korábban összefüggésbe hozható a páciens fenotípusával. Másodszor, a gén korábban is szerepet játszhatott a betegség fenotípusában, míg a változat új. Ennek a változatnak a szűrése hasonló jelekkel és tünetekkel rendelkező betegeknél, valamint a nem befolyásolt kontrollok esetében hatékony lehet az ok-okozati összefüggés megállapításában. Harmadszor, lehet, hogy a gén korábban nem érintett a páciens fenotípusában, de ismert biológiai funkciója támogatja. Itt alapvető fontosságú, hogy megértsük a variáns gyakoriságát egy etnikailag egyező adatkészletben, és szűrjük a gén variánsait nem érintett egyénekben és hasonló jelekkel és tünetekkel rendelkező betegekben.

A jelölt gének funkcionális elemzései

A genetikai szűrés erős bizonyítékot szolgáltathat az okozati összefüggésre, de szükség lehet in vitro és in vivo funkcionális vizsgálatokra is. Otto és munkatársai (92) (2010) például a heterozigóta feltérképezés elvesztésének és 828 jelölt gén exonbefogásának kombinációját alkalmazták az ok-okozati variánsok azonosítására nephronophthisishez kapcsolódó ciliopathiákban (NPHP-RC), cisztás vesebetegséghez vezető recesszív rendellenességekben. . Az egyik célgénben, az SDCCAG8-ban egy új variánst azonosítottak, amely a humán centroszomális proteom fehérjekomponensét kódolja. Egy elegáns kísérletsorozat kimutatta, hogy az SDCCAG8 fehérje más olyan fehérjékkel kolokalizálódik, amelyekről ismert, hogy részt vesznek az NPHP-RC-ben az egér vese epiteliális sejtjeiben, és fizikai kölcsönhatást mutatott ki e gén fehérjeterméke és egy másik ismert NPHP-RC-fehérje terméke között. okozó gén. Ezután leütötték az SDCCAG8 expresszióját zebradánban, ami az NPHP-RC-ben részt vevő más gének leütésére jellemző fejlődési rendellenességek fenokópiáját eredményezte. Továbbá megfigyelték az NPHP-RC-re jellemző fenotípusokat az SDCCAG8 expressziójának leállításakor egér vese epiteliális sejtjeiben. Összességében ezek az adatok erősen alátámasztották az SDCCAG8 szerepét az NPHP-RC betegség patogenezisében.

Bár az NGS lehetővé teszi az emberi genetika példátlan gyorsasággal és részletességgel történő tanulmányozását, a modellszervezetek szerepe a jelölt gének nyomon követésében továbbra is kritikus jelentőségű. A Nature Reviews Geneticsben (93) egy közelmúltban megjelent perspektivikus cikk a modellszervezetekkel végzett kutatás hasznosságával foglalkozott az NGS-technológiák korában. Az egyik szerző szerint 3 ok, amiért továbbra is modellorganizmusokat használnak az emberi genetikai vizsgálatok kiegészítésére, a következők: az ezen organizmusok számára felhalmozott genom erőforrások, az ezekben a modellrendszerekben zajló alapvető biológiai folyamatokról rendelkezésre álló irodalomtár, valamint a genetikai és funkcionális korlátok. embereken végzett vizsgálatok. (93) A modellszervezeteket tanulmányozó közösségek az NGS-t használják az ezekkel az organizmusokkal kapcsolatos tudásbázis bővítésére, ami növelni fogja hasznosságukat a jelölt humán génekkel kapcsolatos nyomon követési vizsgálatokban.

EXOME ÉS GENOM SZEKVENCIA LEFORDÍTÁSA A KLINIKAI LABORATÓRIUMBA

Az exome és a genom szekvenálásának biztató sikerei a jelölt gének azonosításában transzlációs erőfeszítéseket eredményeztek, hogy ezeket a megközelítéseket a klinikai diagnosztikába bemutassák. Míg az elfogadási ciklus elején, ésszerű ennek a transzlációs erőfeszítésnek a folyamatos növekedését előrevetíteni. Bár óriási előrelépés történt az elmúlt 7 évben az első NGS-alapú publikáció óta, az NGS rutin klinikai diagnosztikai gyakorlattá történő átültetése számos kihívással néz szembe. Az NGS folyamatos fejlődése akadályokat gördít a klinikai laboratóriumok elé a diagnosztikai tesztek validálása és karbantartása tekintetében. A következő generációs szekvenáló kereskedelmi gyártók rendszeresen kiadják a vegyszerek és az áramlási cellák új verzióit, és leállítják a korábbi verziókat. Miközben javítják a pontosságot és csökkentik a szekvenálás költségeit, ezek az időszakos frissítések megkövetelik, hogy a klinikai laboratóriumok újra validálják folyamataikat. Tapasztalataink szerint a könyvtár-előkészítés technikai munkafolyamata és a szekvenálás elvégzése nagy komplexitású molekuláris tesztelési tapasztalattal rendelkező egyének által végezhető el. Ezzel szemben az exome- és genomskálás adatsorok elemzéséhez szükséges bioinformatikai készségekkel rendelkező egyének azonosítása egyedülálló kihívás. A platformmódosításokhoz hasonlóan az NGS-adatkészletek elemzéséhez is folyamatosan érkeznek bioinformatikai innovációk. Több algoritmus létezik az igazításhoz, a variánshívásokhoz és a megjegyzésekhez, mindegyiknek megvannak a maga erősségei és gyengeségei. Kevés összehasonlító vizsgálatot végeztek ezekről az algoritmusokról, és a legszélesebb körben használt algoritmusokhoz a LINUX vagy UNIX parancssor ismerete szükséges. A nyílt forráskódú szoftverek testreszabásához a meglévő laboratóriumi információs rendszerekkel való integráció elérése érdekében a szoftverek illesztőprogramjában való szakértelem szükséges. Ezen bioinformatikai igények kielégítése érdekében a klinikai laboratóriumok vagy együttműködnek akadémiai bioinformatikai csoportokkal, vagy megfelelő szakértelemmel rendelkező személyeket alkalmaznak. További erőforrás-befektetés, amellyel a klinikai laboratóriumok szembesülnek, az exome- és genomléptékű adatok feldolgozásához szükséges számítási infrastruktúra, beleértve a dedikált számítási szervereket a hozzájuk tartozó tárhellyel.

A publikált irodalom és tapasztalataink alapján a sikeres jelölt génfelfedezés egyénre szabott (esetről esetre) bioinformatikai megközelítést igényel, és több mint 1 algoritmus alkalmazását teheti szükségessé a jelölt gének kezelhető listájának létrehozásához. Előzetes döntésekre van szükség az algoritmikus megközelítés kiválasztását illetően a páciens fenotípusa alapján, valamint a családvizsgálatok során a lehetséges öröklődési módokon és a penetranciával kapcsolatos feltételezéseken. Az eredményül kapott jelölt génlista tartalmazhat vagy nem tartalmazhat olyan géneket, amelyeket korábban megfigyeltek vagy jelentettek a páciens fenotípusával összefüggésben. Felmerülhet egy jelölt gén, amelynek ismert biológiai funkciója lehetségesnek tűnik a fenotípus tekintetében. Alternatív megoldásként nehéz lehet a jelöltlistán szereplő géneket a páciens fenotípusával társítani. A genetikai szűrés vagy a funkcionális vizsgálatok elvégzése, bár szükséges az ok-okozati összefüggés megállapításához, kutatási infrastruktúrát igényel, és nem áll arányban a valós idejű diagnosztikai igényekkel. A jelölt génfelfedezés megkönnyítése érdekében nyomós szükség van további innovációkra a bioinformatikai eszközök terén, valamint a normál és a betegségekhez kapcsolódó adatbázisok bővítésére. Jelenleg csak néhány tanulmány és anekdotikus kijelentés létezik, amelyek betekintést nyújtanak az exom- és genomszekvenálás diagnosztikai érzékenységébe a jelölt génfelfedezéshez. (94,95) Az Országos Egészségügyi Intézet Nem diagnosztizált Betegségek Programja jelentése szerint az esetek 24%-át sikeresen diagnosztizálták molekulárisan a genomi microarray-ek, valamint az exome és a genom szekvenálás kombinációjával az első 2 évben, míg az 50%-ot megközelítő arányt jelentettek Gillisen és munkatársai (95) 2011-ben.

Az ezekkel a módszerekkel előállított rengeteg adat értelmezése, az erős jelölt gének ok-okozati összefüggéseinek megállapítása, az eredmények orvosnak és betegnek történő visszajelzése kiemelkedő kihívások és aktív viták témái az orvostudományi közösségben. Példaként említhető, hogy Jonathan Berg és munkatársai (96) a közelmúltban (2011-ben) publikáltak egy cikket az NGS-eredmények értelmezéséről és arról, hogy mit kell jelenteni az orvosnak és a páciensnek. Javasolták az exom- és genomszekvenálással azonosított variánsok szétválasztását 3 különálló „rekeszbe”, amelyeket (1) „klinikailag hatásos”-ként jelöltek meg a betegséggel összefüggő változatok esetében, amelyekhez klinikailag megalapozott kezelés vagy megelőzés társul, (2) „klinikailag érvényes, de közvetlenül nem befolyásolható" olyan változatok esetében, amelyek klinikailag érvényesek lehetnek, de orvosilag nem alkalmazhatók, és olyan változatok esetében, amelyek olyan állapotokhoz kapcsolódnak, amelyekre nincs kezelés, és (3) "ismeretlen vagy nincs klinikai jelentősége" olyan változatok esetében, amelyek nem tartoznak az elsőbe. 2 szemetes. Ezeket a változatokat későbbi hivatkozás céljából tárolják, és inkább kutatási környezetben, mint klinikai környezetben használhatók. A továbbiakban további javaslatokat várhatunk a változatok besorolására, valamint a változatok jelentésére vonatkozó ajánlásokat a szakmai szervezetektől.

Összefoglalva, az NGS alapvetően befolyásolta és megváltoztatta az orvosbiológiai kutatásokat, és most a klinikai diagnosztikai szférába ültetik át. Ahogyan a Sanger szekvenálás megnyitotta az ajtót az egygénes szekvenálás előtt, és végül az első emberi genom szekvenálására használt többéves erőfeszítés során, az NGS új ajtót nyitott meg, amely lehetővé teszi az emberi genomok egyre szélesebb körben elterjedt szekvenálását, amelyek mindegyikének szekvenálása egy kérdésben történik. napok. Más új technológiákhoz hasonlóan, amelyek megjelennek és a klinikai diagnosztikai arénába kerülnek, itt is létezik egy időablak, amelyben az alkalmazást a visszatérítés hiánya hátráltatja mindaddig, amíg elegendő bizonyíték nem gyűlik a hasznosságra. A transzlációs folyamat egyszerre izgalmas és kihívásokkal teli időszak a klinikai laboratóriumok számára. Az NGS folyamatos evolúciója tovább fogja tolni a disszeminációs görbét, és a laboratóriumi szakembereknek a klinikusokkal együttműködve meg kell találniuk a megfelelő utakat az exome- és genomszekvenálás megfelelő klinikai felhasználásához.

A szerzők szeretnének köszönetet mondani Kalyan Mallempatinak, MS-nek, hogy a HiSeq2000 műszert futtatta az áttekintésben bemutatott adatok előállításához, és Shale Dames-nek, MS-nek a 2. ábra grafikájának létrehozásáért.

(1.) Margulies M, Egholm M, Altman WE, et al. Genom szekvenálás mikrogyártott, nagy sűrűségű pikoliteres reaktorokban. Természet. 2005437(7057):376-380.

(2.) Artuso R, Fallerini C, Dosa L, et al. Az Alport-szindróma diagnózisának előrehaladása a következő generációs szekvenálás segítségével. Eur J Hum Genet. 201220:50-57.

(3.) Gowrisankar S, Lerner-Ellis JP, Cox S et al. 19 dilatált kardiomiopátia gén második generációs szekvenálásának értékelése klinikai alkalmazásokhoz. J Mol Diagn. 201012(6):818-827.

(4.) Jones MA, Bhide S, Chin E, et al. Célzott polimeráz láncreakció alapú dúsítás és új generációs szekvenálás a veleszületett glikozilációs rendellenességek diagnosztikai tesztelésére. Genet Med. 201113(11):921-932.

(5.) Vasta V, Ng SB, Turner EH, Shendure J, Hahn SH. A mitokondriális rendellenességek következő generációs szekvenciaanalízise. Genome Med. 20091(10):100.

(6.) Voelkerding KV, Dames S, Durtschi JD. Következő generációs szekvenálás a klinikai diagnosztikához – alapelvek és alkalmazása a hipertrófiás kardiomiopátia célzott újraszekvenálására: a 2009-es William Beaumont Kórházi Szimpózium molekuláris patológiájáról. J Mol Diagn. 201012(5):539-551.

(7.) Klee EW, Hoppman-Chaney NL, Ferber MJ. A DNS diagnosztikai panel tesztelésének kiterjesztése: jobb? Szakértő Rev Mol Diagn. 201111(7):703-709.

(8.) Proll J, Danzer M, Stabentheiner S, et al. A szekvencia rögzítése és az MHC-régió következő generációs újraszekvenálása rávilágít a lehetséges transzplantációs determinánsokra a HLA-azonos hematopoietikus őssejt-transzplantációban. DNA Res. 201118(4):201-210.

(9.) Holcomb CL, Hoglund B, Anderson MW, et al. Több helyszínen végzett vizsgálat, nagy felbontású HLA genotipizálással, következő generációs szekvenálás segítségével. Szövet antigének. 201177(3):206-217.

(10.) Erlich RL, Jia X, Anderson S, et al. Következő generációs szekvenálás az I. osztályú lókuszok HLA tipizálásához. BMC Genomics. 201112:42.

(11.) Serizawa M, Sekizuka T, Okutani A, et al. A Bacillus anthracis ciprofloxacin rezisztenciájával kapcsolatos új genetikai variációk genom szintű szűrése. Antimikrobiális szerek kemoterápia. 201054(7):2787-2792.

(12.) Deshpande NP, Kaakoush NO, Mitchell H, et al. A Campylobacter concisus genomjának szekvenálása és validálása feltárja a fajon belüli sokféleséget. PLoS One6(7):e22170. doi:10.1371/journal.pone.0022170.

(13.) Ku CS, Naidoo N, Pawitan Y. Revisiting Mendelian disorders through exome szekvenálás. Hum Genet. 2011129(4):351-370.

(14.) Ross JS, Cronin M. Teljes rák genom szekvenálása következő generációs módszerekkel. J. Clin Pathol vagyok. 2011136(4):527-539.

(15.) Russnes HG, Navin N, Hicks J, Borresen-Dale AL. Betekintés az emlőrák heterogenitásába a következő generációs szekvenálás segítségével. J Clin Invest. 2011121(10):3810-3818.

(16.) Wong KM, Hudson TJ, McPherson JD. A rák genetikájának feltárása: genomszekvenálás és azon túl. Annu Rev Genomics Hum Genet. 201112: 407-430.

(17.) LupskiJR, ReidJG, Gonzaga-Jauregui C, et al. Teljes genom szekvenálás Charcot-Marie-Tooth neuropátiában szenvedő betegnél. N Engl J Med. 2010362(13): 1181-1191.

(18.) Sobreira NL, Cirulli ET, Avramopoulos D, et al. Egyetlen próba teljes genom szekvenálása a kapcsolódási elemzéssel együtt azonosítja a Mendel-betegség génjét. PLoS Genet. 20106(6):e1000991. doi:10.1371/journal.pgen.1000991.

(19.) Bainbridge MN, Wiszniewski W, Murdock DR, et al. Teljes genom szekvenálás az optimalizált betegkezelés érdekében. Sci Trans! Med. 20113(87): 87re3.

(20.) Parkinson NJ, Maslau S, Ferneyhough B, et al. Kiváló minőségű következő generációs szekvenáló könyvtárak készítése pikogramos mennyiségű cél DNS-ből. Genome Res. 201122(1):125-133.

(21.) Coonrod EM, Margraf RL, Voelkerding KV. Az exome szekvenálás átültetése a kutatásból a klinikai diagnosztikába [közzétéve online, nyomtatás előtt 2011. december 16-án]. Clin Chem Lab Med. doi:10.1515/cclm-2011-0841.

(22.) Clark MJ, Chen R., Lam HY és mtsai. Exome DNS szekvenálási technológiák teljesítményének összehasonlítása. Nat Biotechnol. 201129(10):908-914.

(23.) Majewski J, Schwartzentruber J, Lalonde E, Montpetit A, Jabado N. Mit tehet az exome szekvenálás? [megjelenés előtt online, 2011. július 5-én]. J Med Genet. doi:10.1136/jmedgenet-2011-100223.

(24.) NCBI Consensus CDS Project. CCDS adatbázis. http://www.ncbi.nlm.nih. gov/CCDS/CcdsBrowse.cgi. Hozzáférés: 2011. január 15.

(25.) NCBI referenciasorozat (RefSeq). http://www.ncbi.nlm.nih.gov/projects/ RefSeq. Hozzáférés: 2011. január 15.

(26.) Griffiths-Jones S, Kozomara A. miRBase. http://www.mirbase.org/index. shtml. Hozzáférés: 2011. január 15.

(27.) Wellcome Trust Sanger Institute és The National Human Genome Research Institute. GENCODE. http://www.gencodegenes.org/. Hozzáférés: 2012. április 4.

(28.) Wellcome Trust Sanger Institute. Rfam adatbázis. http://www.sanger.ac.uk/sources/databases/rfam.html. Hozzáférés: 2011. január 15.

(29.) Wellcome Trust Sanger Institute. Vega adatbázis. http://vega.sanger.ac.uk/ index.html. Hozzáférés: 2012. április 4.

(30.) EMBL-EBI és a Wellcome Trust Sanger Institute. Ensembl Genome Browser. http://uswest.ensembl.org/index.html. Hozzáférés: 2012. április 4.

(31.) Weber M, Lestrade L. Laboratoire de Biologie Moleculaire Eucaryote: snoRNABase. http://www-snorna.biotoul.fr/. Hozzáférés: 2012. április 4.

(32.) Voelkerding KV, Dames SA, Durtschi JD. Következő generációs szekvenálás: az alapkutatástól a diagnosztikáig. Clin Chem. 200955(4):641-658.

(33.) Ansorge WJ. Új generációs DNS-szekvenálási technikák. N Biotechnol. 200925(4):195-203.

(34.) Bentley DR. A teljes genom újraszekvenálása. Curr Opin Genet Dev. 2006 16(6):545-552.

(35.) Bentley DR, Balasubramanian S, Swerdlow HP, et al. Pontos teljes emberi genom szekvenálás reverzibilis terminátor kémia segítségével. Természet. 2008, 456(7218):53-59.

(36.) Metzker ML. Szekvenálási technológiák – a következő generáció. Nat Rev Genet. 201011(1):31-46.

(37.) Pareek CS, Smoczynski R, Tretyn A. Szekvenálási technológiák és genomszekvenálás. J Appl Genet.201152(4):413-435.

(38.) Suzuki S, Ono N, Furusawa C, Ying BW, Yomo T. Három következő generációs szekvenáló platformról kapott szekvencialeolvasások összehasonlítása. PLoS One. 20116(5):e19534. doi:10.1371/journal.pone.0019534.

(39.) Ledergerber C, Dessimoz C. Alaphívás a következő generációs szekvenáló platformokhoz. Rövid Bioinform. 201112(5):489-497.

(40.) Ewing B, Green P. Automatizált szekvenszernyomok alaphívása phred segítségével. II: hibavalószínűség. Genome Res. 19988(3):186-194.

(41.) Ewing B, Hillier L, Wendl MC, Green P. Automatizált szekvenszernyomok alaphívása phred segítségével. I: pontossági értékelés. Genome Res. 19988(3): 175-185.

(42.) Burrows-Wheeler Aligner letöltés. sourceforge webhely. http://bio-bwa. sourceforge.net. Hozzáférés: 2011. január 15.

(43.) Li H, Durbin R. Gyors és pontos rövid leolvasási igazítás Burrows Wheeler transzformációval. Bioinformatika. 200925(14):1754-1760.

(44.) Li H, Durbin R. Gyors és pontos hosszú leolvasású igazítás Burrows Wheeler transzformációval. Bioinformatika. 201026(5):589-595.

(45.) Novoalign letöltés. Novocraft webhely. http://www.novocraft.com/mail/index.php. Hozzáférés: 2012. április 4.

(46.) Integrative Genomics Viewer. Broad Institute webhely. http://www. broadinstitute.org/igv. Hozzáférés: 2011. január 15.

(47.) Robinson JT, Thorvaldsdottir H, Winckler W, et al. Integratív genomika néző. Nat Biotechnol. 201129(1):24-26.

(48.) Genome Analysis Toolkit. Broad Institute webhely. http://www. broadinstitute.org/gsa/wiki/index.php/The_Genone_Analysis_Toolkit. Hozzáférés: 2012. április 4.

(49.) Depristo MA, Banks E, Poplin R, et al. Változatfelderítési és genotipizálási keretrendszer a következő generációs DNS-szekvenálási adatok felhasználásával. Nat Genet. 2011, 43(5):491-498.

(50.) McKenna A, Hanna M, Banks E, et al. A Genome Analysis Toolkit: a MapReduce keretrendszer a következő generációs DNS-szekvenálási adatok elemzéséhez. Genome Res. 201020(9):1297-1303.

(51.) SAMtools. sourceforge webhely. http://samtools.sourceforge.net. Hozzáférés: 2012. április 4.

(52.) Li H, Handsaker B, Wysoker A, et al. A Sequence Alignment/Map formátum és a SAMtools. Bioinformatika. 200925(16):2078-2079.

(53.) Picard: sourceforge.net. sourceforge webhely. http://picard.sourceforge. háló/. Hozzáférés: 2011. április 4.

(54.) Alapminőségi pontszám újrakalibrálása. Broad Institute webhely. http://www. broadinstitute.org/gsa/wiki/index.php/Base_quality_score_recalibration. Hozzáférés dátuma: 2011. január 20.

(55.) dbSNP. Nemzeti Biotechnológiai Információs Központ webhelye. http://www.ncbi.nlm.nih.gov/projects/SNP/. Hozzáférés: 2012. április 4.

(56.) ANNOVAR. Nyissa meg a Bioinformatikai webhelyet. http://www. openbioinformatics.org/annovar/. Hozzáférés: 2012. április 4.

(57.) Wang K, Li M, Hakonarson H. ANNOVAR: genetikai variánsok funkcionális annotációja nagy áteresztőképességű szekvenálási adatokból. Nucleic Acids Res. 2010, 38(16):e164. doi:10.1093/nar/gkq603.

(58.) snpEff. Broad Institute webhely. http://www.broadinstitute.org/gsa/wiki/ index.php/Adding_Genomic_Annotations_Using_SnpEff_and_VariantAnnotator. Hozzáférés: 2011. január 21.

(59.) Chen K, Wallis JW, McLellan MD, et al. BreakDancer: algoritmus a genom szerkezeti variációinak nagy felbontású feltérképezésére. Nat Methods. 2009, 6(9):677-681.

(60.) Hormozdiari F, Alkan C, Eichler EE, Sahinalp SC. Kombinatorikus algoritmusok nagy áteresztőképességű szekvenált genomok szerkezeti variációinak kimutatására. Genome Res. 200919(7):1270-1278.

(61.) Kidd JM, Cooper GM, Donahue WF, et al. Nyolc emberi genom szerkezeti variációinak feltérképezése és szekvenálása. Természet. 2008453(7191):56-64.

(62.) Korbel JO, Urban AE, Affourtit JP, et al. A páros végű térképezés kiterjedt szerkezeti eltéréseket tár fel az emberi genomban. Tudomány. 2007318(5849): 420-426.

(63.) Sindi S, Helman E, Bashir A, Raphael BJ. Geometriai megközelítés szerkezeti változatok osztályozására és összehasonlítására. Bioinformatika. 200925(12): i222-i230.

(64.) Wang J, Mullighan CG, Easton J et al. A CREST bázispár felbontással térképezi fel a rákgenomok szomatikus szerkezeti variációit. Nat Methods. 20118(8): 652-654.

(65.) Lyon GJ, Jiang T, Van Wijk R, et al. Exome szekvenálás és nem kapcsolódó eredmények a komplex betegségkutatás kontextusában: etikai és klinikai vonatkozások. Discov Med. 201112(62):41-55.

(66.) Pushkarev D, Neff NF, Quake SR. Egyedi emberi genom egymolekulás szekvenálása. Nat Biotechnol. 200927(9):847-850.

(67.) Ajay SS, Parker SC, Abaan HO, Fajardo KV, Margulies EH. A személyes genomok pontos és átfogó szekvenálása. Genome Res. 201121(9): 1498-1505.

(68.) Treangen TJ, Salzberg SL. Ismétlődő DNS és új generációs szekvenálás: számítási kihívások és megoldások. Nat Rev Genet. 201113(1):36-46.

(69.) 69.1000 Genomok Projekt. http://www.1000genomes.org/. Hozzáférés: 2011. április 4.

(70.) 1000 Genomes Projekt Konzorcium. Az emberi genom változásának térképe populációs léptékű szekvenálásból. Természet. 2010467(7319):1061-1073.

(71.) Marth GT, Yu F, Indap AR, et al. Az alacsony frekvenciájú kódolási variáció funkcionális spektruma. Genome Biol. 201112(9):R84.

(72.) SIFT. J. Craig Venter Intézet. http://sift.jcvi.org/. Hozzáférés: 2011. április 4.

(73.) Ng PC, Henikoff S. Káros aminosav-helyettesítések előrejelzése. Genome Res. 200111(5):863-874.

(74.) Sunyaev S, Ramensky V, Koch I, Lathe W III, Kondrashov AS, Bork P. Prediction of deterious human alleles. Hum Mol Genet. 200110(6):591-597.

(75.) Rodelsperger C, Krawitz P, Bauer S, et al. Az exomszekvencia adatok identitás szerinti leszűrése a betegség-gén azonosításához autoszomális recesszív rendellenességekben. Bioinformatika. 201127(6):829-836.

(76.) Browning SR, Browning BL. Haplotype phasing: meglévő módszerek és új fejlesztések. Nat Rev Genet. 201112(10):703-714.

(77.) Roach JC, Glusman G, Smit AF, et al. Családi kvartett genetikai öröklődésének elemzése teljes genom szekvenálás segítségével. Tudomány. 2010328(5978):636-639.

(78.) Ng SB, Buckingham KJ, LeeC, et al. Az exome szekvenálás azonosítja a mendeli rendellenesség okát. Nat Genet. 201042(1):30-35.

(79.) GERP. Sidow Lab a Stanford Egyetem webhelyén. http://mendel.stanford. edu/SidowLab/downloads/gerp/. Hozzáférés: 2012. április 4.

(80.) Davydov EV, Goode DL, Sirota M, Cooper GM, Sidow A, Batzoglou S. Identifying a high fraction of the human genom to beunder selective constraint using GERP -H-. PLoS Comput Biol. 20106(12):e1001025. doi:10.1371/folyóirat. pcbi.1001025.

(81.) Az emberi génmutációs adatbázis. Orvosi Genetikai Intézet Cardiffban. http://www.hgmd.org/. Hozzáférés: 2012. április 4.

(82.) Online Mendeli öröklődés az emberben. Nemzeti Biotechnológiai Információs Központ webhelye. http://www.ncbi.nlm.nih.gov/omim. Hozzáférés: 2011. január 15.

(83.) Johnson JO, Mandrioli J, Benatar M, et al. Az exome szekvenálás feltárja a VCP mutációkat, mint a családi ALS okait. Idegsejt. 201068(5):857-864.

(84.) Worthey EA, Mayer AN, Syverson GD, et al. A végleges diagnózis felállítása: a teljes exome szekvenálás sikeres klinikai alkalmazása kezelhetetlen gyulladásos bélbetegségben szenvedő gyermekeknél. Genet Med. 201113(3):255-262.

(85.) SPR génbevitel. Nemzeti Biotechnológiai Információs Központ webhelye. http://www.ncbi.nlm.nih.gov/gene/6697. Hozzáférés: 2011. február 1.

(86.) PTPN11 génbejegyzés. Nemzeti Biotechnológiai Információs Központ webhelye. http://www.ncbi.nlm.nih.gov/gene/5781. Hozzáférés: 2011. február 2.

(87.) Yandell M, Huff C, Hu H, et al. Valószínűségi betegség-génkereső a személyes genomokhoz [közzététel a nyomtatás előtt 2011. június 23-án]. Genome Res. doi:10.1101/gr.123158.111.

(88.) Kötél AF, Wang K, Evjenth R, et al. A VAAST alkalmazása olyan X-hez kötött rendellenesség azonosítására, amely férfi csecsemőknél az N-terminális acetiltranszferáz-hiány miatt halálos kimenetelű. Am J Hum Genet. 201189(1):28-43.

(89.) Ionita-Laza I, Makarov V, Yoon S, et al. Betegségváltozatok keresése Mendel-rendellenességekben szekvenciaadatok felhasználásával: módszerek és alkalmazások. Am J Hum Genet. 201189(6):701-712.

(90.) Ng SB, Turner EH, Robertson PD, et al. 12 emberi exóma célzott rögzítése és masszívan párhuzamos szekvenálása. Természet. 2009461(7261):272-276.

(91.) Ng SB, Bigham AW, Buckingham KJ, et al. Az exome szekvenálás az MLL2 mutációkat azonosítja a Kabuki-szindróma okaként. Nat Genet. 201042(9):790-793.

(92.) Otto EA, Hurd TW, Airik R, et al. A jelölt exome capture az SDCCAG8 mutációját azonosítja a retina-vese ciliopathia okaként. Nat Genet. 201042(10):840-850.

(93.) Aitman TJ, Boone C, Churchill GA, Hengartner MO, Mackay TF, Stemple DL. A modellszervezetek jövője az emberi betegségek kutatásában. Nat Rev Genet. 201112(8):575-582.

(94.) Biesecker LG, Mullikin JC, Facio FM, et al. A ClinSeq Project: nagyszabású genomszekvenálás kísérleti kísérlete a genomiális orvostudomány kutatásához. Genome Res. 200919(9):1665-1674.

(95.) Gilissen C, Hoischen A, Brunner HG, Veltman JA. A Mendel-kór feloldása exome szekvenálás segítségével. Genome Biol. 201112(9):228.

(96.) Berg JS, Khoury MJ, Evans JP. A teljes genom szekvenálásának alkalmazása a klinikai gyakorlatban és a közegészségügyben: egyszerre csak egy láda felel meg a kihívásnak. Genet Med. 201113(6):499-504.

Emily M. Coonrod, PhD Jacob D. Durtschi, BS Rebecca L. Margraf, PhD Karl V. Voelkerding, MD

Közzétételre 2012. május 14-én elfogadva.

Az ARUP Klinikai és Kísérleti Patológiai Intézet Kutatási és Fejlesztési részlegétől, Salt Lake City, Utah (Dr. Coonrod, Margraf és Voelkerding és Mr. Durtschi) és a Utah Egyetem Orvostudományi Karának Patológiai Tanszékétől, Salt Lake City (Dr Voelkerding) .

A szerzőknek nincs releváns pénzügyi érdekeltsége a cikkben leírt termékekben vagy vállalatokban.

Újranyomatok: Karl V. Voelkerding, MD, ARUP Institute for Clinical and Experimental Pathology, 500 Chipeta Way, Salt Lake City, UT 84108 (e-mail: [email protected]).

Megjegyzés: Az illusztráció(k) szerzői jogi korlátozások miatt nem elérhető(k).


Köszönetnyilvánítás

A szerzők köszönetet mondanak minden felhasználónak, aki segített visszajelzésével a felülvizsgálat során, különösen D. R. Murdocknak. Ezúton is köszönjük C. Andrade segítségét a DROP logó elkészítésében, valamint a Gagneur labor tagjainak a közreműködést. A Bavaria California Technology Center támogatta a C.M. egy közösség révén. A német Bundesministerium für Bildung und Forschung (BMBF) támogatta a tanulmányt az e:Med Networking fonds AbCD-Neten (FKZ 01ZX1706A a VAY, CM és JG), a Német Mitokondriális Rendellenességek Hálózatán (mitoNET 01GM1113C a HP), az E. - Ritka GENOMIT projekt (01GM1920A az MG-nek és HP-nek), az Orvosi Informatikai Kezdeményezés CORD-MI (Ritka betegségeken való együttműködés) a VAY-nek és az ERA PerMed PerMiM projekt (01KU2016A a HP-nek és a JG-nek). A Genotype-Tissue Expression (GTEx) projektet az Országos Egészségügyi Intézetek Igazgatói Hivatalának Közös Alapja, valamint az NCI, az NHGRI, az NHLBI, a NIDA, a NIMH és a NINDS támogatta.


Megjegyzések

  1. Collins, F. S. és H. Varmus. „Új kezdeményezés a precíziós gyógyászat terén.” New England Journal of Medicine 372. sz. 9 (2015): 793–95.
  2. Wynn, R., K. Adams, R. Kowalski és mtsai. „A beteg a precíziós gyógyászatban: A betegekkel szembesülő anyagok értékelését vizsgáló szisztematikus áttekintés.” Journal of Healthcare Engineering 2018 (2018): 9541621.
  3. Juengst, E. és M. McGowan. „Miért számít a személyre szabott orvoslásról a „precíziós egészségre” és a „wellness genomikára” való áttérés? AMA Etikai folyóirat 20, sz. 9 (2018): E881–E890.
  4. Lerman, C., R. A. Schnoll és L. W. Hawk. „A nikotin metabolit arány alkalmazása a nikotin tapaszra vagy vareniklinre adott válasz genetikailag megalapozott biomarkereként a dohányzás abbahagyására: Randomizált, kettős vak, placebo-kontrollos vizsgálat.” A Lancet Légzőgyógyászat 3, sz. 2 (2015): 131–38.
  5. Precíziós Orvostudományi Kezdeményezés Munkacsoport. A precíziós orvoslás kezdeményezésének kohorszprogramja – Kutatási alap építése a 21. századi orvostudomány számára. 2015, p. 1. Elérhető a https://www.nih.gov/sites/default/files/research-training/initiatives/pmi/pmi-working-group-report-20150917-2.pdf címen.
  6. Shafer, A. „A genetika megértése”. A Tech, Stanford Egyetem, 2006.
  7. Lander, E. S., L. M. Linton, B. Birren és mtsai. "Az emberi genom kezdeti szekvenálása és elemzése." Természet 409. sz. 6822 (2001): 860–921.
  8. Venter, J. C., M. D. Adams, E. W. Myers és mtsai. "Az emberi genom szekvenciája." Tudomány 291. sz. 5507 (2001): 1304–51.
  9. Altshuler, D., V. J. Pollara, C. R. Cowles és mtsai. „Az emberi genom SNP-térképe, amelyet csökkentett reprezentációs sörétes szekvenálás generál.” Természet 407. sz. 6803 (2000): 513–16.
  10. Varela, M. A. és W. Amos. „Az SNP-k heterogén eloszlása ​​az emberi genomban: a mikroszatellitek mint a nukleotiddiverzitás és divergencia előrejelzői.” Genomika 95, sz. 3 (2010): 151–59.
  11. Xiong, Q., N. Ancona, E. R. Hauser és mtsai. „A genetikai és génexpressziós bizonyítékok integrálása a génkészletek genomszintű asszociációs elemzésébe.” Genomkutatás 22, sz. 2 (2012): 386–97.
  12. Talseth-Palmer, B. A. és R. J. Scott. "A genetikai variáció és szerepe a rosszindulatú daganatokban." International Journal of Medicinal Science 7, sz. 3 (2011): 158–71.
  13. Carlson, B. „SNP-k – Parancsikon a személyre szabott orvosláshoz”. Génmérnöki és biotechnológiai hírek 28. sz. 13 (2008).
  14. Leon-Cachon, R. B., J. A. Ascacio-Martinez és H. A. Barrera-Saldana. "Egyéni válasz a gyógyszeres terápiára: alapok és vizsgálati megközelítések." Revista de Investigación Clínica 64. sz. 4 (2012): 364–76.
  15. Ventola, C. L. „Farmakogenomikus biomarkerek szerepe a gyógyszerválasz előrejelzésében és javításában: 1. rész: A farmakogenetikai változatok klinikai jelentősége.” Gyógyszerészet és terápia 38, sz. 9 (2013): 545–60.
  16. Ugyanott.
  17. Ma, J. D., K. C. Lee és G. M. Kuo. „A farmakogenomika klinikai alkalmazása”. Journal of Pharmacy Practice 25, sz. 4 (2012): 417–27.
  18. Leon-Cachon, R. B., J. A. Ascacio-Martinez és H. A. Barrera-Saldana. "Egyéni válasz a gyógyszeres terápiára: alapok és vizsgálati megközelítések." Revista de Investigación Clínica 64. sz. 4 (2012): 364–76.
  19. Salari, K., H. Watkins és E. A. Ashley. „Személyre szabott orvoslás: remény vagy felhajtás?” European Heart Journal 33. sz. 13 (2012): 1564–70.
  20. Clancy, S. „DNS-törlés és megkettőzés, valamint a kapcsolódó genetikai rendellenességek”. Természetnevelés 1, sz. 1 (2008): 23.
  21. Rogaev, E. I., A. P. Grigorenko, G. Faskhutdinova és mtsai. „A genotípus-elemzés azonosítja a „királyi betegség” okát. Tudomány 326. sz. 5954 (2009): 817.
  22. Mills, R. E., C. T. Luttig, C. E. Larkins és mtsai. "Az emberi genom beszúrási és törlési (INDEL) variációinak kezdeti térképe." Genomkutatás 16. sz. 9 (2006): 1182–90.
  23. Bergeron, B. Esettanulmányok a génekről és a betegségekről: Primer a klinikusok számára. Philadelphia, PA: American College of Physicians, 2004.
  24. Massie, J. és M. Delatycki. "Cisztás fibrózis hordozó szűrése." Gyermek légúti vélemények 14, sz. 4 (2013): 270–75.
  25. Stankiewicz, P. és J. R. Lupski. „Az emberi genom szerkezeti változásai és szerepe a betegségekben.” Az orvostudomány éves áttekintése 61 (2010): 437–55.
  26. Pollex, R. L. és R. A. Hegele. „A példányszám változása az emberi genomban és következményei a szív- és érrendszeri betegségekre.” Keringés 115. sz. 24 (2007): 3130–38.
  27. Eichler, E. E. „Példányszám-változás és emberi betegség”. Természetnevelés 1, sz. 3 (2008): 1.
  28. Check, E. „Human Genome: Patchwork People”. Természet 437. sz. 7062 (2005): 1084–86.
  29. Beckmann, J. S., X. Estivill és S. E. Antonarakis. „Másolatszám-változatok és genetikai tulajdonságok: közelebb áll a fenotípusos és a genotípusos variabilitás felbontásához.” Nature Reviews Genetics 8, sz. 8 (2007): 639–46.
  30. Sebat, J., B. Lakshmi, J. Troge és mtsai. "Nagyléptékű kópiaszám polimorfizmus az emberi genomban." Tudomány 305. sz. 5683 (2004): 525–28.
  31. Girirajan, S., C. D. Campbell és E. E. Eichler. „Emberi másolatszám-változás és összetett genetikai betegség.” Genetika éves áttekintése 45 (2011): 203–26.
  32. Gai, X., H. M. Xie, J. C. Perin és mtsai. "A szinapszis és neurotranszmissziós gének ritka szerkezeti változata az autizmusban." Molekuláris pszichiátria 17. sz. 4 (2012): 402–11.
  33. Zheng, X., F. Y. Demirci, M. M. Barmada és mtsai. „Az Alzheimer-kór pszichózisának genomszintű kópiaszám-variációinak vizsgálata.” Translációs pszichiátria 5 (2015): e574.
  34. Singh, S. M., C. A. Castellani és R. L. O'Reilly. „Példányszám-változási záporok skizofréniában: kialakulóban lévő hipotézis.” Molekuláris pszichiátria 14, sz. 4 (2009): 356–58.
  35. Lathe, W., III, J. Williams, M. Mangan és D. Karolchik. „Genomikus adatforrások: kihívások és ígéretek.” Természetnevelés 1, sz. 3 (2008): 2.
  36. Wheeler, D. L., T. Barrett, D. A. Benson és mtsai. "Az Országos Biotechnológiai Információs Központ adatbázis-forrásai." Nukleinsav kutatás 35 (2007): D5–D12.
  37. NCBI erőforrás-koordinátorok. "Az Országos Biotechnológiai Információs Központ adatbázis-forrásai." Nukleinsav kutatás 41 (2013): D8–D20.
  38. Michailidou, K., P. Hall, A. Gonzalez-Neira és mtsai. „A nagyléptékű genotipizálás 41 új lókuszt azonosít, amelyek a mellrák kockázatával kapcsolatosak.” Természetgenetika 45, sz. 4 (2013): 353–61, 361e1–361e2.
  39. Lappalainen, I., J. Lopez, L. Skipper és mtsai. „DbVar és DGVa: Nyilvános archívumok a genomiális szerkezeti variációkhoz.” Nukleinsav kutatás 41 (2013): D936–D941.
  40. MacDonald, J. R., R. Ziman, R. K. Yuen és munkatársai. „A genomi variánsok adatbázisa: az emberi genom strukturális variációinak összegyűjtött gyűjteménye.” Nukleinsav kutatás 42 (2014): D986–D992.
  41. Hamosh, A., A. F. Scott, J. S. Amberger és mtsai. "Online Mendel-öröklődés az emberben (OMIM), az emberi gének és genetikai rendellenességek tudásbázisa." Nukleinsav kutatás 33 (2005): D514–D517.
  42. Stenson, P. D., M. Mort, E. V. Ball és mtsai. „Az emberi génmutációs adatbázis: átfogó mutációs tár felépítése a klinikai és molekuláris genetikához, diagnosztikai teszteléshez és személyre szabott genomiális gyógyászathoz.” Humán genetika 133. sz. 1 (2014): 1–9.
  43. Landrum, M. J., J. M. Lee, M. Benson és mtsai. „ClinVar: Az értelmezési változatokhoz való hozzáférés javítása és a bizonyítékok támogatása.” Nukleinsav kutatás 46 (2018): D1062–D1067.
  44. Cariaso, M. és G. Lennon. „SNPedia: A személyes genom annotációt, értelmezést és elemzést támogató Wiki.” Nukleinsav kutatás 40 (2012): D1308–D1312.
  45. Stitziel, N. O., A. Kiezun és S. Sunyaev. „Számítási és statisztikai megközelítések az exome szekvenálás által azonosított változatok elemzéséhez.” Genombiológia 12, sz. 9 (2011): 227.
  46. 1000 Genomes Project Consortium. „Az emberi genom variációinak térképe a populációs léptékű szekvenálásból.” Természet 467. sz. 7319 (2010): 1061–73.
  47. Quintánsa, B., A. Ordóñez-Ugaldea, P. Cacheiroa, et al. "Orvosi genomika: bonyolult út a genetikai variáns azonosítástól a klinikai értelmezésig." Alkalmazott és transzlációs genomika 3, sz. 3 (2014): 60–67.
  48. Altmann, A., P. Weber, C. Quast és mtsai. „vipR: Variant Identification in Pooled DNS using R.” Bioinformatika 27. sz. 13. (2011): i77–i84.
  49. McCarthy, D. J., P. Humburg, A. Kanapin és mtsai. „Az átiratok és a szoftverek megválasztása nagy hatással van a változat megjegyzéseire.” Genom Medicina 6, sz. 3 (2014): 26.
  50. Pabinger, S., A. Dander, M. Fischer és mtsai. „A következő generációs genomszekvenálási adatok variánselemzésére szolgáló eszközök felmérése.” Bioinformatikai tájékoztatók 15, sz. 2 (2014): 256–78.
  51. McLaren, W., B. Pritchard, D. Rios és mtsai. „A genomi variánsok következményeinek levezetése az Ensembl API és az SNP Effect Predictor segítségével.” Bioinformatika 26. sz. 16 (2010): 2069–70.
  52. Ge, D., E. K. Ruzzo, K. V. Shianna és mtsai. „SVA: Szoftver a szekvenált emberi genomok annotálásához és megjelenítéséhez.” Bioinformatika 27. sz. 14 (2011): 1998–2000.
  53. Nielsen, C. B., M. Cantor, I. Dubchak és mtsai. "Genomok vizualizálása: technikák és kihívások." Természeti módszerek 7, sz. 3S (2010): S5–S15.
  54. Thorvaldsdottir, H., J. T. Robinson és J. P. Mesirov. „Integrative Genomics Viewer (IGV): Nagy teljesítményű genomikai adatok megjelenítése és feltárása.” Bioinformatikai tájékoztatók 14, sz. 2 (2013): 178–92.
  55. Raney, B. J., T. R. Dreszer, G. P. Barber és mtsai. „A Track Data Hubs lehetővé teszi a felhasználó által meghatározott genomszintű megjegyzések megjelenítését az UCSC Genome Browserben.” Bioinformatika 30, sz. 7 (2014): 1003–5.
  56. Sturtevant, A. „A hat nemhez kötődő tényező lineáris elrendeződése Drosophilában, ahogy azt asszociációs módjuk is mutatja.” Journal of Experimental Biology 14 (1913): 43–59.
  57. Bras, J., R. Guerreiro és J. Hardy. „A következő generációs szekvenálás és más teljes genom-stratégiák használata a neurológiai betegségek boncolására.” Nature Reviews Neuroscience 13, sz. 7 (2012): 453–64.
  58. Alzu’bi, A. és L. Zhou. "Integrált beteggenomikai információkezelő és elemző rendszer egészségügyi szakemberek számára." Ban ben 2017 IEEE International Conference on Healthcare Informatics. Los Alamitos, CA: IEEE Computer Society, 2017, 107–13.
  59. Akgün, M. és H. Demirci. "VCF-Explorer: A teljes genom VCF-fájlok szűrése és elemzése." Bioinformatika 33. sz. 21 (2017): 3468–70.
  60. Müller, H., R. Jimenez-Heredia, A. Krolo és mtsai. "VCF.Filter: A betegséggel összefüggő genetikai változatok interaktív priorizálása szekvenálási adatokból." Nukleinsav kutatás 45, sz. W1 (2017): W567–W572.
  61. Pietrelli, A. és L. Valenti. "myVCF: Asztali alkalmazás nagy teljesítményű mutációk adatkezeléséhez." Bioinformatika 33. sz. 22 (2017): 3676–78.
  62. Vandeweyer, G., L. Laer, B. Loeys és mtsai. "VariantDB: Rugalmas annotációs és szűrési portál a következő generációs szekvenálási adatokhoz." Genom Medicina 6, sz. 10 (2014): 74.
  63. Alzu’bi, A., L. Zhou és V. Watzlaf. „Személyes genomikai információkezelés és személyre szabott orvoslás: kihívások, jelenlegi megoldások és a HIM-szakemberek szerepei.” Perspektívák az egészségügyi információkezelésben (2014 tavasza).

Amal Adel Alzu’bi, PhD Leming Zhou, PhD, DSc és Valerie J. M. Watzlaf, MPH, PhD, RHIA, FAHIMA. "Genetikai variációk és precíziós orvoslás." Perspektívák az egészségügyi információkezelésben (2019. tavasz): 1-14.


Nézd meg a videót: Secuenciacion de siguiente generacion NGS- ILUMINA y PACBIO (Június 2022).


Hozzászólások:

  1. Fenos

    I agree, this thought will come in handy

  2. Wikvaya

    Azt javaslom, látogasson el az oldalra, amely sok információt tartalmaz erről a kérdésről.

  3. Ottokar

    Javasolhatom, hogy látogasson el a webhelyre, és hatalmas számú cikksel rendelkezik a témáról, amely érdekli.

  4. Nerisar

    Úgy gondolom, hogy tévedsz. Bizonyíthatom.



Írj egy üzenetet