A gdzie drugi jeż?: 23andMe

Pokazywanie postów oznaczonych etykietą 23andMe. Pokaż wszystkie posty

piątek, 19 maja 2017

Delecje

http://agdziedrugijez.pl/hg19/cytobands/cytobands.html

Na rysunku powyżej widać fragment programu do wyszukiwania dużych delecji w wynikach z 23andMe. Wyniki z 23andMe nie są stworzone do tego aby szukać w nich delecji. Jeśli szukasz dużych delecji (~100 tyś. bp) to dobrym sposobem wydają się mikromacierze, jeśli szukasz krótkich delecji (~100 bp) to badania WES/WGS będą pomocne. Do wyniku wyszukiwania dużych delecji w wynikach z 23andMe należy podchodzić ostrożnie. Wyszukiwanie opiera się na kilku założeniach. Po pierwsze zakładam, że delecja na dwóch bliźniaczych chromosomach skutkuje wartością '--' w wyniku. Taka wartość może się też pojawić, niestety z innych powodów. Druga sprawa to taka, że w dużym fragmencie kolejnych wariantów z wartością '--' nie dopuszczam innych wartości, żeby uznać dany fragment za delecję. Takie pojedyncze warianty z innymi oznaczeniami mogłyby się pojawić za sprawą homologów/ortologów/paralogów czy pseudogenów. Jeśli tak będzie to taki fragment nie zostanie uznany za delecję (być może przydałoby się wprowadzić do programu pewną tolerancję na tego typu rzeczy). O ile delecja na parze chromosomów wydaje się, że skutkuje oznaczeniem '--' (w wynikach są też oznaczenia 'DD' oznaczające delecje, ale nie o takie delecje chodzi) to delecja na pojedynczym chromosomie jest bardziej problematyczna. Prawdopodobnie skutkuje ona tym, że pewien spory fragment kolejnych wyników dla wariantów składa się wyłącznie z genotypów o dwóch takich samych allelach. Ta sytuacja wcale nie musi być patologiczna i nie musi oznaczać delecji. Żeby błędnie nie zakwalifikować takiego czegoś jako delecji należało ustawić duże wartości w parametrach dla wykrywania delecji na pojedynczym chromosomie.

Obsługa programu jest bardzo prosta. Po naciśnięciu przycisku "przeglądaj" wybiera się plik z surowymi danymi. Program rozpoczyna pracę automatycznie najpierw pobierając plik, następnie go odczytując. W kolejnej fazie zaznacza na obrazku z chromosomami odpowiednie obszary, które podlegały genotypowaniu, na podstawie wczytanego pliku. W tym samym czasie próbuje wykryć delecje i jeśli tak się stanie rysuje odpowiednie informacje i dodaje info o tym co zostało znalezione (na spodzie strony). Oznaczone w wyniku warianty rysowane są kolorem zielonym, znalezione delecje na obu chromosomach kolorem czerwonym a na jednym chromosomie kolorem pomarańczowym. Można zmienić parametry wyszukiwania i/lub skalę obrazka i nacisnąć przycisk rysuj. Wykres zostanie ponownie narysowany dla zmienionych danych.

Jakie delecje można wykryć

Wykrycie delecji zależy od gęstości wariantów w danym zakresie i od ustawień programu. Jeśli ustawimy, że interesują nas duże delecje to jeśli program coś wykryje to jest większa szansa, że to co zrobił jest poprawne. Jeśli zmniejszymy parametry programu tak, żeby wykrywać mniejsze delecje to program stanie się bardziej "czuły", ale zaczynają wkradać się nieprawidłowości (wyniki fałszywie pozytywne). Poniżej przedstawionych zostało kilka przykładów wyszukiwania delecji w (spreparowanych) wynikach z 23andMe. Przykłady zostały przygotowane na podstawie dostępnej literatury medycznej opisującej wykryte delecje.

Delecja 22q11

Na rysunku obok widzimy delecję na 22 chromosomie w okolicach locus q12. Obrazek przedstawie delecje dla trzech różnych pacjentów powiększone w programie do wielkości x8. Kolorem czerwonym zaznaczono co prezentowałby program gdyby delecja dotyczyła obu chromosomów, kolorem pomarańczowym gdyby delecja dotyczyła tylko jednego chromosomu. Delecja tego regionu występuje z częstotliwością 1/4000 i skutkuje opóźnieniem rozwoju, opóźnieniem mowy, problemami z nauką, zachowaniami ze spektrum autyzmu i ADHD. Czasami symptomy mogą być na tyle łagodne, że opóźniają właściwą diagnozę.

Delecja 22q13

Delecja 22q13.3 nosi też nazwę zespołu Phelan-McDermida. Częstotliwość występowania nie jest znana, ale podejrzewa się, że jest bardzo niska. W rejonie 22q13 występuje gen SHANK3, silnie powiązany z autyzmem. Dlatego też delecje w rejonie 22q13 skutkują objawami ze spektrum autyzmu. Na rysunku obok widać rzeczywistych 5 przypadków delecji w tym rejonie zaczerpniętych z literatury. To co się rzuca w oczy to to, że rozmiary tych delecji są radykalnie różne. W przypadku drugiego pacjenta widać, że doszło do delecji całego locus q13.31, podczas gdy u trzeciego pacjenta widać, że brakuje tylko krótkiego fragmentu w locus q13.33. Co więcej, ta delecja nie zostanie znaleziona przez opisywany program na standardowych ustawieniach, trzeba zmniejszyć do 10 ilość kolejnych wariantów z '--' w parametryzacji.

Delecja 1p36

Po lewej widzimy delecję na pierwszym chromosomie. Występuje z częstotliwością około 1/5000. Osoby z tą delecją dotknięte są często różnymi dymorfizmami. Ich rozwój umysłowy jest także nieprawidłowy.

Konkluzja

Wiele osób wykonuje badania w 23andMe. Nie są to drogie badania, ale nie niosą tyle informacji co np.: WES czy NGS. Wydaje się, że dziecko dotknięte różnymi dymorfizmami, cierpiące na padaczkę czy z ciężkim upośledzeniem umysłowym powinno mieć pogłębioną diagnostykę genetyczną. W praktyce okazuje się, że badania kariotypu czy MLPA niczego nie wykrywają a z uwagi na to, że za mikromacierze czy WES muszą zapłacić rodzice to badania te nie są wykonywane. Opisywany tutaj program stara się wykryć duże delecje w wynikach z 23andMe. Oczywiście, wszystkiego co wykryje ten program nie należy brać za "dobrą" monetę i trzeba potwierdzić znalezisko w odpowiednim badaniu genetycznym (mikromacierze, WES). Być może istnieją osoby, które nie zdecydowały się na mikromacierze czy WES a wykonały badanie w 23andMe i może są rzeczywiście posiadaczami jakiejś dużej delecji. Opisywane na tej stronie przykłady kilku delecji nie wyczerpują możliwości opisywanego programu. Stanowią jedynie przykład. Jeśli ktoś ma ochotę to zapraszam do korzystania z programu. Należy się wyczulić na to, że program prawdopodobnie pokaże problem w rejonie chromosomów X i/lub Y. Dla kobiet będzie zgłaszał błąd, że nie ma dużej ilości danych na chromosomie Y (hmmm, właściwie całego chromosomu). W przypadku chromosomu X wydaje się, że 23andMe ma jakiś problem z genotypowaniem i czasem brakuje dużych fragmentów tego genu. Nie sądzę, że tak jest w rzeczywistości, raczej to błąd po stronie 23andMe. Wydaje się, że można spokojnie zignorować wskazywane delecje na chromosomie X i Y.

Program znajduje się pod adresem: http://agdziedrugijez.pl/hg19/cytobands/cytobands.html

środa, 29 marca 2017

Kolorowe szlaki KEGG

Podobno jeden obraz jest wart więcej niż 1000 słów.

Dzisiejszy post będzie dotyczył genetyki ale w trochę inny sposób. Będą obrazki. Obrazki zapożyczyłem z KEGG. KEGG to akronim od Kyoto Encyclopedia of Genes and Genomes i ja osobiście najbardziej kojarzę tę bazę z ręcznie rysowanych map szlaków reprezentujących naszą wiedzę na temat interakcji pomiędzy molekułami.

Post ten jest najbardziej użyteczny dla tych osób, które wykonywały badania w 23andMe lub MTHFR Genetics i posiadają tzw. surowe dane (ang. raw data). Osoby, które wykonały WES lub WGS i posiadają plik wariantów (VCF) nie będą mogły skorzystać z opisanego narzędzia, ale jeśli byłaby taka potrzeba to mogę te narzędzie odpowiednio zaadoptować. Mając plik z surowymi danymi możemy wczytać go do programu i pooglądać trochę obrazków. Zanim jednak do tego przejdziemy to trochę wspomniemy o ograniczeniach opisywanego programu.

Najpoważniejsze ograniczenie wiąże się z badaniem genetycznym w 23andMe lub MTHFR Genetics, które dostarcza opisywanemu narzędziu danych wejściowych. Badanie to określa tylko pewne, wybrane polimorfizmy, w żaden sposób nie można go traktować jako pełne sprawdzenie genomu lub eksomu. Istnieją ogromne ilości wariantów, które uznawane są za patologiczne a nie będzie ich w wynikach z 23andMe i MTHFR Genetics. Nawet dysponując wynikami WES lub WGS skazani jesteśmy na pewne ograniczenia - badania te nie sprawdzają się w wielu mutacjach dynamicznych oraz CNV. Z CNV możemy sobie częściowo poradzić za pomocą tzw. mikromacierzy, ale niektóre rzeczy i tak im umkną i trzeba zrobić dedykowane badanie (łamliwy chromosom X).

Kolejne ograniczenie to obrazy z bazy danych KEGG. W wynikach genetycznych może być jakiś bardzo poważnych, patologiczny wariant (np.: mutacja w genie POR powodująca objawy podobne do zespółu Antleya-Bixlera) ale nie dowiemy się o tym, bo na żadnym z obrazów nie będzie pokazany gen, w którym byłby ten wariant. Do poszukiwania rzadkich, patologicznych wariantów lepiej używać innych narzędzi.

Ostatnie ograniczenie dotyczy wybranego rozwiązania. Ponieważ zdecydowałem się, żeby program był na stronie internetowej (łatwiejsza dostępność dla większości użytkowników, brak konieczności instalowania i uruchamiania czegoś na lokalnym komputerze użytkownika, itd.) to program nie wyświetla tylu informacji ile być może warto byłoby wyświetlić.

Krótko o KEGG

Na stronie http://www.genome.jp/kegg/pathway.html znajdziemy setki ręcznie rysowanych map pogrupowanych w różne kategorie. Spośród wymienionych powyżej kategorii opisywany program obsługuje w chwili obecnej dwie: "Metabolism" oraz "Organismal Systems". W zależności od potrzeb mogę dość łatwo dorobić pozostałe. Te dwie wybrałem bo chciałem zobaczyć na wykresach metabolizm witamin oraz system nerwowy, choć zapewne są też inne ciekawe rzeczy do zobaczenia.

Przykładowa, ręcznie rysowania mapa szlaku biotyny (witaminy B7) poniżej.

Opis programu

Program można znaleźć pod adresami: http://agdziedrugijez.pl/hg19/kegg/metabolism.html i http://agdziedrugijez.pl/hg19/kegg/organismalsystems.html (niestety dla osobnych grup map zrobiłem osobne strony). Wejście na powyższe strony spowoduje, że naszym oczom ukaże się następujący obraz (na obrazie poniżej widać tylko fragment strony). Uwaga! Strona ładuje się dość długu (może nawet z minutę) z uwagi na ściąganie wielu danych.

To co trzeba teraz zrobić to wczytać plik z surowymi danymi i przeglądać wybrane mapy. Poniżej można zobaczyć jak wygląda mapa "Steroid biosynthesis" po wczytaniu pliku z moimi danymi. Na szaro oznaczyłem te enzymy, które wydają się nie istnieć u ludzi (ale inne organizmy mogą je mieć, stąd znajdują się na rysunku). W każdy enzym obrysowany niebieską ramką można kliknąć i zaprezentują się informacje z wyniku genetycznego powiązane z tym enzymem.

Na obrazku powyżej widać, że kliknąłem w enzym 2.5.1.21 (czyli squalene synthase) i w moich wynikach zostało znalezione, że mam pewne warianty związane z genem FDFT1, który koduje ten enzym. Wszystkie warianty połączone z tym enzymem, a które znajdują się w pliku z wynikami, zostaną zaprezentowane po lewej stronie. Dla każdego wariantu wyświetlane są pewne informacje z wczytywanego pliku: rsid (identyfikator wariantu), chrom (oznaczenie chromosomu), pos (pozycja na chromosomie) oraz genotype (genotyp). Dodatkowo, jeśli tylko istnieją, to prezentowane są też inne informacje. I tak, na przykład, z załączonego powyżej obrazka możemy się dowiedzieć, że wariant rs11549147 występuje u około 13% ludzi (jeśli bierzemy pod uwagę to co jest na opensnp.org). W bazie ExAC allel G dla tego wariantu występuje u około 6% osób, a w bazie 1000 Genomes u około 3% osób. Algorytmy do predykcji wpływu tego wariantu na wynikowe białko sugerują, że jest on mały (SIFT oznaczył go jako tolerated a PolyPhen2 jako bening).

Oczywiście, jeśli w naszych wynikach byłby jakiś wariant który np.: powoduje SLOS to byłoby to widać w następujący sposób:

To co się rzuca w oczy na powyższym obrazku to to, że enzym 1.3.1.21 został pokolorowany na czerwono. Dlaczego tak się stało? Nie, nie dlatego, że program jakoś specjalnie obsługuje ten wariant. Stało się tak dlatego, że program wyliczył dla niego wysoką punktację. Dla każdego z enzymów program wylicza punktację biorąc pod uwagę wczytane polimorfizmy oraz zadaną parametryzację. Ponieważ wariant i5012821 praktycznie nie występuję w bazie opensnp.org (wartość 0 dla pola 23andMe), baza clinvar określa, że ten wariant jest patogeniczny a także ontologia sekwencji wskazuje, że wpływ tego wariantu na kodowane białko jest wysoki to mamy taki wynik a nie inny. Punktacja jest podawana w nawiasach okrągłych. Im wyższa tym gorzej. Oczywiście, tutaj od razu ostrzeżenie, że to kolorowanie ma jedynie charakter eksperymentalny i służy jako wabik, żeby kliknąć w to czerwone i zobaczyć co się za tym kryje.

Kolejne dwa obrazy dotyczą danych jednej z osób z ASD. Z zaprezentowanych obrazów widać, że osoba jest posiadaczem kilku bardzo rzadko występujących wariantów. Żaden z tych wariantów nie znajduje się jednak na eksomie jakiegoś transkryptu (wartość 0 przy etykiecie exoms) i w związku z tym trudno tutaj wyciągać wniosku co do tego jaki to ma wpływ (na kodowanie białka nie ma raczej wpływu, ale może na ekspresję). W każdym razie jest tutaj pięć rzadkich wariantów i dlatego czerwony kolor.

Na stronie programu znajduje się legenda, która dotyczy parametryzacji programu (można ustawiać wagi, gdzie waga domyślna to 1 i jeśli coś jest poniżej 1 to jest mniej istotne niż kiedy jest powyżej 1) oraz kolorowania. Generalnie użyte są 3 kolory: zielony, żółty i czerwony. Jeśli coś się świeci na żółto lub czerwono to warto w to kliknąć. Przypomnijmy jeszcze raz, że kolorowanie jest tutaj eksperymentalne i nie należy jakoś specjalnie na nim polegać. To taki wabik mający na celu skuszenie użytkownika żeby spojrzał w daną stronę.

Trzeba czasami też brać pod uwagę, że w wynikach z 23andMe lub MTHFR Genetics są błędy. Generalnie należy być bardzo podejrzliwym w stosunku do wariantów oznaczonych za pomocą literki i na początku. Poniżej obrazek, który będzie się często pojawiał wielu ludziom i charakterystyczny dla choroby Gauchera. Nie ma się jednak co przejmować, poniższa sytuacja jest wynikiem (prawdopodobnie) błędnych wpisów w wynikach z 23andMe lub MTHFR Genetics oraz tego, że mój program nie "odsiewa" wpisów bez nadanych numerów rsid (łatwo mógłbym zrobić takie "odsiewanie", ale nie chce tracić żadnej informacji, nawet jeśli czasem narażam się na ryzyko, że będzie nieprawidłowa).

Pozostaje jeszcze na koniec pytanie: czy takie mapy są potrzebne, żeby dociekać problemów wykazywanych w badaniach genetycznych? Oczywiście, że nie. Pomijając fakt, że genetycy nie pracują na wynikach z 23andMe lub MTHFR Genetics (w zasadzie trudno się dziwić) to potrafią sobie łatwo sprawdzić (jest do tego trochę narzędzi) do jakiej układanki pasuje znaleziony wariant w jakiś genie. Takie mapy to raczej coś dla amatorów z wynikami z 3andMe lub MTHFR Genetics.

Jeśli ktoś ma pomysł jak usprawnić powyższe narzędzie to wszelkie konstruktywne uwagi mile widziane.

Miłego użytkowania.

wtorek, 13 grudnia 2016

Badanie genetyczne

Dzisiejszy post będzie dotyczył badań genetycznych wykonywanych za pośrednictwem firm 23andMe oraz MTHFR Genetics (która zleca badania firmie 23andMe). Znam kilka osób, które wykonały takie badania swoim dzieciom i to co tutaj opiszę być może się im przyda. Wydaje mi się, że badaniami genetycznymi, które powinno się wykonać u dzieci z diagnozą autyzmu są FraX, mikromacierze aCGH i WES. Badania genetyczne wykonywane za pośrednictwem firmy 23andMe są w porównaniu z wcześniej wymienionymi, w mojej opinii, dużo mniej użyteczne. Niemniej jednak jeśli ktoś już je wykonał to może pokusić się "poszperanie" w otrzymanych wynikach.

Wiele osób interesują jedynie wybrane polimorfizmy (np.: dla genów MTHFR, CBS, itd.) a ja chciałbym zaproponować alternatywne podejście. To podejście trochę przypomina szukanie podejrzanych wariantów w wynikach WES. Różnica jest taka, że mamy tutaj do czynienia jedynie z wybranymi wariantami (a nie materiałem genetycznym dla całego eksomu) i nie korzystamy z uznanych narzędzi do analizy/annotowania wariantów (np.: VEP, SnpEff, Annovar). Można byłoby wynik otrzymany z 23andMe przekonwertować do formatu VCF i wtedy użyć wspomnianych wcześniej narzędzi, niemniej jednak korzystanie z tych narzędzi może nastręczać początkującym pewne problemy. Z tego powodu zdecydowałem się stworzyć proste narzędzie, które wczyta wynik z 23andMe i w rezultacie zwróci plik w formacie csv, który będzie można otworzyć w arkuszu kalkulacyjnym. Dodatkowe dane (annotacje) pojawią się w dedykowanych kolumnach. Ten sposób wydaje mi się prostszy dla większości osób. Niestety, dalszą analizę (czyli np.: grzebanie w publikacjach naukowych) trzeba wykonać samemu. Stworzony przeze mnie program ma jedynie ułatwić wybranie zdecydowanie mniejszego podzbioru wariantów do analizy. Na stronie programu umieściłem instrukcję.

Program znajduje się pod adresem: http://agdziedrugijez.pl/hg19/23andme/annotate.html.

Zachęcam do korzystania.