Podobno jeden obraz jest wart więcej niż 1000 słów.
Dzisiejszy post będzie dotyczył genetyki ale w trochę inny sposób. Będą obrazki. Obrazki zapożyczyłem z KEGG. KEGG to akronim od Kyoto Encyclopedia of Genes and Genomes i ja osobiście najbardziej kojarzę tę bazę z ręcznie rysowanych map szlaków reprezentujących naszą wiedzę na temat interakcji pomiędzy molekułami.
Post ten jest najbardziej użyteczny dla tych osób, które wykonywały badania w 23andMe lub MTHFR Genetics i posiadają tzw. surowe dane (ang. raw data). Osoby, które wykonały WES lub WGS i posiadają plik wariantów (VCF) nie będą mogły skorzystać z opisanego narzędzia, ale jeśli byłaby taka potrzeba to mogę te narzędzie odpowiednio zaadoptować. Mając plik z surowymi danymi możemy wczytać go do programu i pooglądać trochę obrazków. Zanim jednak do tego przejdziemy to trochę wspomniemy o ograniczeniach opisywanego programu.
Najpoważniejsze ograniczenie wiąże się z badaniem genetycznym w 23andMe lub MTHFR Genetics, które dostarcza opisywanemu narzędziu danych wejściowych. Badanie to określa tylko pewne, wybrane polimorfizmy, w żaden sposób nie można go traktować jako pełne sprawdzenie genomu lub eksomu. Istnieją ogromne ilości wariantów, które uznawane są za patologiczne a nie będzie ich w wynikach z 23andMe i MTHFR Genetics. Nawet dysponując wynikami WES lub WGS skazani jesteśmy na pewne ograniczenia - badania te nie sprawdzają się w wielu mutacjach dynamicznych oraz CNV. Z CNV możemy sobie częściowo poradzić za pomocą tzw. mikromacierzy, ale niektóre rzeczy i tak im umkną i trzeba zrobić dedykowane badanie (łamliwy chromosom X).
Kolejne ograniczenie to obrazy z bazy danych KEGG. W wynikach genetycznych może być jakiś bardzo poważnych, patologiczny wariant (np.: mutacja w genie POR powodująca objawy podobne do zespółu Antleya-Bixlera) ale nie dowiemy się o tym, bo na żadnym z obrazów nie będzie pokazany gen, w którym byłby ten wariant. Do poszukiwania rzadkich, patologicznych wariantów lepiej używać innych narzędzi.
Ostatnie ograniczenie dotyczy wybranego rozwiązania. Ponieważ zdecydowałem się, żeby program był na stronie internetowej (łatwiejsza dostępność dla większości użytkowników, brak konieczności instalowania i uruchamiania czegoś na lokalnym komputerze użytkownika, itd.) to program nie wyświetla tylu informacji ile być może warto byłoby wyświetlić.
Krótko o KEGG
Na stronie http://www.genome.jp/kegg/pathway.html znajdziemy setki ręcznie rysowanych map pogrupowanych w różne kategorie. Spośród wymienionych powyżej kategorii opisywany program obsługuje w chwili obecnej dwie: "Metabolism" oraz "Organismal Systems". W zależności od potrzeb mogę dość łatwo dorobić pozostałe. Te dwie wybrałem bo chciałem zobaczyć na wykresach metabolizm witamin oraz system nerwowy, choć zapewne są też inne ciekawe rzeczy do zobaczenia.
Przykładowa, ręcznie rysowania mapa szlaku biotyny (witaminy B7) poniżej.
Opis programu
Program można znaleźć pod adresami: http://agdziedrugijez.pl/hg19/kegg/metabolism.html i http://agdziedrugijez.pl/hg19/kegg/organismalsystems.html (niestety dla osobnych grup map zrobiłem osobne strony). Wejście na powyższe strony spowoduje, że naszym oczom ukaże się następujący obraz (na obrazie poniżej widać tylko fragment strony). Uwaga! Strona ładuje się dość długu (może nawet z minutę) z uwagi na ściąganie wielu danych.
To co trzeba teraz zrobić to wczytać plik z surowymi danymi i przeglądać wybrane mapy. Poniżej można zobaczyć jak wygląda mapa "Steroid biosynthesis" po wczytaniu pliku z moimi danymi. Na szaro oznaczyłem te enzymy, które wydają się nie istnieć u ludzi (ale inne organizmy mogą je mieć, stąd znajdują się na rysunku). W każdy enzym obrysowany niebieską ramką można kliknąć i zaprezentują się informacje z wyniku genetycznego powiązane z tym enzymem.
Na obrazku powyżej widać, że kliknąłem w enzym 2.5.1.21 (czyli squalene synthase) i w moich wynikach zostało znalezione, że mam pewne warianty związane z genem FDFT1, który koduje ten enzym. Wszystkie warianty połączone z tym enzymem, a które znajdują się w pliku z wynikami, zostaną zaprezentowane po lewej stronie. Dla każdego wariantu wyświetlane są pewne informacje z wczytywanego pliku: rsid (identyfikator wariantu), chrom (oznaczenie chromosomu), pos (pozycja na chromosomie) oraz genotype (genotyp). Dodatkowo, jeśli tylko istnieją, to prezentowane są też inne informacje. I tak, na przykład, z załączonego powyżej obrazka możemy się dowiedzieć, że wariant rs11549147 występuje u około 13% ludzi (jeśli bierzemy pod uwagę to co jest na opensnp.org). W bazie ExAC allel G dla tego wariantu występuje u około 6% osób, a w bazie 1000 Genomes u około 3% osób. Algorytmy do predykcji wpływu tego wariantu na wynikowe białko sugerują, że jest on mały (SIFT oznaczył go jako tolerated a PolyPhen2 jako bening).
Oczywiście, jeśli w naszych wynikach byłby jakiś wariant który np.: powoduje SLOS to byłoby to widać w następujący sposób:
To co się rzuca w oczy na powyższym obrazku to to, że enzym 1.3.1.21 został pokolorowany na czerwono. Dlaczego tak się stało? Nie, nie dlatego, że program jakoś specjalnie obsługuje ten wariant. Stało się tak dlatego, że program wyliczył dla niego wysoką punktację. Dla każdego z enzymów program wylicza punktację biorąc pod uwagę wczytane polimorfizmy oraz zadaną parametryzację. Ponieważ wariant i5012821 praktycznie nie występuję w bazie opensnp.org (wartość 0 dla pola 23andMe), baza clinvar określa, że ten wariant jest patogeniczny a także ontologia sekwencji wskazuje, że wpływ tego wariantu na kodowane białko jest wysoki to mamy taki wynik a nie inny. Punktacja jest podawana w nawiasach okrągłych. Im wyższa tym gorzej. Oczywiście, tutaj od razu ostrzeżenie, że to kolorowanie ma jedynie charakter eksperymentalny i służy jako wabik, żeby kliknąć w to czerwone i zobaczyć co się za tym kryje.
Kolejne dwa obrazy dotyczą danych jednej z osób z ASD. Z zaprezentowanych obrazów widać, że osoba jest posiadaczem kilku bardzo rzadko występujących wariantów. Żaden z tych wariantów nie znajduje się jednak na eksomie jakiegoś transkryptu (wartość 0 przy etykiecie exoms) i w związku z tym trudno tutaj wyciągać wniosku co do tego jaki to ma wpływ (na kodowanie białka nie ma raczej wpływu, ale może na ekspresję). W każdym razie jest tutaj pięć rzadkich wariantów i dlatego czerwony kolor.
Na stronie programu znajduje się legenda, która dotyczy parametryzacji programu (można ustawiać wagi, gdzie waga domyślna to 1 i jeśli coś jest poniżej 1 to jest mniej istotne niż kiedy jest powyżej 1) oraz kolorowania. Generalnie użyte są 3 kolory: zielony, żółty i czerwony. Jeśli coś się świeci na żółto lub czerwono to warto w to kliknąć. Przypomnijmy jeszcze raz, że kolorowanie jest tutaj eksperymentalne i nie należy jakoś specjalnie na nim polegać. To taki wabik mający na celu skuszenie użytkownika żeby spojrzał w daną stronę.
Trzeba czasami też brać pod uwagę, że w wynikach z 23andMe lub MTHFR Genetics są błędy. Generalnie należy być bardzo podejrzliwym w stosunku do wariantów oznaczonych za pomocą literki i na początku. Poniżej obrazek, który będzie się często pojawiał wielu ludziom i charakterystyczny dla choroby Gauchera. Nie ma się jednak co przejmować, poniższa sytuacja jest wynikiem (prawdopodobnie) błędnych wpisów w wynikach z 23andMe lub MTHFR Genetics oraz tego, że mój program nie "odsiewa" wpisów bez nadanych numerów rsid (łatwo mógłbym zrobić takie "odsiewanie", ale nie chce tracić żadnej informacji, nawet jeśli czasem narażam się na ryzyko, że będzie nieprawidłowa).
Pozostaje jeszcze na koniec pytanie: czy takie mapy są potrzebne, żeby dociekać problemów wykazywanych w badaniach genetycznych? Oczywiście, że nie. Pomijając fakt, że genetycy nie pracują na wynikach z 23andMe lub MTHFR Genetics (w zasadzie trudno się dziwić) to potrafią sobie łatwo sprawdzić (jest do tego trochę narzędzi) do jakiej układanki pasuje znaleziony wariant w jakiś genie. Takie mapy to raczej coś dla amatorów z wynikami z 3andMe lub MTHFR Genetics.
Jeśli ktoś ma pomysł jak usprawnić powyższe narzędzie to wszelkie konstruktywne uwagi mile widziane.
Miłego użytkowania.
Brak komentarzy:
Prześlij komentarz