key: cord-0059207-ssa53kau authors: Dandekar, Thomas; Kunz, Meik title: Lösungen zu den Übungsaufgaben date: 2020-10-27 journal: Bioinformatik DOI: 10.1007/978-3-662-62399-2_20 sha: 55da11f958374691ab36e64a18411245ff524b8a doc_id: 59207 cord_uid: ssa53kau In diesem Teil geben wir Lösungsvorschläge und zusätzliche Erklärungen zu den Übungsaufgaben. Bei einem eigenen Programm würde man also zunächst die Sequenz einlesen (Eingabeteil), dann mit einem Algorithmus ("Two-Hit-Methode") die Ähnlichkeit zu den Einträgen in der Datenbank berechnen (Verarbeitungs-bzw. Rechenteil; natürlich muss man vorher die Referenzdatenbank erstellt haben), und schließlich gibt es eine schöne Ausgabeliste (Liste mit Treffern und statistischen Parametern). Antwort B Der BLAST-Algorithmus kann eine Reihe von Suchen durchführen, z. B. blastn für eine Nukleotid-und blastp für eine Proteinsequenz. Er kann aber noch viel mehr, z. B. blastx übersetzt eine Nukleotid-in eine Protein-Sequenz und sucht dann gegen die Protein-Datenbank, tblastn sucht mit einer Protein-Sequenz gegen eine übersetzte Nukleotid-Datenbank, und tblastx sucht mit einer übersetzten Nukleotid-Sequenz gegen eine übersetzte Nukleotid-Datenbank. ◄ Antwort A, D Der Sequenzvergleich mit BLAST sagt zunächst einmal, was die Funktion der Sequenz ist (welches Stück von welchem Virus hier als Sequenz vorliegt). In dem Beispiel sollte die blastp-Suche das pol-Protein und Protease des HIV-1 gefunden haben. Ein weiterer wichtiger Output ist der E-Value (Erwartungswert). Dieser gibt an, dass mein ausgegebenes Alignment mit einem ähnlichen oder besseren Score noch mal in der Datenbank gefunden wird, er ist also von der Größe der Datenbank abhängig (im Gegensatz zum p-Value). Wenn man nach einer möglichst hohen Ähnlichkeit sucht, sollte der gewählte BLAST-Treffer einen möglichst kleinen E-Value und eine hohe Identität haben. Sollte die blastp-Suche nicht das pol-Protein und die Protease des HIV-1 gefunden haben, dann probieren Sie es doch am besten so: Da es sich um eine Proteinsequenz handelt, wählen Sie bitte eine blastp-Suche und kopieren die unbekannte Sequenz in das Suchfenster, anschließend einfach die BLAST-Suche starten (bitte schauen, ob als Standard die non-redundante Protein-Sequenz-Datenbank eingestellt ist). Exemplarisch sind als Ergebnis vier Treffer dargestellt (Abb. 20.1). ◄ 1. Antwort C, E Die Sekundärstrukturen üben wichtige Funktionen der RNA bei der Regulation der Transkription aus, etwa katalytische Aktivität der Ribosomen (Ribozyme). Die RNA-Sekundärstrukturfaltung ist ein komplexer Prozess, neben einer komplementären Sequenz muss auch noch die Faltungsenergie betrachtet werden. Wobei immer gilt: A paart sich mit U (zwei Wasserstoffbrücken), G mit C (drei Wasserstoffbrücken). Es gibt aber auch weitere Regeln, etwa G paart sich mit U, nur eine Wasserstoffbrücke. Zudem muss auch noch die Faltungsenergie betrachtet werden. Nicht jede Faltung ist auch thermodynamisch optimal (sie sollte immer eine geringe Faltungsenergie haben, denn je geringer die freie Energie ist, umso stabiler ist die Struktur), zumal es auch mehrere Sekundärstrukturformen gibt (z. B. Stem-, Hairpin-und Interior-loop) . Sekundärstrukturen kann man bioinformatisch vorhersagen, was aber nicht ganz einfach ist. Hierfür gibt es verschiedene Algorithmen, die zwar alle auf Methoden der dynamischen Programmierung beruhen, dennoch aber unterschiedlich arbeiten. So kalkuliert der Nussinov-Algorithmus zuerst die maximale Anzahl an Basenpaaren und berechnet dann darauf basierend die Sekundärstruktur mit der maximalen Basenpaarung. Da RNA-Strukturen aber nicht immer die maximal möglichen Basenpaarungen aufweisen, liefert diese Methode nicht immer sinnvolle Ergebnisse. Eine optimalere und schnellere Lösung zur Strukturbestimmung liefern Algorithmen, die auf einer Energieminimierung basieren. Der Zuker-Algorithmus kalkuliert die optimale Sekundärstruktur mit der minimalen freien Energie, basierend auf einem thermodynamischen Modell, z. B. mFold-Server. Der Sankoff-Algorithmus faltet und aligniert hingegen gleichzeitig zwei Sequenzen unter Verwendung eines Energie-Modells, um so die freie Energie zu minimieren, z. B. LocARNA-Programm. Ein nützlicher Online-Webserver zur Sekundärstrukturvorhersage ist ViennaRNA-Webservices (https://rna.tbi.univie.ac.at/). Hier gibt es noch zahlreiche weitere Tools zur RNA-Analyse. Zusätzliche Informationen finden Sie im Buchteil oder bei Kunz et al. (2015) . In dem Übungsbeispiel sollte RNAfold (ebenfalls in ViennaRNA-Webservices, auch basierend auf Energieminimierung) eine mögliche Sekundärstrukturfaltung mit einer minimalen freien Faltungsenergie (minimum free energy) von -360,20 kcal/mol finden. Sollten Sie keine Sekundärstruktur für das Sequenzbeispiel erhalten haben, so sollte Ihr Ergebnis ausschauen (Abb. 20.2; für die Suche bitte Beispielsequenz einfach in das Suchfenster kopieren und die voreingestellten Parameter verwenden). 2. Hier ist wichtig, dass Sie sehen, dass sich die Änderung der frei werdenden Energie nicht automatisch gleich zur Sequenzlänge verhält, also z. B. nicht doppelt so hoch ist. Beispielsweise besitzt die Sequenz ATGCTACGCGATGCATCGAGCGCAT eine Energie von -3,5 kcal/mol und die doppelte Sequenzlänge von -21,5 kcal/mol, wohingegen die Sequenz GCATGACGTAGCAGCCGTACGATAT eine Energie von -2,10 kcal/mol besitzt und die doppelte Länge von -12,40 kcal/mol. ◄ Regulatorische RNA-Elemente kommen beim Menschen, aber auch in anderen Organismen, etwa Bakterien, vor. Beispiele für regulatorische RNA-Elemente sind Ironresponsive elements (IRE) und Riboswitches. Sie übernehmen regulatorische Funktionen und steuern die Transkription und Translation. IRE regulieren den Eisenstoffwechsel bei Menschen und Tieren, abhängig vom Eisengehalt der Zelle. Riboswitches regulieren die Genexpression in Prokaryoten. Metabolite binden dabei spezifisch einen Riboswitch, was zu einer Konformationsänderung des Riboswitches führt und so Gene an-oder abschaltet. Es gibt aber auch noch andere RNA-Elemente in Prokaryoten, z. B. die 6 S-RNA (allgemeines STOP-Signal) und das ppGpp (Messenger). Eine wichtige Datenbank für RNA-Familien ist Rfam, in der eine ganze Reihe verschiedener Familien gelistet sind (werfen Sie am besten einen Blick hinein). Bioinformatisch kann man natürlich auch regulatorische RNA-Motive finden. Hier kombiniert man am besten mehrere Kriterien, etwa Sequenz, Struktur und Faltungsenergie, um so eine höhere Genauigkeit zu erreichen. Ein IRE erkennt man unter anderem an den drei Kriterien: • Passende Konsensus-Sequenz "CAGUGN" und ein C alleine, ohne G als Partner im Gegenstrang ("bulged"), • Struktur (Schlaufenstammstruktur, Stem-loop) aus zwei Stämmen übereinander, dazwischen ist das ungepaarte C und • Energie (wenn dieser Strukturteil insgesamt betrachtet wird, -2,1 bis -6,7 kcal/Mol). Erst wenn alle Parameter erfüllt sind, also alle Kriterien für ein RNA-Molekül zutreffen, sollte die bioinformatische Motivsuche auch einen entsprechenden Treffer ausgeben. Regulatorische RNA-Elemente kann man z. B. mit Programmen wie dem RNAAnalyzer, Riboswitch-Finder oder RegRNA identifizieren. Natürlich sollte man einen bioinformatisch vorhergesagten Treffer experimentell überprüfen. Denn nur so kann man sicher sein, dass das gefundene Element auch tatsächlich eine biologische Funktion ausübt. Antwort C, D, E (schauen Sie sich bitte auch die vorherigen Antworten an) Antwort B, C BiNGO identifiziert überrepräsentierte biologische Funktionen (mit p-Value und korrespondierender Gene), sogenannte Gene Ontology (GO), in einem Netzwerk (https://www.ncbi.nlm.nih.gov/pubmed/15972284). In den GO-Gruppen sind Gene entsprechend ihrer Spezies-spezifisch bekannten Funktion in die Kategorien biologische Prozesse, zellularer Bestandteil und molekulare Funktion zusammengefasst (https://www.geneontology.org/). Man kann so für das Netzwerk alle beteiligten Prozesse finden, was einem ermöglicht, z. B. Funktionen und beteiligte Proteine spezifisch für einen Prozess, etwa den Zellzyklus, zu detektieren. Hieraus kann man dann wiederum ein Subnetzwerk aller Proteine für diesen Prozess erstellen und detailliert untersuchen. In diesem Fall zeigt die BiNGO-Analyse eine Vielzahl an biologischen Prozessen (weit über 100), unter anderem mit einer BRCA1-Beteiligung am cell cycle checkpoint (GO-ID 75). ◄ Eine Gene Ontology ist eine Spezies-spezifische funktionelle Gruppierung (biologischerProzess, zellularer Bestandteil und molekulare Funktion) von Genen (Term). Erlaubt eine funktionelle Annotation (s. auch Frage 5.9). Antwort A, C, E Im Rahmen einer Netzwerkanalyse sollte man auch die Netzwerktopologie untersuchen. Hierdurch bekommt man einen Überblick über das Netzwerkverhalten, z. B. Verschaltung und Vernetzung der Knoten. Dies kann dabei helfen, wichtige funktionelle Netzwerkknoten, sogenannte Hubproteine bzw. Hubs, zu detektieren. Hubs sind stark vernetzte Knoten in einem Netzwerk, die sich z. B. als potenzielle therapeutische Drugtargets eignen. Zur mathematischen Modellierung von regulatorischen Netzwerken gibt es die boole'sche/diskrete, quantitative und semiquantitative Methode. Diese Methoden betrachten prinzipiell die Knoten (Proteins) eines Netzwerkes entsprechend ihres Aktivierungszustandes, also entweder aktiviert (On; maximal aktiviert = 1) oder inhibiert (Off; maximal inhibiert = 0). Entsprechend dem Ausgangszustand (wie stark ist der Knoten an-/abgeschaltet) wird so der weitere zeitliche Verlauf, also wie ändert sich der Zustand des Knotens im Zeitverlauf, für jeden einzelnen Knoten des Netzwerkes berechnet. Dabei kann man das Verhalten bzw. die Netzwerkverschaltung genauer untersuchen, wobei so auch entsprechende Netzwerkeffekte, also die jeweilige Wirkung eines Knotens, deutlich werden. Die boole'sche Modellierung betrachtet immer den On/Off-(1/0-)Zustand eines Systems, also ist der Knoten entweder aktiviert (On; 1) oder inhibiert (Off; 0). Die quantitative Modellierung ist für kinetische Daten nützlich, z. B. für die Michaelis-Menten-Kinetik. Hier wird der Systemzustand eines Netzwerkes anhand genauer Konzentrationen und mathematischer Differenzialgleichungen betrachtet, was allerdings Informationen über die Kinetik erfordert. Eine Beispielsoftware für die quantitative Modellierung ist PottersWheel (https://www.ncbi.nlm.nih.gov/ pubmed/18614583). Eine Kombination aus beiden Methoden ist die semiquantitative Modellierung, wodurch man in der Lage ist, den Systemzustand im Intervall zwischen 0 und 1 zu betrachten, was allerdings auch ohne Kenntnis über die Kinetik erfolgen kann. Eine Beispielsoftware ist SQUAD, bei der der Systemzustand eines Netzwerkes zuerst mithilfe eines diskreten Systems (boole'sches System) dargestellt wird, wobei alle "steady state"-Zustände identifiziert werden, welches dann in ein dynamisches System mittels einer Exponentialfunktion transformiert wird. Ein weiteres Beispiel ist Jimena (lehrstuhleigene Software). Um etwa den cAMP-Signalweg zu modellieren, muss man sich alle molekularen Komponenten (cAMP, Rezeptor, Signalkaskade, verschiedene Zelltypen) zusammenstellen. Hieraus kann man sich dann ein dynamisches Modell entwickeln. Dieses würde dann die genauen Konzentrationslevels anhand von Differenzialgleichungen integrieren (exakte kinetische Daten durch Experimente notwendig) und z. B. in Abhängigkeit vom cAMP-Spiegel entweder die Aktivität der Signalkaskade oder sogar die Medikamentenwirkung in verschiedenen Zellen modellieren (z. B. mit PottersWheel). Neben den Vorteilen, etwa schnelle Betrachtung des Netzwerkverhaltens auch ohne komplette experimentelle Daten, gibt es auch Nachteile mathematischer Modellierungen, etwa nur fokussierter Ausschnitt aus der lebenden Zelle oder intuitives Betrachten des Netzwerkverhaltens. Antwort A, B, D (s. auch vorherige Antworten) Ein steady state, auch stetiger bzw. Gleichgewichtszustand, beschreibt den Netzwerkzustand, in den das Netzwerk wieder zurückkehrt, also ein stabiler Zustand, der auch nach Änderungen/Störungen wieder erreicht wird bzw. sich nicht ändert (s. auch vorherige Antworten). Moleküle vorliegen Die Frage, welche Annotation am besten geeignet ist, lässt sich pauschal nicht beantworten, denn dies hängt immer von der biologischen Fragestellung ab. Lassen wir uns dies kurz an unserem Beispiel der Glutathionreduktase nachvollziehen. Vergleicht man die Annotation der drei verschiedenen Datenbanken, so lassen sich trotz der einheitlichen Namensbezeichnungen für die Glutathionreduktase Unterschiede in der Datenbank-ID erkennen, etwa in GenBank und im UCSD Genome Browser X54507 oder in UniProt Q03504. So ist es ratsam, wenn man verschiedene Datenbanken verwendet, immer nachzuprüfen, ob man auch tatsächlich dasselbe Gen/Protein zwischen diesen hat. Beim näheren Betrachten der Datenbanken wird aber auch deutlich, dass UCSC und GenBank den Fokus auf die genomische Position legen, wohingegen sich UniProt mehr auf die biologische Funktion und den Interaktionskontext konzentriert. Sind Sie also lediglich an der Sequenz, etwa Protein, interessiert, so finden Sie diese etwa in GenBank und UniProt. Wenn Sie sich hingegen über die genomische Region des Gens informieren möchten, z. B. antisense-liegende oder Nachbarschafts-Gene, dann sollten Sie hierzu eher UCSC und GenBank (grafisch sichtbar) verwenden. Suchen Sie allerdings nach funktionellen Domänen oder Interaktionspartnern, dann finden Sie hierzu mehr Informationen in der UniProt-Datenbank. Sie sehen also, dass Datenbanken teils unterschiedlich aufgebaut sind und verschiedene Schwerpunkte besitzen, es liegt also an einem selbst, welche Datenbank am besten geeignet ist. Aber eines sollten Sie in jedem Fall beachten: Mehrere Datenbanken zu vergleichen, ist in jedem Fall ratsam, denn so können Sie sichergehen, die richtigen Informationen gefunden zu haben. Hier können Sie sich selbst Gedanken machen. Wichtig ist, dass die Datenbank/der Server vertrauenswürdige Daten beinhalten sollte (dass auch nachvollziehbar ist, woher die Daten kommen), die Benutzeroberfläche sollte leicht zu bedienen, verständlich und übersichtlich, aber auch auf dem aktuellsten Stand sein. Vorteilhaft ist auch, überladene Seiten zu meiden und sich eher auf einen Themenbereich zu konzentrieren, aber weiterführende Links (da aber sicherstellen, dass die Links immer aktuell sind) für individuelle Analysen bereitzustellen (ein schönes Beispiel ist unsere DrumPID-Datenbank, die sich auf Drugtarget-Interaktionen fokussiert). Wichtig ist in regelmäßigen Abständen ein Abgleich, ob die Daten noch aktuell sind bzw. neue Daten einpflegen, aber auch schauen, ob die Methodik noch auf dem aktuellen Stand ist bzw. es bessere Verfahren gibt. Darüber hinaus sollte man sicherstellen, dass Kreuzverlinkungen zu anderen Webseiten bzw. für das Betreiben der Datenbank notwendige Webseiten aktuell sind und funktionieren. Idealerweise überprüft der/die Projektleiter/in oder Erstautor/in die Datenbank in regelmäßigen Abständen, ob die Daten noch aktuell sind. Sinnvoll ist auch, die Datenbanken mit laufenden Projekten zu verknüpfen und immer weiterzuentwickeln, sodass sie auf dem aktuellen Stand bleiben. Nützlich sind auch Informationen über das letzte Update (wann und bestenfalls auch spezifisch was gemacht wurde) der Webseite (beim Programmieren einbauen), sodass der User einen Überblick hat. Frage 8. 1 Hier werden einige Algorithmen hinsichtlich ihrer Rechenzeit verglichen, es ergibt sich: a) RNAfold mit kleiner RNA und großer RNA (quadratischer Anstieg mit der Sequenz) b) BLAST-Suche (wächst linear mit der Suchsequenz und der Datenbank) Kurzes Peptidbeispiel, langes Proteinbeispiel. Suche in der NRDB-Datenbank, und nur in den humanen Sequenzen (Spezies-Option nutzen). Der E-Value bewegt sich bei einer kleineren Datenbank günstig nach unten, zu kleineren Werten hin. Warum? Nun, je größer die Datenbank ist, umso höher ist die Wahrscheinlichkeit, dass sich durch Zufall Treffer ergeben. Also wird der Erwartungswert (E-Value) für einen zufälligen, unbiologischen, nicht relevanten Treffer höher. Je besser ich also eingrenzen kann, wo ich meinen Treffer erwarte (z. B. eine Spezies-spezifische Datenbank), umso signifikanter und aussagekräftiger ist mein Ergebnis. a) Proteinfaltung Dies ist ein NP-hartes Problem, d. h. die Rechenzeit wird mit jeder weiteren Aminosäure um ein Vielfaches höher. Es ist damit gar nicht klar, wie lange der Rechner braucht (nicht-polynomial komplexes Problem), aber immerhin, wenn man eine Lösung bekommt, kann man in polynomer Zeit bestimmen, wie gut sie ist. Dennoch kann man für viele praktische Belange Proteinstrukturen vorhersagen, etwa durch einen Vergleich mit bekannten Strukturen, z. B. mit SWISS-MODEL (aber schon hier kommt die Antwort nur per E-Mail, dauert eben seine Zeit), oder etwas genauer, aber rechenaufwendiger, mit MODELLER oder tatsächlich "ab initio", also von der Sequenz her, durch Faltung, gerechnet vom Zhang-Labor (mit QUARK etc.). Eine schöne Antwort gibt dieses Youtube-Video, das aber leider auf Englisch ist: https://www.youtube.com/watch?v=SC5CX8drAtU. Hier werden verglichen: Greedy strategy: locally optimal choice at each stage; At each stage visit an unvisited city nearest to the current city. This heuristic need not find a best solution, but terminates in a reasonable number of steps; finding an optimal solution typically requires unreasonably many steps. In mathematical optimization, greedy algorithms solve combinatorial problems having the properties of matroids (a structure that captures and generalizes the notion of linear independence in vector spaces). Local Sequenz in das Frageformular hineinkleben. Nachdem die BLAST-Suche durchgeführt wurde, kann man im obersten Ergebnisteil die Analyse der Domänen erkennen (Abb. 20.8): Der Stammbaum müsste jetzt zeigen, dass die Domänen gut konserviert sind. Hierfür kann man sich die Alignments im Einzelnen anschauen (unterer Teil des BLAST-Ergebnisses). Sehr hilfreich ist aber der Stammbaum-Bericht (auf "Taxonomy Report" klicken). Insbesondere findet man dort alle Spezies aufgelistet und detailliert die Anzahl der gefundenen, verwandten Spezies, nach Organismengruppen geordnet (hier natürlich, weil mit HIV gesucht, im Wesentlichen HIV-Polymerasesequenzen). Analog vorgehen wie in 10.6. Hier ist aber der Speziesreichtum viel größer, schöner Stammbaum. Frage 10.8 CLUSTAL hat folgenden Link: https://www.ebi.ac.uk/Tools/msa/clustalo/. MUSCLE finden Sie hier https://www.ebi.ac.uk/Tools/msa/muscle/. Orientierend sei hier auf Parsimony und ML hingewiesen (s. 10.5). Mit einem multiplen Alignment kann man mehrere Sequenzen vergleichen und ähnliche bzw. unähnliche Bereiche identifizieren. Hierfür muss man sich nur genau die Webseite der SMART-Domänenanalyse anschauen und das Seed-Alignment aufsuchen. Sich insbesondere auch die konservierten und weniger konservierten Reste anschauen. Fragen 11.1. bis 11.7 Transfer-RNA (tRNA) vermitteln das Übersetzen der richtigen Aminosäuren aus dem RNA-Code, das geschieht an den Ribosomen. Biophysikalische Gesetze legen dabei die Struktur fest (z. B. Wasserstoffbrücken, hydrophobe Wechselwirkung), aber auch weitere Effekte wie das Crowding. Diese sind aber so komplex, dass der exakte Ablauf der Ausbildung der dreidimensionalen Proteinstruktur bislang noch nicht ganz entschlüsselt ist (etwa über "molten globule"-Zustand). Da aber viele Proteinsequenzen und Proteindomänen bekannt sind, kann man viele Informationen über Funktion und Struktur durch Datenbanken herausbekommen. So findet man viele Informationen und aufgelöste dreidimensionale Strukturkoordinaten nebst Annotation zum Protein z. B. in den Datenbanken PDB (https://www.rcsb.org/pdb/home/home.do) und UniProt (https://www. uniprot.org/). Daneben gibt es aber auch noch Klassifizierungsdatenbanken, etwa nach Sequenz-und Strukturähnlichkeit wie SCOP (structural classification of proteins; https:// scop.mrc-lmb.cam.ac.uk/scop/, ab 2010 mit SCOP extended weitergeführt; https://scop. berkeley.edu) und CATH (classification by class, architecture, topology and homology; https://www.cathdb.info/), oder aber nach Proteinfamilien und Funktion die Datenbanken PROSITE (https://prosite.expasy.org/) und Pfam (https://pfam.xfam.org/). So ist es möglich, durch Experimente und bioinformatische Modellierung (z. B. Differenzialgleichungen und Simulationen) Vorhersagen über die Proteinstruktur und Funktion zu erhalten. Es gibt dabei verschiedene Ansätze, um die Proteinstruktur aus einer Sequenz vorherzusagen, z. B. Ab-initio-und vergleichende Vorhersagen (z. B. Homologie-Modellierung, Threading). Ab-initio-Vorhersagen beruhen auf den biophysikalischen Eigenschaften von Proteinen, wohingegen bei der Homologie-Modellierung bekannte Proteinstrukturen verwendet werden. Es gibt viele nützliche Softwares, mit denen man Proteinstrukturen visualisieren (z. B. Wasserstoffbrücken oder hydrophobe Bereiche) und analysieren (z. B. Docking und Modellierung) kann, etwa PyMOL (https://www. pymol.org/), RasMol (https://www.openrasmol.org/) und Swiss-PdbViewer (https:// spdbv.vital-it.ch/). Eine Proteinstrukturanalyse kann man bioinformatisch z. B. mit AnDom (beinhaltet dreidimensionale Strukturdomänen anhand SCOP-Klassifizierung), SWISS-MODEL (https://swissmodel.expasy.org/), I-TASSER (Iterative Threading ASSEmbly Refinement; https://zhanglab.ccmb.med.umich.edu/I-TASSER/) oder aber mit einem Ramachandran-Plot durchführen, was so Aufschluss über mögliche Strukturen, Domänen und die Funktion gibt. Ein Ramachandran-Plot (z. B. RAMPAGE-Software; https://mordred.bioc.cam.ac.uk/~rapper/rampage.php) berechnet die Phi-und Psi-Torsionswinkel im Protein, was so einen grafischen Überblick über die Verteilung von alpha-Helices und beta-Faltblättern ermöglicht. Fragen 11.8 bis 11.11 Eine mögliche Funktion für ein Protein kann ich finden, wenn ich in der Sequenz nach möglichen Sequenzmotiven und Proteindomänen, also selbstständigen Faltungseinheiten, schaue. Dies zeigt mir z. B., ob in meinem Protein ein aktives Zentrum, eine regulatorische Domäne oder Interaktionsdomänen vorhanden sind, gibt mir also Aufschluss über die mögliche Funktion des Proteins. Beispieldatenbanken/-programme sind z. B. PROSITE, AnDom, SMART (https://smart.embl-heidelberg.de/) und der ELM-Server (eukaryotic linear motifs; https://elm.eu.org/index.html). Am besten ist es immer, wenn man mehrere Programme verwendet und die Ergebnisse miteinander vergleicht, denn nur so kann man sicher sein, dass man auch einen vertrauenswürdigen Treffer gefunden hat. Wiederkehrende, konservierte Bereiche in mehreren Sequenzen kann man mit einem multiplen Alignment finden. Diese erlauben, mehrere Sequenzen miteinander zu vergleichen (zu alignieren). Hierfür gibt es verschiedene Programme, etwa MUSCLE (Multiple Sequence Comparison by Log-Expectation; https://www.ebi.ac.uk/ Tools/msa/muscle), MAFFT (Multiple Alignment using Fast Fourier Transform; https:// www.ebi.ac.uk/Tools/msa/mafft/) und Clustal Omega (https://www.ebi.ac.uk/Tools/ msa/clustalo/). Man kann so anhand eines multiplen Sequenzalignments konservierte Bereiche, mögliche Domänen oder aber spezifische Unterschiede zwischen den verschiedenen Sequenzen finden. Eine weitere Methode sind phylogenetische Bäume, diese kann man z. B. mit PHYLIP (Phylogeny Inference Package; https://evolution.genetics. washington.edu/phylip.html) erstellen. Man kann so neben einem multiplen Sequenzalignment zusätzlich noch die evolutionäre Verwandtschaft und Beziehung zwischen den Sequenzen finden. Antwort A, C, D In dem gewählten Beispiel für das "TAR protein" sollten beide Programme eine Double stranded RNA-binding domain (dsRBD) gefunden haben, was vermuten lässt, dass eine Bindung über doppelsträngige RNA-Moleküle stattfindet. Sollte bei Ihnen etwas nicht funktioniert haben, dann probieren Sie es doch am besten so (Abb. 20.9). Die entsprechende Proteinsequenz findet man unterhalb der Genbank-Nummer, dann auf FASTA klicken, was Sie automatisch zu der FASTA-Sequenz weiterleitet (s. auch https://www.ncbi.nlm.nih.gov/protein/60653021?report=fasta). Diese Sequenz dann kopieren und in die Suchfenster bei PROSITE und AnDom einfügen. Den Output beider Seiten finden Sie in der Abb. 20.9 unten. Frage 11.13 Hierzu: https://www.rcsb.org/pdb/explore/explore.do?structureId=1HSG. Dann: https:// thegrantlab.org/teaching/material/Structural_Bioinformatcs_Lab.pdf; https://sbcb.bioch. ox.ac.uk/users/greg/teaching/docking-2012.html. Anfärben der hydrophoben Reste im Zentrum. Einführung PyMOL hier: https://pymolwiki.org/index.php/Practical_Pymol_ for_Beginners. Abb. 20.9 PROSITE und AnDom Fragen 11.14 bis 11.21 Zelluläre Kommunikation sind essenzielle Vorgänge in eukaryotischen und prokaryotischen Zellen, um so etwa wichtige Prozesse zu regulieren oder aber auf einen Außenreiz reagieren zu können. In Prokaryoten erfolgt dies meist über eine direkte Kontrolle, z. B. über Zwei-Komponenten-Systeme. Ein Sensor aktiviert dabei einen Responder, der dann gleich die Transkription. So wird auf einen Außenreiz schnell reagiert. Bei Eukaryoten hingegen ist die Regulation komplexer und erfolgt meist indirekt, z. B. über Glucocortikoide, und ist häufig auch mit intrazellulärer Kommunikation verbunden. Ein Beispiel zellulärer Kommunikation sind Second messenger, die eine schnelle Kommunikation erlauben, etwa ATP in der Energieversorgung in der Zelle (ATP ist für die Bewegung entscheidend wichtig). Es wird in der Atmungskette generiert, nachdem energiereiche Verbindungen über Glykolyse (anaerob) und Zitronensäurezyklus (aerob) abgebaut werden. Die Reduktionsäquivalente (NADH, FADH) werden in der Atmungskette oxidiert und zu ATP-Molekülen zusammengebaut. Bioinformatisch kann ich dabei den Stoffwechsel betrachten und hierzu ein kinetisches (dynamisches) Modell entwickeln. Ein weiteres Beispiel von zellulärer Kommunikation stellt die Differenzierung dar, was so gesehen Kommunikation von Zelle zu Zelle ist. Hier wäre z. B. die Hämatopoese (Blutbildung) interessant. Hierzu kann man bioinformatisch das Kinasenetzwerk betrachten. Wichtig für die Zelldifferenzierung ist der zentrale Organisator (Speman Organisator), der die Entwicklungsachsen im Embryo festlegt, was über den Wnt-Signalweg erfolgt. Dies kann man ebenfalls bioinformatisch betrachten, z. B. Modellierung mit zellulären Automaten oder Agenten-basierten Simulationen. In den meisten Fällen ist es also von Interesse zu wissen, welche Rolle mein Protein hat und wo es lokalisiert ist, etwa in der Membran oder im Zellkern, um so ebenfalls Rückschlüsse auf die Funktion zu erhalten. Hierzu gibt es bereits zahlreiche Datenbanken, in denen ich entsprechende Interaktionen und Informationen finden kann, z. B. PlateletWeb, KEGG, STRING und SPdb (Signal Peptide database; https:// proline.bic.nus.edu.sg/spdb/). Bioinformatisch kann ich ebenfalls die Lokalisation vorhersagen, etwa mit SignalP (Lokalisation von Signalpeptiden; https://www.cbs.dtu. dk/services/SignalP) oder TargetP (https://www.cbs.dtu.dk/services/TargetP). Anhand eines Trainingsdatensatzes von Proteinen mit bekannter, experimentell überprüfter Lokalisation lernen diese Programme, aus der Aminosäurezusammensetzung eine bestimmte Lokalisation vorherzusagen. Die Lokalisation in der Zelle kann ich also anhand der Proteinsequenz mithilfe von Programmen mit Hidden-Markov-Modellen oder neuronalen Netzwerken feststellen, so kann man dann neu zu untersuchende Sequenzen entsprechend zuordnen. Konkret sollte ein Transkriptionsfaktor im Zellkern lokalisiert sein, eine saure Protease im Lysosom, ein Speicherprotein im Golgi, ein sekretiertes Protein im endoplasmatischen Retikulum und ein Membranprotein (Vorhersage mit TMHMM) in der Membran usw. Dies sollte ein Programm auch entsprechend vorhersagen. Möchte man ein eigenes Programm schreiben, so sollte es einen Einleseund Ausgabeteil besitzen. In der Mitte ist dann der Verarbeitungsteil (Vorhersageteil). Dieser besteht entweder aus einem neuronalen Netzwerk oder einem Hidden-Markov-Modell. Den Informationsgehalt einer Nachricht kann man mit der Shannon-Entropie beschreiben: Ein Bit einer Information ist die kleinste Informationseinheit, eine "Ja"oder "Nein"-Entscheidung. Wörtern und Sätzen kann so entsprechend ihrer Länge ihr Informationsgehalt zuordnet werden. In einem weiteren Schritt kann man noch die verschiedenen Signalquellen einbeziehen und die Qualität betrachten, also wie hoch bzw. gering der Informationswert ist, z. B. gering, wenn immer die gleichen Zeichen gesendet werden. Dieses Wissen kann man auch auf biologische Systeme übertragen, etwa wenn man bioinformatisch die Zelldifferenzierung oder intrazelluläre Kommunikation, etwa eine Signalkaskade zwischen Körperzellen über Second messenger (z. B. cAMP), betrachten möchte. So kann man die Signalübertragung für Zellwachstum und Zelldifferenzierung, etwa durch Verstärkung oder Schwächung zellulärer Signale durch Kinasen und Phosphatasen (Güte des Signals dabei abhängig von dem Verhältnis Signal zu Hintergrundrauschen), genauer beschreiben. Auf diese Weise ist es möglich, verschiedene komplexe zelluläre Vorgänge bioinformatisch zu betrachten und zu modellieren. Man ist so in der Lage, diese besser zu verstehen. Der TMHMM-Serverlink ist: https://www.cbs.dtu.dk/services/TMHMM/. Hier kann jede Sequenz durch einfaches einkleben in das Frageformular im Hinblick auf transmembranäre Helices einschließlich Grafik für die extra-bzw. intrazellulären Loops gesehen werden. Der NucPred-Link ist: https://www.sbc.su.se/~maccallr/nucpred/. Hier kann ich alle nukleären Lokalisationssignale ermitteln. Außerdem gibt es eine Datenbank LocSigDB, aus der man viele nukleäre Lokalisationssignale ableiten kann. Der SignalP-Serverlink ist: https://www.cbs.dtu.dk/services/SignalP/. Hier werden verschiedene neuronale Netzwerke kombiniert, um eine möglichst gute Vorhersage zu erzielen (für gramnegative und -positive Bakterien und Eukaryoten). Der PROSITE-Serverlink ist: https://prosite.expasy.org/scanprosite/. Die PROSITE-Motive geben auch katalytische Reste, Proteinmodifikationen sowie typische Aminosäurerestekombinationen für Enzymfamilien und eine Reihe von Lokalisationsmotiven und Interaktionsmotiven an. Prof. Burkhard Rost hat sich jahrelang mit neuronalen Netzwerken und Sekundärstrukturvorhersagen von Proteinen beschäftigt. In den Server werden Proteinsequenzen einfach eingelesen. Dann sagt ein neuronales Netzwerk vorher, ob die Aminosäuren gut eine Helix bilden können, ein zweites, die Fähigkeiten, beta-Strands zu bilden und eine dritte Software, ob hier eine Schlaufenregion vorliegt. Ein viertes neuronales Netzwerk ist darauf trainiert zu entscheiden, wie man am besten aus diesen drei Vorhersagen eine Gesamtvorhersage macht, beispielsweise, wenn gleichzeitig beta-Strand und Helix, aber keine Schlaufenregion von den drei untergeordneten Netzwerken vorhergesagt wird. Weitere Tricks verbessern die Vorhersagen dieser Software zusätzlich. Insbesondere werden viele Sequenzen mit ähnlicher Struktur zu der Fragesequenz automatisch hinzugenommen (multiples Alignment). Damit erlaubt diese Sekundärstrukturvorhersage eine Genauigkeit von bis zu 80 %. Das ist schon sehr nahe am theoretischen Optimum. Noch genauer kann man nur werden, wenn man gleich die dreidimensionale Struktur vorhersagt. Eine Software ist MemBrain (https://www.membrain-nn.de/index.htm; https://www. membrain-nn.de/). Bitte im Internet nach Deep Learning suchen und informieren. Hilfreich ist auch die Seite: https://deeplearning.net/. Für AlphaGo ebenfalls im Internet (https://deepmind. com/research/alphago/; https://www.youtube.com/watch?v=mzpW10DPHeQ). Klassifikationsmodelle werden in der Bioinformatik für die Klassifikation zwischen zwei Kategorien (binär) verwendet, etwa für die Diagnose einer Erkrankung (krank/ gesund). Wichtig ist, sich hier mit einer Klassifikationstabelle (Konfusionsmatrix; TP, FP, FN, TN) vertraut zu machen, aber auch die Performance-Metriken (Sensitivität, Falsch-Positiv-Rate, Spezifität, PPV, NPV, Accuracy, Falschklassifikationsrate, Prävalenz, ROC, AUC) zur Bewertung eines Klassifikationsmodells anzuschauen. Hier ist auch wichtig zu wissen, was beispielsweise Unterschiede zwischen Sensitivität und PPV, aber auch zwischen Spezifität und NPV sind. Stellen wir uns beispielsweise vor: Eine Person bekommt ein positives (negatives) Testergebnis von einem Vorhersagetest, der eine Sensitivität von 90 %, Spezifität von 99 %, einen PPV von 80 % und einen NPV von 99 % besitzt. Hier könnte man dem positiven Testergebnis nur zu 80 % vertrauen, dass man tatsächlich positiv (krank) ist (20 % Falsch-Positiv, also glücklicherweise gesund), wohingegen man einem negativen Testergebnis schon eher vertrauen kann, dass man tatsächlich gesund ist (1 % Falsch-Negativ, also in Wirklichkeit krank). Dies berücksichtigen die meisten diagnostischen Testverfahren und führen bei einem positiven Testergebnis einen zweiten Test durch, um die Diagnose abzusichern (z. B. Mammografiescreenings). Andererseits sollte ein Test in jedem Falle akkurat genug sein, um eine gesunde Person mit hoher Wahrscheinlichkeit zu identifizieren (hier wäre es schlimmer, wenn man eine vermeintlich gesunde Person [negatives Testergebnis], die aber in Wirklichkeit krank ist [Falsch-Negativ] , nach Hause schickt und diese dadurch keine helfende Therapie bekommt bzw. weitere Personen mit einem Virus [z. B. COVID-19] ansteckt). Zudem sollte man sich Gedanken über Probleme (wenig Daten etc.) bei der Erstellung eines Klassifikationsmodells machen, aber auch welchen Anforderungen ein Klassifikationsmodell gerecht werden sollte. Zum Erstellen eines Vorhersagemodells ist es ratsam, einen Trainings-und Testdatensatz (Splitting 80/20 %) zu verwenden und das Modell an mindestens einen unabhängigen Datensatz zu validieren, um die Vorhersagekraft besser bewerten zu können. Die Daten in der Biologie und Medizin sind meist hochdimensional, d. h. sie beinhalten verschiedene Variablen (Features), Zusammenhänge und Korrelationen, Confounder (Störgrößen), Batch-Effekte und Multikollinearität. Hierfür sind Methoden des maschinellen Lernens in der Bioinformatik hilfreich, um die Daten zu strukturieren und relevante Features zu extrahieren, aber auch um Klassifikationsmodelle (Vorhersagemodelle) zu entwickeln. Die PCA versucht hochdimensionale Daten in Hauptkomponenten zu zerlegen und deren Komplexität zu reduzieren (Dimensionsreduktion), aber auch um Gruppenunterschiede zu erkennen. Clusteranalysen versuchen Daten in Gruppen (Cluster) mit ähnlichen Merkmalsstrukturen(-ausprägungen) einzuordnen, z. B. gesunde Gruppe (normaler Blutdruck) und erkrankte Gruppe (Bluthochdruck). Mit Regressionsanalysen versucht man, Zusammenhänge und Beziehungen zwischen einer abhängigen ("response variable") und unabhängigen ("predictor variable") Variablen zu finden, z. B. Wahrscheinlichkeit, bei Übergewicht an Bluthochdruck (und in der Folge an einer Herzinsuffizienz zu versterben) zu erkranken. Wichtig ist, sich auch nochmal die zugrunde liegenden Algorithmen und statistischen Parameter, um die Modellgüte zu bewerten, anzuschauen. Weitere Details und Informationen finden Sie in den Arbeiten Worster et al. 2007 , Schneider et al. 2010 , Singh et al. 2011 und Zwiener et al. 2011 Frage 15.1 Hierzu sich bitte auf der Webseite https://www.neuron.yale.edu/neuron/ informieren (Tutorial: https://www.neuron.yale.edu/neuron/docs vorhanden). Hierzu sich bitte auf der Webseite https://www.openworm.org/index.html informieren. Hierzu sich bitte auf der Webseite https://www.humanconnectomeproject.org/ informieren. Hierzu einfach im Internet suchen, z. B. mit Größenkonstanz im Gehirn, und informieren. Hierzu einfach im Internet suchen und informieren (es gibt auch schöne Youtube-Videos dazu). Design of a hyperstable 60-subunit protein icosahedron De novo design of protein homo-oligomers with modular hydrogen-bond network-mediated specificity De novo design of a four-fold symmetric TIM-barrel protein with atomic-level accuracy Rational design of α-helical tandem repeat proteins with closed architectures Exploring the repeat protein universe through computational protein design Nun kann man als Nächstes ein Übriges tun und diese hervorragenden Artikel auch noch lesen. David Baker (und andere) sind in neuerer Zeit dem Protein-Design einen guten Schritt nähergekommen Lesen Sie die Publikation und/oder bearbeiten Sie das Tutorial und die Datenbank im Netz. Mit der Datenbank kann man tatsächlich selber synthetisches Biologie-Design betreiben und technische und biologische Regelsteuerung vergleichen Oncolytic Virus Informationen finden Sie u. a. hier Das Internet (geht durch Krieg nicht kaputt, verloren gegangene Knotenrechner werden durch andere im laufenden Betrieb ersetzt). Viele Menschen arbeiten daran, das Internet noch resilienter zu machen. Der oben bereits erwähnte Nanozellulose-Chip ohne Müll, in dem Elektronik durch Licht ersetzt wird Hungersnot noch Nahrung bringen, aber auch gegen nuklearen Winter oder zerstörte UV-Schicht helfen würden Die Verwendung von Flettner-Rotor-Schiffen, um die globale Erwärmung durch niedrige Wolken kleinzuhalten (sehr wirkungsvoll, könnte die ganze globale Erwärmung aufhalten Metabolic control analysis Mathematical models of protein kinase signal transduction B-Raf and C-Raf signaling investigated in a simplified model of the mitogenic kinase cascade B-Raf and C-Raf signalling investigated in a simplified model of the mitogenic kinase cascade Lineare Regressionsanalyse Survival analysis in clinical trials: Basics and must know areas Understanding linear and logistic regression analyses Weiterführende Literatur BIOINF527: Structural bioinformatics lab session. Introduction to protein structure visualization and small molecule docking Synthetic rewiring of plant CO 2 sequestration galvanizes plant biomass production Am besten selbst das Internet durchstöbern. Hier ist der Link zur DrumPID (https://drumpid.bioapps.biozentrum.uni-wuerzburg.de/ compounds/index.php), also eine Datenbank, die Proteininteraktionen mit Drugs (also chemischen Verbindungen) kombiniert. Hier kann man besonders leicht Haupt-und Nebenwirkungen vergleichen, Proteininteraktionen und Pharmaka zusammenbringen.Hier Hier sind einige Informationen zum Plan C: Nachhaltige, sehr widerstandsfähige und anpassungsfähige Technologien, die uns im Notfall helfen können, in der Krise stark zu bleiben. Ein aktuelles Ergebnis ist die Kopplung einer verbesserten CO 2 -Fixierung in Pflanzen zusammen mit einem alternativen Pathway, der CO 2 -Verluste durch Lichtatmung minimiert: Damit könnten wir 5-mal besser CO 2 aus der Luft entfernen und gleichzeitig Pflanzen ertragreicher gestalten [6] (Naseem et al. 2020) .