Neue Forschungsergebnisse von InstaDeep, NVIDIA und der Technischen Universität München übertreffen Erwartungen und liefern neue Einblicke in die Genomforschung
https://www.instadeep.com/2023/01/...insights-into-genomics-research/
Im Rahmen der Arbeit wurden mehrere Grundmodelle für die Genomik erstellt, die bei zahlreichen Vorhersageaufgaben die besten Ergebnisse erzielten. Aufgaben wie die Vorhersage von Enhancer- und Promotor-Sequenzen sowie von Transkriptionsfaktor-Bindungsstellen wurden untersucht und werden dazu beitragen, den Prozess der Übersetzung von DNA in RNA und Proteine zu verstehen.
Diese Ergebnisse sind von großer Bedeutung für den Bereich der Genomik, da sie zeigen, dass große Sprachmodelle verwendet werden können, um ein breites Spektrum von Aufgaben effektiv zu verallgemeinern. Dies ist ein bedeutender Fortschritt, denn frühere Ansätze erforderten den Einsatz spezialisierter Modelle für jede Aufgabe. Die Verwendung von LLMs, die auf Genomikdaten trainiert wurden, kann den Prozess der Vorhersage genomischer Merkmale aus DNA-Sequenzen erheblich vereinfachen, selbst bei geringem Datenaufkommen, und das Verständnis der biologischen Folgen menschlicher Mutationen erleichtern.
Karim Beguir, Mitbegründer und CEO von InstaDeep, sprach über die Partnerschaft: "Wir glauben, dass dies die ersten Ergebnisse sind, die eindeutig die Machbarkeit der Entwicklung von Grundmodellen in der Genomik zeigen, die wirklich übergreifend sind. In vielerlei Hinsicht spiegeln diese Ergebnisse wider, was wir in den letzten Jahren bei der Entwicklung anpassungsfähiger Basismodelle in der Verarbeitung natürlicher Sprache gesehen haben, und es ist unglaublich spannend zu sehen, dass dies nun auf solch herausfordernde Probleme in der Arzneimittelforschung und der menschlichen Gesundheit angewendet wird."
Überlegene Ergebnisse deuten auf großes Potenzial hin
Das größte LLM mit 2,5 Milliarden Parametern, das auf einem Multi-Spezies-Datensatz trainiert wurde, konnte in 15 von 18 Aufgaben mit spezialisierten State-of-the-Art-Modellen mithalten oder diese übertreffen. Die Ergebnisse wurden durch eine effiziente Feinabstimmung der Parameter erzielt, aber auch die Verwendung von vortrainierten Einbettungen aus Transformatormodellen in einem einfachen Modell wie einem flachen Perzeptron oder einer logistischen Regression führte bei 11 Aufgaben zu einer gleichwertigen oder besseren Leistung.
Das Team fand auch heraus, dass Zwischenschichten im LLM oft Repräsentationen mit höherer Leistung bei nachgelagerten Aufgaben erzeugten als die letzte Schicht. Diese Ergebnisse zeigen das Potenzial für die Entwicklung von Basismodellen in der Genomik, die aufgabenübergreifend verallgemeinert werden können und bedeutende Anwendungen in der Arzneimittelforschung und der menschlichen Gesundheit haben.
Schlüsselfaktoren zur Verbesserung der Leistung
Die Forscher untersuchten in ihrer Studie auch die Bedeutung der Sequenzvielfalt und der Modellgröße. Sie fanden heraus, dass eine Erhöhung eines dieser Faktoren zu einer verbesserten Leistung führt. So schnitt beispielsweise ein Modell mit 500 Millionen Parametern, das nur auf dem menschlichen Referenzgenom trainiert wurde, schlechter ab als das gleiche Modell, das auf dem 1000-Genome-Datensatz (3.200 menschliche Genome) trainiert wurde. Auch das 2,5-Milliarden-Parameter-Modell, das auf dem 1000-Genome-Datensatz trainiert wurde, schnitt besser ab als jedes 500-Millionen-Parameter-Modell, aber nicht so gut wie das gleiche Modell, das auf einem benutzerdefinierten Multi-Spezies-Datensatz trainiert wurde, selbst wenn die nachgelagerte Leistung bei Aufgaben gemessen wurde, die nur das menschliche Genom betreffen.
Eine dauerhafte Beziehung
Diese Ankündigung folgt auf die Nachricht aus dem Jahr 2022, dass InstaDeep neben den fünf Gründungspartnern Zugang zu Cambridge-1 erhalten hat, was es dem Unternehmen ermöglicht, die nächste Innovationswelle in der Biologie zu beschleunigen, insbesondere um KI-Sprachmodelle anhand von Genomdaten zu trainieren.
Übersetzt mit www.DeepL.com
|