Technik

Intel Labs: Das erste generative KI-Modell, das 3D-Bilder aus Text erstellt

Intel Labs: il primo modello di AI generativa che crea immagini 3D da un testo thumbnail

Intel Labs präsentiert LDM3Dein neues Modell von Generative KI ist in der Lage, realistische visuelle 3D-Inhalte aus einfachem Text zu erstellen. Es ist das erste Diffusionsmodell, das in der Lage ist, eine Tiefenkartierung zu erstellen, und das Potenzial dazu hat Revolutionieren Sie die Erstellung von Inhaltendas Metaversum und digitale Erlebnisse.

Intel Labs stellt Latent-Diffusion-Modell für 3D vor

Il Latentes Diffusionsmodell für 3D (LDM3D) ist das neueste generative KI-Modell, das Intel Labs in Zusammenarbeit mit Blockade Labs angekündigt hat. Es handelt sich um ein neues Diffusionsmodell, das generative künstliche Intelligenz zum Schaffen nutzt Visueller 3D-Inhalt realistisch. Darüber hinaus ist es das erste Modell, das den Diffusionsprozess nutzt Erstellen Sie 360°-3D-Bilder durch Tiefenkartierung. Mit diesen Voraussetzungen könnte LDM3D die Erstellung mehrerer Inhalte und Anwendungen revolutionieren Metaverso und digitale Erlebnisse. Eine Erfindung, die verschiedene Bereiche verändern kann, von Unterhaltung über Spiele bis hin zu Architektur und Design.

Generative KI zielt darauf ab, die menschliche Kreativität zu steigern und zu verbessern Zeit sparen. Die meisten der heute verfügbaren generativen KI-Modelle beschränken sich jedoch auf die Generierung von 2D-Bildern; Nur die wenigsten sind dazu in der Lage, etwas zu erzeugen 3D-Bilder aus Textanweisungen. Im Gegensatz zu bestehenden latent stabilen Diffusionsmodellen können Sie mit LDM3D ein Bild und eine Tiefenkarte erstellen aus einer bestimmten Textnachricht mit nahezu der gleichen Anzahl von Parametern. Bietet eine genauere relative Tiefe für jedes Pixel im Vergleich zu Standard-Nachbearbeitungsmethoden zur Tiefenschätzung und spart Entwicklern viel Zeit beim Erstellen von Szenen.

Vasudev Lal, KI/ML-Forscher, Intel Labs.

Das Potenzial von LDM3D in der generativen KI

Intel setzt sich dafür ein, generative KI zu ermöglichen, um durch a einen immer besseren Zugang zu den Vorteilen dieser Technologie zu ermöglichen offenes Ökosystem. Trotz der dramatischen Fortschritte in der Branche in den letzten Jahren beschränken sich die meisten modernen generativen KI-Modelle heute auf die Erzeugung zweidimensionaler Bilder. LDM3D unterscheidet sich von bestehenden Diffusionsmodellen, die 2D-RGB-Bilder aus Textaufforderungen generieren, durch Tiefenkartierung. Ausgehend von einer einzigen Textangabe gelingt es tatsächlich, 3D-Bilder zu erstellen, die für jedes Pixel eine genauere relative Tiefe liefern.

Die Forschung von Intel Labs hat das Potenzial, die Art und Weise, wie wir mit digitalen Inhalten interagieren, zu revolutionieren und neue zu schaffen bisher unvorstellbare Möglichkeiten. Benutzer, die sich LDM3D nähern, können die Textbeschreibung eines tropischen Strandparadieses, eines Science-Fiction-Universums oder eines beliebigen detaillierten 360°-Panoramas umwandeln. Diese Funktion ermöglicht die Erstellung von realistische und immersive visuelle Inhalteund erweist sich als absolute Innovation für die unterschiedlichsten Branchen. Von Unterhaltung bis Gaming, von Innenarchitektur über Architekturdarstellungen bis hin zu immersiven Virtual-Reality-Erlebnissen (VR).

So funktioniert das neue Diffusionsmodell von Intel Labs

Um 360°-3D-Bilder zu erstellen, wurde LDM3D anhand eines Datensatzes trainiert, der 10.000 Proben davon enthält Datenbank LAION-400M. Letzteres enthält über 400 Millionen Bilder und dazugehörige Bildunterschriften. Für den Entwurf von LDM3D verwendete das Team das Deep-Estimation-Modell Dense Prediction Transformer (DPT) von Intel Labs. Das DPT-Large-Modell ist in der Lage, für jedes Pixel innerhalb eines Bildes eine äußerst genaue relative Tiefe bereitzustellen.

Das Training des LDM3D-Modells erfolgt über einen Intel AI-Supercomputer, der von unterstützt wird Intel Xeon-Prozessoren und Intel Habana Gaudi KI-Beschleuniger. Das generierte RGB-Bild und die Tiefenkarte werden kombiniert, um visuelle 360°-Inhalte zu erstellen.

LDM3D: ein Blick in die Zukunft der KI

Das LDM3D-Modell ebnet den Weg für weitere Fortschritte inGenerative KI mit mehreren Ansichten und in der Computer Vision. Im Hinblick auf die Förderung und Erforschung des Einsatzes künstlicher Intelligenz und den Aufbau eines Ecosistema Open Source, Intel hat LDM3D über HuggingFace zugänglich gemacht. Auf diese Weise können KI-Forscher und -Entwickler einen Beitrag leisten, indem sie dieses System verbessern und an maßgeschneiderte Anwendungen anpassen.

Die Forschungsergebnisse von Intel Labs wurden auf der IEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) vom 18. bis 22. Juni vorgestellt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert