Ein Large Language Model (LLM) arbeitet in erster Linie mit der menschlichen Sprache und funktioniert auf Basis sog. Deep Learning Modelle. Solche Modelle entstammen dem maschinellen Lernen, einem Teilbereich „Künstlicher Intelligenz“ (KI). Sie nutzen künstliche neuronale Netze, die wiederum aus Algorithmen (eindeutigen Handlungsvorschriften zur Lösung eines Problems oder von Problemklassen) bestehen und in ihrer Funktionsweise unserem menschlichen Gehirn nachempfunden sind. Dabei geht es weniger um eine physische Nachbildung als vielmehr um die Funktionsweise unseres Gehirns in Bezug auf seine Lernleistung.
Die Dimension der Größe: Warum LLMs ihren Namen verdienen
Large Language Models wie GPT-4 werden als “groß” bezeichnet, weil sie auf der Grundlage von Billionen von Wörtern aus dem Internet trainiert wurden, was ihnen eine unübertroffene Kapazität zur Textverarbeitung und -erstellung verleiht. Diese Modelle werden durch komplexe neuronale Netzwerke ermöglicht, die Millionen von Parametern umfassen und ein bisher unerreichtes Verständnis sowie Generierung menschlicher Sprache ermöglichen. Die Bezeichnung “groß” reflektiert sowohl die enormen Mengen an Trainingsdaten als auch die Tiefe ihres Sprachverständnisses.
Das Whitepaper KI im Marketing ist für alle, die die Potenziale von Künstlicher Intelligenz im Marketing entdecken möchten. In unserem Whitepaper erwartet Sie:
Lesen Sie in unserem Whitepaper, wie vier innovative KI-Tools das Marketing optimieren und profitieren Sie von unserem exklusiven Implementierungstool, das Sie Schritt für Schritt bei der Einführung von KI in Ihrem Unternehmen begleitet – ein unverzichtbarer Leitfaden für den modernen Marketer.
Entstehung und Entwicklung von Large Language Models
NLP – Natural Language Processing
Die ersten Ansätze zur natürlichen Sprachverarbeitung (Natural Language Processing, NLP) gehen auf die 1950er Jahre zurück. Funktional werden im Rahmen von NLP Sätze oder Textpassagen zunächst in kürzere Bestandteile zerlegt (lexikalische Analyse). Diese Elemente werden anschließend sowohl grammatikalisch (morphologische Analyse) als auch in Bezug auf sog. kontextuelle Beziehungen (semantische Analyse) untersucht. Zielsetzung ist, daraus sinngebende Bedeutungen zu erkennen, um erwartungsgemäße Resultate in verständlicher Sprache auszugeben. Auf diese Weise ist im Ergebnis eine direkte Kommunikation zwischen Mensch und Endgerät möglich.
Regelbasierte Algorithmen
Bis in die 1990er Jahre lag der Fokus auf sog. regelbasierten Algorithmen, mit denen einfache Aufgaben wie das Zählen von Wörtern oder grundlegende Analysen der Syntax bewältigt werden konnten. Mit Entwicklung des maschinellen Lernens kamen in der NLP-Forschung zunehmend statistische Methoden zum Einsatz. Damit konnten in umfangreichen Datensätzen mehr und mehr verschiedene Muster erkannt werden. Daraus wurden wiederum Wahrscheinlichkeiten für mögliche Wortkombinationen berechnet. Diese Form der strukturellen Analyse menschlicher Sprache führte dazu, diese auch zunehmend besser nachbilden zu können. So war die Grundlage geschaffen, einfache Texte klassifizieren zu können und bspw. Spam-Filter für Emails zu entwickeln.
Deep Learning und Large Language Model
Seit den 2010er Jahren basiert die NLP-Forschung auf Deep Learning Methoden und hier insbesondere auf Large Language Models. Vor allem durch die stetige Entwicklung schneller Rechenkapazitäten haben sich LLMs zu “end-to-end” Modellen entwickelt, die in Echtzeit komplexe Muster und Zusammenhänge erkennen und bidirektional kommunizieren. So können bereits viele Aufgaben auf menschenähnlichem Niveau übernommen werden. Im Bereich einer automatisierten Dokumentenverarbeitung (DMS–Software) ist es mit einem Large Language Model bspw. möglich, zusammenfassende Managementberichte erstellen zu lassen. Auch ist die Analyse z.B. von Geschäftsberichten oder auch unstrukturierten Datenquellen wie E-Mails möglich, um daraus gezielte Informationen herauszufiltern.
LLM Zielsetzung: Mehr als nur Texte verstehen und erzeugen
Large Language Modelle verfolgen primär noch als Zielsetzung, geschriebene oder gesprochene Texte zu „verstehen“ und diese menschenähnlich eigenständig zu erzeugen. Sei es
- als Antworten auf verschiedene Fragen
- als Übersetzung fremdsprachiger Text
- als inhaltliche Inspiration und Gliederungsvorschlag für bestimmte Themen
- oder als vorformulierte Essays.
Darüber hinaus können Large Language Modelle jedoch bereits auch nicht textbasierte Outputs wie z.B. Bilder, Grafiken oder Programmcodes liefern.
Künstliche Intelligenz
Künstliche Intelligenz erlangt in den letzten Jahren insbesondere in Verbindung mit sprachgesteuerten Systemen (Chatbots, Sprachassistenzsysteme) hohe Aufmerksamkeit. Experten der EU-Kommission haben eine grundlegende KI-Definitionsform erarbeitet. Danach handle es sich bei Künstlicher Intelligenz um ein System, welches seine Umwelt analysieren und dabei zugleich mit einer gewissen Autonomie agieren könne, um bspw. ein bestimmtes Ziel zu erreichen. Besonderes Merkmal der Künstlichen Intelligenz sei es, wenn sich Aktionen und Ergebnisse eines Computerprogramms nicht aufgrund zuvor fest definierter und programmierter Regeln zurückführen lasse. Andere Definitionen zielen darauf ab, dass KI in ihrem Verhalten dem menschlichen Verhalten ähnelt. Dabei würden nicht nur sich gleich wiederholende Aufgaben ausgeführt, sondern die KI könne aus „Erfolg und Misserfolg“ (algorithmisch) lernen, ihr Verhalten entsprechend (selbstlernend) anzupassen.
Schwache und starke KI
Grundsätzlich können zwei Arten von KI unterschieden werden: Die schwache und die starke Künstliche Intelligenz.
- Schwache KI beschränkt sich auf konkrete Anwendungsbereiche, wobei sie auf das Wissensspektrum aus Mathematik und Informatik zurückgreift. Schwache KI-Systeme erlangen aus sich heraus kein tiefergehendes oder gar eigenständiges Verständnis für die ihnen zugewiesenen Aufgaben bzw. die zu erwartenden Lösungen. Beispiele im Alltag sind Text- und Spracherkennungsprogramme, Navigationssysteme oder programmatische Werbung.
- Starke Intelligenz soll den menschlichen intellektuellen Fähigkeiten gleichen und diese wohlmöglich übertreffen. Starke KI handelt nach dieser Vorstellung aus eigenem Antrieb, intelligent, autonom und flexibel. Sie ist dabei nicht mehr nur auf die Lösung eines konkreten Problems eingeschränkt. Bislang konnten solche derartigen Funktionsweisen noch nicht künstlich erzeugt werden.
Vom Grundverständnis her besitzt eine solche starke Künstliche Intelligenz eigenständige Eigenschaften, wie logisches Denkvermögen, Entscheidungsfähigkeit bei Abwägung vorhandener Unsicherheiten, Planungs- sowie eine (erweiterte) Lernfähigkeit.
KI-Typologie
Neben der generellen Unterscheidung zwischen schwacher und starker KI kann darüber hinaus eine Einteilung in vier weitere Typen vorgenommen werden:
- Reaktive Maschinen erfüllen einzig die Aufgabe, für die sie programmiert wurden (z.B. ein Schachcomputer).
- KI mit begrenzter Speicherkapazität ist es möglich, gesammelte Vergangenheitsdaten auf aktuelles Geschehen anzuwenden und in Entscheidungen sowie Verhalten einzubeziehen (selbstfahrende Autos, Smartphone- und Sprachassistenten, Chatbots).
- Bei Typ 3, der „Theorie des Geistes“, wären das „Empfinden“ menschlicher Emotionen und daraus folgende Reaktionen und Interaktionen möglich.
- Eine KI mit der Fähigkeit zur Selbstwahrnehmung (Typ 4) entspräche letztlich ganzheitlich dem menschlichen Bewusstsein.
Während Typ 1 und Typ 2 der schwachen KI zuzuordnen sind, zählen die beiden anderen Typen zur starken Form Künstlicher Intelligenz. Weil menschliche Emotionen, Absichten und Reaktionen in höchst komplexen Zusammenhängen stehen und technisch-mathematisch (noch) kaum abzubilden sind, zählen die derzeitigen KI-Entwicklungen in Form von Large Language Modellen gemäß dieser Einteilung allesamt zum Anwendungsfeld schwacher Künstlicher Intelligenz.
Maschinelles Lernen
Maschinelles Lernen stellt neben der klassischen KI (allgemeine logische Schlussfolgerungen und Suchstrategien), einen weiteren differenzierenden Ausprägungspfad Künstlicher Intelligenz dar. Hierbei werden dem Modell programmatisch Strategien vorgegeben, wie es Daten analysieren soll. Jedoch wird die Vorgehensweise der Analyse und deren Interpretation nicht durch eine Programmierung exakt festgelegt. Somit ist es dem Algorithmus im gesteckten Rahmen möglich, sich selbständig unter Einbeziehung von Resultaten bei der Datenanalyse zu verbessern.
Das wohl aktuell bekannteste Large Language Modell ist ChatGPT von OpenAI (Generative pre-trained Transformer). Durch Training mit großen Mengen an unterschiedlichsten Texten ist es möglich, mit dem Sprachmodell (sinnbezogen) zu kommunizieren und zu interagieren. Es erkennt die zusammenhängende Bedeutung von Wörtern sowie Sätzen (Semantik und Grammatik) und kann somit kontextbezogene Antworten liefern. Damit das Sprachmodell gewünschte Texte generieren kann, bedarf es sog. Prompts. Hierbei handelt es sich um Anweisungen, die dem KI-Modell ausreichende Informationen vermitteln, um eine möglichst passgenaue und erwartungsgemäße Antwort zu erzeugen. Neben ChatGPT gibt es weitere Sprachmodelle wie z.B.
- WriteSonic mit dem Erweiterungsmodul ChatSonic
- Jasper (automatisierte SEO-Texterstellung in über 30 Sprachen)
- Perplexity (Zusammenfassungen und Antworten auf Fragen)
- Neuroflasch (optimiert für deutsche Sprache)
- Gemini, ehemals Bard, von Google (über 40 Sprachen)
Viele solcher Anwendungen bieten sowohl kostenlose Einsteigerversionen als auch kostenpflichtige Erweiterungen an. Vor allem der kostenfreie Zugang soll ein breites Interesse wecken, wodurch die Systeme ausgiebig trainiert werden.
Künstliche Bilder und Codes
Wie eingangs erwähnt, arbeitet ein (generatives) Large Language Model auf Basis menschlicher Sprache und erzeugt mittels Algorithmen und Training mit großen Datenmengen i.d.R. systemeigene Texte. Einem Large Language Model ist es jedoch auch möglich, nicht textbasierte Outputs zu generieren. Hier führen entsprechende Algorithmen dazu, dass durch passende Prompts bspw. virtuelle Bilder oder Grafiken entstehen (sog. KI-Bildgeneratoren). Beispiele sind hierfür u.a.:
- Adobe Firefly (befindet sich derzeit in der öffentlichen Betatestphase)
- Canva Pro (arbeitet mit deutschen und englischen Prompts)
- Leonardo ai (Option möglich, anzugeben was nicht im Bild erscheinen soll)
- Midjourney (wird besonders von Gamern wegen ihrer Fantasybilder favorisiert)
- DallE (basiert auf GPT-3 und generiert ausschließlich quadratische Bilder)
Bei StableCode handelt es sich um ein codierungsspezifisches Lage Language Model. Mit ihm lassen sich entsprechend Programmcodes erzeugen. Es unterstützt Programmierer, Codes zu erstellen bzw. diese effizienter zu gestalten. StableCode wurde dazu mit gängigen Programmiersprachen wie Python, Go, Java, Javascript, C, Markdown und C++ trainiert und basiert nach eigener Aussage auf 560 Milliarden Code-Token.
Selbstlernende Systeme
Mit einem Large Language Model lassen sich nach dem bisher Gesagtem nicht nur Fragen beantworten, verschiedenste Texte aller Art erstellen und zusammenfassen, sondern auch Bilder und Programmcodes generieren. Diese künstliche Erzeugung unterschiedlicher Formen von Wissensinhalten geschieht im Wesentlichen durch das Erkennen von Mustern vorhandener (vergangenheitsbezogener) Datenbestände. Damit Systeme eigenständig lernen und Lösungen finden können, müssen sie zuvor mit den für das Lernen relevanten Daten und Algorithmen gefüttert werden. Außerdem sind Regeln für die Datenanalyse und das Erkennen von Mustern aufzustellen.
Überwachte und unüberwachte Lernsysteme
Bei computerbasierten Lernsystemen ist zwischen überwachten und unüberwachten Lernsystemen zu unterscheiden. Überwachte Lernsystemen funktionieren durch Vorgabe korrekter Funktionswerte von Entscheidungen (Wenn-Dann-Beziehungen). Bei unüberwachten Systemen trifft das System die Schlussfolgerungen durch das (trainierte) Zusammenführen großer Datenmengen in Form eines Algorithmus selbstständig. Beispiel: Menschen, die Produkt x gekauft haben, interessierten sich auch für die Produkte y und z.
Auf diese Weise erzeugt der Algorithmus auf Grundlage vieler Eingaben ein Modell, welches Vorhersagen ermöglicht. So basiert auch bspw. Entwicklung von ChatGPT darauf, dass es viele Menschen nutzen und durch Feedback bzw. veränderte Prompts das System trainieren. Damit gelingt es, ein solches Modell auf spezifische Aufgaben, Fragestellungen oder Themenbereiche zu spezialisieren. Solche selbstlernenden Systeme haben das Ziel, sich stetig zu verbessern. Sie können:
- besser generalisieren
- besser agieren
- besser vorhersagen
Diese Lerneffekte gelingen eigenständig aufgrund großer Datenmengen und entsprechender Algorithmen und werden nicht (etwa durch Wenn-Dann-Beziehungen) programmiert. Mit verschiedenen Deep-Learning-Techniken, die (wie bei DallE) bis zu hundert Milliarden Parametern umfassen können, werden immer neue mögliche Beziehungen abgeleitet. Durch das Zurückgreifen auf die zunehmend „trainierten Daten“ können so neue Inhalte eigenständig sinnvoll zusammengestellt werden. Voraussetzung für weiterführende Lernfortschritte ist allerdings eine stetig mit neuen Informationen versorgte Datenbank. Ohne kontinuierliche Zuführung neuer Daten stagnieren die Lerneffekte.
Vorteile von Large Language Models: Der menschliche Alltag wird leichter
Erleichterte Kommunikation von „Mensch-Maschine-Mensch“
Technischer Fortschritt lässt sich schwer aufhalten und die Faszination seiner Möglichkeiten zieht die Menschen in ihren Bann. Large Language Models, die eine Kommunikation „Mensch-Maschine-Mensch“ ermöglicht, erleichtert ohne Zweifel das Leben. So schleicht sich diese Art der Kommunikation unaufhaltsam in unseren zunehmend automatisierten Alltag. Abgesehen von fast schon etablierten (teils auch nervigen) sprachgesteuerten Leitsystemen im Bereich der Telefonie, sprechen wir zwischenzeitlich wie selbstverständlich mit unseren Autos, mit Alexa oder wahlweise mit Siri. Auch findet die mobile Suche bei Google immer häufiger sprach- statt textbasiert statt (Voice Search). Selbst Online-Shopping kann ausschließlich nur mit der eigenen Stimme erledigt werden (Voice Commerce). Sprache funktioniert intuitiver und schneller als die Eingabe von Texten. Dabei scheint die kreative Ausweitung der Anwendungsbereiche endlos zu sein.
Breite Anwendungsfelder
Large Language Models sind zum Beispiel in der medizinischen Wissenschaft fähig, den Aufbau und das Zusammenwirken von Proteinbausteinen, Molekülen, DNA- und RNA-Strukturen zu verstehen. Dies unterstützt u.a. bei der Entwicklung und Verbesserung von Medikamenten. Im Bereich der Kundenkommunikation gehören Chatbots bereits zum Standard. Dabei interagieren sie mit dem Kunden i.d.R. in Form eines Frage-Antwort-Modells. Selbst komplette Marketing-Kampagnenideen mit Texten, Bildern und Videos lassen sich mit LLMs generieren. Durch die spezifischen Daten-Trainingsmöglichkeiten lassen sich somit kaum Branchen ausschließen, die durch den Einsatz von Large Language Models profitieren können.
Nachteile von Large Language Models: Realität und Virtualität verschwimmen
Fake News, Ad Fraud und Pishing
Wo helles Licht scheint, ist bekanntlich auch mit Schatten zu rechnen. Das gilt auch für den Bereich der Large Language Models. Mit zunehmender Leistungsfähigkeit solcher Systeme verschwimmen vermehrt Realität und Virtualität und bringen u.a. problembehaftete Themen (z.B. verlässliche Quellen, Urheberrecht) mit sich. Zwar werden Online-Artikel (noch) redaktionell redigiert, jedoch zu einem nicht unerheblichen Prozentsatz bereits durch KI erstellt. In dem Zusammenhang stehen u.a. Fake News, bewusst vorgenommene Bildmanipulationen oder Ad Fraud (bei programmatischen Werbeschaltungen) für nachteilige Entwicklungen. Mit Blick auf die immer wichtiger werdende Cybersicherheit, wird es z.B. erleichtert, authentische und überzeugende Phishing-E-Mails zu verfassen, um Daten in betrügerischer Absicht abzugreifen.
CO2-Emissionen, Arbeitsmarkt und gesellschaftliche Entwicklungen
Konzeptionell lässt sich nachteilig anführen, dass Large Language Models nur dann sinnvoll funktionieren können, wenn sie mit ausreichend großen Mengen an Trainingsdaten ausgestattet sind. Reißt dieser Datenstrom ab, verschlechtern sich die Ergebnisse bzw. sie können sich nicht mehr verbessern. Die Verarbeitung der Daten zieht einen hohen Stromverbrauch nach sich und hinterlässt damit einen großen (negativen) CO2-Fußabdruck.
Abzuwarten bleibt, inwiefern solche Modelle einen merklichen Einfluss auf den Arbeitsmarkt nehmen. Technischer Fortschritt hat immer schon Arbeitsplätze vernichtet aber auch wieder neue (qualifiziertere) Jobs geschaffen.
Erweitern Sie Ihr Expertenwissen und perfektionieren Sie Ihre Fähigkeiten im Bereich Marketing, indem Sie an unseren geplanten Seminaren teilnehmen. Hier Erfahren Sie alles Wichtige zu den anstehenden Seminarterminen:
Fazit: Selbst als „schwache KI“ doch sehr stark
Large Language Modelle faszinieren durch die vereinfachte Möglichkeit der menschlichen Kommunikation mit Maschinen. Selbst als „schwache KI“ nimmt die Leistungsfähigkeit solcher Systeme stetig zu und schafft es mehr und mehr, automatisiert spezifische Aufgaben zu übernehmen. Die Zukunft von LLMs wird sich aufgrund ihrer Produktivitätspotenziale schnell weiterentwickeln. Dabei wird die Fähigkeit, aus trainierten Daten kontextübergreifend Inhalte und Wissen zu generieren und zu transponieren, zunehmen und damit zugleich die Anwendungsbereiche sukzessiv erweitern. Die für das Funktionieren notwendigerweise zunehmende Datenflut sowie deren Verarbeitung sind dabei nicht nur hinsichtlich ihres Energiebedarfs kritisch zu sehen. Letztlich berührt das Thema ethische Fragenstellungen unserer Gesellschaft dahingehend, wie wir im Zeitalter von Digitalisierung und Automatisierung grundsätzlich mit Daten umgehen und welche Macht wir ihnen geben möchten.
Lassen Sie sich von unserem Experten beraten.
#largelanguagemodel #llm #KI