Endlich eine Definition für Opensource-KI („Open Source AI“): Fragen der Transparenz, Sicherheit und Zugänglichkeit spielen im Bereich KI eine zentrale Rolle. Mit der nun erfolgten Veröffentlichung der „Open Source AI Definition 1.0“ (OSAID) durch die Open Source Initiative (OSI) wurde ein wichtiger Schritt unternommen, um den offenen Zugang zu KI-Systemen zu fördern und festzulegen, welche Anforderungen an eine als „Open Source“ geltende KI zu stellen sind. Diese Definition bietet erstmals eine klare Orientierung für die Entwicklung und Nutzung offener KI und schafft Rahmenbedingungen, die sicherstellen sollen, dass KI-Systeme transparent, modifizierbar und für alle nutzbar sind.
Was ist „Open Source AI“?
Im Kern beschreibt die OSAID „Open Source AI“ als ein KI-System, das so gestaltet und lizenziert ist, dass es die vier wesentlichen Freiheiten bietet:
- Nutzung der KI für beliebige Zwecke,
- Studium der Funktionsweise des Systems,
- Modifikation der Systemeigenschaften und
- Weitergabe an andere, ob im Originalzustand oder modifiziert.
Diese Freiheiten sind sowohl auf vollständige Systeme als auch auf einzelne Systemkomponenten anwendbar, sofern die „bevorzugte Form zur Modifikation“ verfügbar ist, die alle Elemente enthält, die für das Verständnis und die Veränderung der KI erforderlich sind.
Die „Bevorzugte Form zur Modifikation“
Um eine umfassende Offenheit sicherzustellen, fordert die OSAID eine transparente Bereitstellung der drei Hauptbestandteile eines KI-Systems: Dateninformationen, Quellcode und Parameter.
- Dateninformationen: Umfasst detaillierte Beschreibungen der für das Training verwendeten Daten. Diese Informationen sollen so präzise sein, dass eine fachkundige Person das System nachvollziehen und modifizieren kann. Hierzu zählen Angaben zur Herkunft und Auswahl der Daten, deren Labeling und Verarbeitung sowie Quellen für öffentlich verfügbare und käufliche Trainingsdaten.
- Quellcode: Der gesamte Quellcode, der für Training und Ausführung der KI notwendig ist, muss offengelegt werden. Dies schließt Code für Datenverarbeitung, Modelltraining, Validierung und Inferenz ein. Durch den Zugang zum Quellcode können Nutzer das System in seiner vollen Funktionalität verstehen und anpassen.
- Parameter (Modelleinstellungen): Die Modellparameter, wie Gewichte und Konfigurationen, sind ein zentraler Bestandteil für das Reproduzieren und Verändern eines Modells. OSI verlangt, dass diese Parameter so verfügbar gemacht werden, dass ihre Nutzung und Weitergabe ermöglicht wird.
Unterschiede zur klassischen Open-Source-Definition
Während die klassische Open-Source-Definition (OSD) sich auf Softwareprogramme bezieht, ist ein KI-System weit mehr als nur Software – es besteht aus komplexen Modellen, die durch spezifische Daten und Parameter geformt werden. Die OSAID reagiert auf die Herausforderungen des KI-Bereichs, indem sie klärt, was für die Modifikation eines KI-Systems erforderlich ist, insbesondere durch die Bereitstellung von Trainingsdaten und Modellparametern.
Balanceakt: Anforderungen an Trainingsdaten
Ein zentraler Diskussionspunkt war die Frage, wie offen Trainingsdaten sein müssen. Während Open Source traditionell uneingeschränkten Zugang zu Quellmaterialien fordert, ist dies im KI-Bereich komplizierter. Die OSAID erlaubt, dass bestimmte Trainingsdaten nicht geteilt werden, etwa wenn rechtliche oder ethische Gründe dem entgegenstehen (z.B. in der Medizin oder bei personenbezogenen Daten). OSI argumentiert, dass Transparenz dennoch gewahrt bleibt, wenn ausreichend Informationen zur Struktur und Herkunft der Daten bereitgestellt werden. So bleibt es anderen Akteuren möglich, das System zu reproduzieren oder ähnliche Modelle mit eigenen Daten zu erstellen.
Bedeutung der Definition für die Zukunft
Die OSAID stellt ein klares Bekenntnis zur Transparenz und zur Förderung von Innovationen im KI-Bereich dar. Durch die präzisen Anforderungen an Daten und Code wird ein Rahmen geschaffen, der es Entwicklern, Forschern und Unternehmen ermöglicht, bestehende Systeme zu verstehen, zu modifizieren und weiterzuentwickeln. Besonders in sensiblen Bereichen wie der Medizin oder öffentlichen Dienstleistungen bietet dies eine Möglichkeit, Open Source KI zu etablieren, ohne dass vertrauliche oder personenbezogene Daten ungeschützt offengelegt werden müssen.
Die Definition ermöglicht es auch, dass Open-Source-KI neben proprietären Systemen bestehen kann, da die Transparenzpflichten an die jeweiligen Nutzungskontexte angepasst sind. Die Aufteilung der Datenklassen (offene, öffentliche, zugängliche und nicht-teilbare Daten) sichert den rechtlichen Rahmen ab und ermöglicht ein flexibles System, das mit zukünftigen Entwicklungen und Anforderungen Schritt halten kann.
Mit der Veröffentlichung der „Open Source AI Definition 1.0“ (OSAID) durch die Open Source Initiative (OSI) gibt es erstmals einen formalen Rahmen für Open-Source-KI. Doch die Reaktionen auf diese Definition sind gemischt, besonders wenn es um große Technologieunternehmen geht, die ihre KI-Produkte als „offen“ anpreisen. Dabei stellt sich die Frage, inwieweit die Definition auf eine klare Abgrenzung zu herkömmlichen Closed-Source-Praktiken hinarbeitet und ob sie wirklich zur Demokratisierung der KI-Welt beitragen kann oder letztlich „Open-Washing“ ermöglicht.
Die Herausforderung etablierter Anbieter
Große Akteure wie Meta, Google oder Elon Musks KI-Initiative Grok bezeichnen ihre Modelle als Open-Source. Die OSAID sieht dies jedoch kritisch, denn viele dieser Modelle bleiben in entscheidenden Aspekten geschlossen. Häufig fehlt der offene Zugang zu Trainingsdaten, oder es werden Sonderlizenzen benötigt, um die Modelle kommerziell zu nutzen. Ein klassisches Beispiel ist Metas Llama, das in bestimmten Nutzungsfällen eine Lizenz für Plattformen mit mehr als 700 Millionen Nutzern verlangt, was die Offenheit erheblich einschränkt. Obwohl Meta und andere Firmen an der Entwicklung der Definition beteiligt waren, lehnen sie dennoch einige Anforderungen der OSAID ab.
Diese Praktiken werfen die Frage auf, ob es sich hier um echte Offenheit handelt oder um eine Form des „Open-Washing“. Der Begriff beschreibt das Marketing einer Technologie als „Open-Source“, obwohl sie kaum zu den Grundsätzen der Transparenz und Zugänglichkeit passt. Durch „Open-Washing“ verschaffen sich Unternehmen Zugang zu einem Image von Transparenz und Innovation, ohne dabei die volle Offenheit zu gewährleisten, die die Definition fordert.
Welche Rolle spielt das Urheberrecht?
Einer der größten Konfliktpunkte liegt im Bereich der Datenverwendung. Die OSAID fordert zwar die Bereitstellung aller Informationen zu den verwendeten Daten, einschließlich deren Herkunft und Verarbeitungsweise, doch diese Transparenz ist bei vielen großen Anbietern problematisch. Die Trainingsdaten vieler Modelle bestehen aus riesigen, häufig urheberrechtlich geschützten Sammlungen, die von Websites und sozialen Netzwerken stammen. Künstler und Verleger haben bereits rechtliche Schritte unternommen, weil ihre Werke ohne Zustimmung für das Training dieser Modelle genutzt wurden.
Obwohl die Definition selbst nicht explizit auf Urheberrechtsfragen eingeht, könnte sie dennoch als Anstoß für juristische Diskussionen und mögliche Reformen dienen. Die zunehmende rechtliche Unsicherheit in Bezug auf KI und das Urheberrecht könnte letztlich zu einer stärkeren Reglementierung führen, die das Konzept der offenen KI weiter erschwert. Der OSI setzt darauf, dass Gerichte die OSAID bei zukünftigen Entscheidungen berücksichtigen könnten – sowas gibt es in Deutschland etwa rund um die GPL. Tatsächlich könnte das Unternehmen, die ihre Trainingsdaten geheim halten, vor große Herausforderungen stellen und zu einem Wendepunkt im Umgang mit „offenen“ Modellen führen´.
Ausblick: Zukunft der Open Source AI
Die Einführung der OSAID ist auf jeden Fall ein wichtiger Schritt zur Etablierung eines Standards im Bereich Open-Source-KI. Doch die Durchsetzung der Definition bleibt eine Herausforderung: Die OSI selbst hat (natürlich) keine rechtlichen Mittel, um die Einhaltung der Definition zu erzwingen, und verlässt sich stattdessen auf die Community, um falsche Deklarationen als solche zu entlarven. Allerdings stellt „Open-Washing“ letztlich auch nur eine Variante des KI-Washing dar, was wettbewerbsrechtlich verfolgt werden kann.
Mit der „Open Source AI Definition 1.0“ liefert die OSI insoweit eine zukunftsweisende Grundlage für die Entwicklung und Verbreitung transparenter und zugänglicher KI. Die Definition schafft einen Standard, der einerseits die Offenheit bewahrt und andererseits die Besonderheiten und Anforderungen des KI-Bereichs respektiert. Jetzt, da zunehmend auf KI-Technologie setzt, bietet diese Definition eine erste auch für Techniker gut umsetzbare Möglichkeit, vertrauenswürdige und transparente KI-Systeme zu entwickeln, die allen zugutekommen und einem de-facto-Standard genügen.
In der Zukunft wird entscheidend sein, wie die Definition weiterentwickelt wird und ob sie den Anforderungen der Praxis und den rechtlichen Rahmenbedingungen standhalten kann. Die Diskussionen um die Offenheit und Urheberrechte in der KI werden sicher weitergehen, und die OSAID wird dabei eine wichtige, aber vermutlich nicht die einzige Rolle spielen.
- Sichere Softwareentwicklung: Ein Leitfaden zur Risikovermeidung und Qualitätssteigerung - November 10, 2024
- Open Source AI Definition 1.0 - Oktober 31, 2024
- Überblick über das Softwarerecht in Deutschland: Wichtige rechtliche Probleme bei der Softwareentwicklung und -vermarktung - September 21, 2024
Ein Gedanke zu „Open Source AI Definition 1.0“
Kommentare sind geschlossen.