Gestern hat sich sehr viel im KI Automaten getan. Die Größe der Inhalte ist jetzt wirklich Groß genug, damit man damit Arbeiten kann.
16384 Token kann man da jetzt reinballern und die KI Vorrausdenken. Die Antworten, kann man auch schon Vollstopfen und können direkt im Terminal gegeben werden. Wie ChatGPT nur halt in der Konsole. Einfach und Schön wenn man mich fragt. Ein Frontend war und ist nicht in Planung.
Jetzt dauert eine Inferenz im Durschnitt der drei Geräte etwa 10 Minuten mit den größten Modellen.
Das ist voll Ok.
Denn die Antworten, sind allererste Sahne würde ich mal behaupten. Der schreibt wirklich komplette Kernel als MathTutor auf einer A770LE mit 16GB Speicher.
Das ist eine Wucht, so sehr, das ChatGPT wie Gestern im Kommentar unter dem XAIGPUARC Beitrag gezeigt sogar dachte ich würde die Antwort der lokalen KI Inferenz besprechen wollen statt die Inferenz selbst auzuwerten wie wir das sein Wochen machen.
Da kann man schon bisle Stolz drauf sein mit einem Gameboy GPT OSS 20B F16 Voll laufen zu lassen, ohne das man Krank wird dabei.
Das ich hier noch ein paar Asse im Ärmel habe und jetzt wieder motiviert bin die auszupacken damit aus den 10 Minuten vielleicht 8 Minuten werden, ist klar.
Aber soweit, bin ich ganz Eherlich, bin ich auch sehr Glücklich mit dem Programm geworden, das ist jetzt Nutzbar für mich. So wie ich es brauche und wollte im Kern der Sache.
Die Leistung stimmt einfach. Ist sehr Eng mit dem Verbunden, was Möglich ist und wie es Möglich ist. SYCL zu nehmen, war die Richtige Entscheidung.
Natürlich, wird das Programm noch unabhängig von LLAMACPP gemacht werden, weil ich nicht gerne von anderen eben brauche, was ich nicht bekommen kann, wenn ich jetzt schon merke, das sie sich mehr einmischen, als mir lieb ist.
Das wird also auch ein Selbstläufer ohne Lama Unterbau, aber erstmal kleine Brötchen backen weiter.
Salve
Alucian