Ich habe mir von Anfang an meiner Programmierkarriere mit der Hilfe von Sprachmodellen als Uebersetzer ueberlegt und dannach gearbeitet, von anderen keinen Code zu Kopieren. Es gibt bisher nur eine Ausnahme und das ist die Mathematik im Mining Programm, aber selbst dieser Code, ist sozusagen komplett von mir mit Hilfe der Sprachmodelle neu geschrieben worden, weil er sonst garnicht erst in mein Programm gepasst haette oder die Anforderungen erfuellen haette koennen um die "modernen" Sachen zu Rechnen.
Soweit so Gut arbeite ich die meiste Zeit inzwischen logischerweise an meinem KI Programm, weil ja mein wichtigstes Werkzeug ist und das muss Funzen wie die Nacht.
Nun ich lerne immer noch, Topdown und versuche einfach, wie ein Puzzle oder ein Bild, das Ganze von Oben zu betrachten, um anschließend die Details, fehlend auszuarbeiten. Bei meinen Kernen, also den "Motoren" fuer meine Programme, ist das am Schwersten.
Ich brauche sozusagen keine Hilfe, beim Programmieren des "Grundgeruests" und verstehe die Funktionen Gut. Aber die Kerne, laber mit der Hardware direkt, so wie ich das Neu baue fuer mein Programm.
Hier besteht die Schwierigkeit, das ich keinerlei Beispiele gefunden habe am Anfang. Aber ehrlich gesagt, habe ich auch keine halbe Stunde dannach gesucht insgesamt.
Das bedeutet, ich bin lieber Blind im Nebel unterwegs, als mir die schoenen Huetten anderer anzuschauen und die nachzubauen.
Nicht so bei Llama.cpp.... Oh Mann, ich will das fast nicht Schreiben, aber mich wundert es nicht, warum des alles so lahm ist. Das versucht, eine eierlegende Wollmilchsau zu sein und wer meine Beitraege wirklich verrueckterweise konsumiert hat, weis, das ich Leistung schon in der Art sparen kann, wie man etwas schreibt.
Daran denken viele nicht und noch weniger, probieren es einfach so lange aus, bis sie was gefunden haben, womit sie sparen koennen, ohne auf etwas zu verzichten, das nicht Verzichtbar waehre.
Llama.cpp Kernel, sparen nicht, die sind einfach alles.
Ich mag es ja irgendwie auch, weil mach mal so einen fuenftausend Zeilen Klopper als Kernel fuer SYCL Berechnungen auf Sprachmodellen.
Aber, das war es nicht, mit den 5k Kernelzeilen fuer alle.
Das muss noch mehr mindestens ein 3K Klopper, scheint noch beim jetztigem Zustand von XAIGPUARC nortwendig zu sein.
Deswegen, funktioniert das auch ueberall.
Bei also so um die 8k Zeilen Kernelarbeit, wird mir nicht Schlecht, weil ich es ein bisschen... bewusster angehe. Das bedeutet, ich habe gegraben, wo ich weis, das ich sparen kann und dann Prompteingaben gefunden, die wirklich wirklich schlecht geschrieben sind. So Schlecht, das ich mich Frage, was sie fuer einen Sinn haben. Es sind viele solcher Haeppchendateien die Llama da baut fuer eine Berechnung. Das dann nix Vorran geht, ist kein Wunder, wenn die alle untereinander reden mussen und noch dazu viele Automatismen, erstmal was Arbeiten und das kostet alles Zeit, so wie diesen Text zu lesen.
Also was mache ich?
Ich mache das Wesentliche, ich nehme die Eierlegende Wollmilchsau und mache den sogenannten Wolperdinger daraus. Das ist ein kleines Etwas, das vielleicht weniger Produktiv sein mag, aber wenigstens, irgendwie Lauf und Fluegfaehig zu sein scheint. Es kann Essen und Scheißen, ist also eher Vorstellbar, als die ultimative Produktionsmaschine.
Ich baue schlicht nur ein, was es braucht, schreibe nebenbei das halbe Zeug komplett Neu Neu, und mache die XMX Kerngeschichte schon unabhaengig von Herstellern.
Das bedeutet die Noseinspritzung, funktioniert, solange da irgendwo Recheneinheiten sind, die 16x16 Matrizen ausrechnen koennen. Zugegeben, hier habe ich auch zwei Pruefautomatismen in der mache, die das erstmal pruefen sollen, was da ist und wie man es vollstopft mit Lachgas, aka KI Inferrenzberechnungen. Diese funktionieren dann auch mit Hardware, die vor 2020 erschaffen wurde.
Zumindest sollten sie, wenn ich Fertig damit bin.
Salve
Alucian