Lokalni AI modeli

drag_gost · Post by **drag_gost** » 25/09/2025 23:35

Prije svega hvala na temi, ukoliko se slazes ja bih je prosirio na AI i ML ucenje generalno, ali na tebi je @zilog . Pa da mozemo malo pricati i o cloud servisima, edukacijama, cerfitikacijama.

Kao sto je napisano, lokalni AI modeli su offline modeli gdje vi mozete da svoje treninge radite, budete fleksibilni. Mozete to raditi na telefonima, tabletima, racunarima ili serverima. Bitno je da imate dovoljno jak GPU i dovoljno RAM memorije.

Neki primjeri su LLaMA 2 ili 3, Mistral/Mixtral, GPT4All, za slike Stable Diffusion, za govor se obicno koristi Whisper od OpenAI.

Vezano za pitanje da li lokalni modeli koriste bazu sa interneta, odogovor je ne. Vi skinete model i dobijate tezinu (weight), sto je obican fajl sa brojevima koji predstavlja znanje koje je model naucio. To znanje je ugradjeno u model i ne mijenja se. Dakle, model ne koristi internet, vec koristi sazvakano znanje koje je vec naucio. Ako ste offline onda model nema pristupu najnovijim podacima (vrijeme, vijesti, itd), dakle ne moze biti apdejtovan sa zadnjim trendovima.

Vezano za lokalnu bazu znanja, tu dolazimo do vec spomenutog RAG-a (Retrieval-Augmented Generation). RAG podrazumjeva indeksirano znanje ili vektorske baze. Da objasnim to jednostavno: zamislite da je AI model neko ko je mnogo citao, ali pamti samo do odredjenog datuma. RAG dodaje dva koraka:

- Pretraga (Retrieval) - AI prvo pogleda tvoju bazu znanja (lokalno ili online)
- Generacija (Generation) - AI zatim koristi ono sto je nasao da ti da odgovor

Primjer:

- Upit - koja je nova sifra za Wi-Fi u kuci?
- RAG:
1. Potrazi u biljesakama
2. Nadje dokument sa Wi-Fi sifrom
3. Vrati odgovor sa sifrom

Volio bih zaista da pricamo o cloud servisima i njihovim primjenama kao i o korisnim certifikatima na ovoj temi.

zilog · Post by **zilog** » 26/09/2025 00:26

Naravno, necemo biti religiozni oko naziva teme...

Lako ga je dopuniti, kada se ukaze potreba...

moonco · Post by **moonco** » 26/09/2025 00:34

Ollama puno brža i fluidnija u radu od LM Studija na Linuxu.
Dodavanja AI direktno na sistem uz Warp, umjesto običnog terminala

Ne treba Sega mega konfiguracija za Ollama. Lakše je naučiti malo oko terminala nego bacati pare na neke konfiguracije.

Od izbora modela mnogo je teže i više posla treba oko punjenja baze podacima za učenje. Tako da trenutno treba raditi na strategiji skupljanja podataka

Moja konfiguracija:

Ollama + LLM Modeli + Open WebUI(ima ugrađen RAG)

Pipeline(Vektor DB: FAISS / ChromaDB)
Svi podaci i informacije idu u relacionu bazu podataka Postgres. Tako da se uvijek mogu skalirati prema veličini modela.

Baza se puni preko WebScrapera ako je format podataka http.

drag_gost · Post by **drag_gost** » 26/09/2025 06:31

Samo ispravka, FAISS nije vektorska baza, vec biblioteka koja trazi slicnost medju vektorima. Dakle, kombinuje se sa vektorskom bazom.

moonco · Post by **moonco** » 26/09/2025 17:48

drag_gost wrote: ↑26/09/2025 06:31 Samo ispravka, FAISS nije vektorska baza, vec biblioteka koja trazi slicnost medju vektorima. Dakle, kombinuje se sa vektorskom bazom.

Da.

Možemo obraditi strategiju korištenje:

Lokalni LLM + RAG sa lokalnom relacionom bazom podataka
Lokalni LLM + Paid Pretplata // sa fokusom na privatnost i zaštita osjetljivih podataka, API-ja i tokena. Odvojeno ili integrisana API Pretplata.

Za lokalne konfiguracije hardvera poskupo je za obične korisnike dati par hiljada.

Možemo postaviti i prijedloge pristupačnih Refurbished Desktop/Notebook računara tako da i obični korisnici mogu normalno koristiti lokalne LLM.

zilog · Post by **zilog** » 26/09/2025 21:41

Par pitanja za obojicu:

1. Citam i koristim veliki broj dokumenata (data sheet, textbook, code snippet...) sa web-a: pdf, ppt, html... Trenutno je sve to razbacano na more Chrome tab-ova i grupa kartica, da bi bilo dostupno kada zatreba. Ne trebam ni napominjati, koliko puta sam zaboravio gdje mi je sta, pa sam opet trazio. Bilo bi idealno da postoji neki Chrome plugin, kojim bi mogao scrap-nuti aktuelni tab, ili pak sve snimljene kartice, u neki RAG, pa to ubuduce koristiti iz nekog lokalnog LLM-a?

2. Moze li se tako pripremljena RAG baza direktno konvertovati u fine tuning dataset, ili se treba posebno raditi scrap za tuning?

3. Da li je konverzija iz RAG-a u dataset za eventualni fine tuning - straight forward? Moze li se automatizirati i koji alat mogu koristiti za to?

drag_gost · Post by **drag_gost** » 26/09/2025 23:43

moonco wrote: ↑26/09/2025 17:48
drag_gost wrote: ↑26/09/2025 06:31 Samo ispravka, FAISS nije vektorska baza, vec biblioteka koja trazi slicnost medju vektorima. Dakle, kombinuje se sa vektorskom bazom.
Da.

Možemo obraditi strategiju korištenje:

Lokalni LLM + RAG sa lokalnom relacionom bazom podataka
Lokalni LLM + Paid Pretplata // sa fokusom na privatnost i zaštita osjetljivih podataka, API-ja i tokena. Odvojeno ili integrisana API Pretplata.

Za lokalne konfiguracije hardvera poskupo je za obične korisnike dati par hiljada.

Možemo postaviti i prijedloge pristupačnih Refurbished Desktop/Notebook računara tako da i obični korisnici mogu normalno koristiti lokalne LLM.

Mogu biti i fajlovi koji su indeksirani (.docx, pdf, xlsx, ...).

Takodjer, mozemo se igrati i sa serverom koji je onprem pa onda svi na lokalnoj mrezi mogu koristiti modele. To je ukoliko zelimo zatvoreno sistem. E sada, zavisnosti od masina, najjednostavnije je igrati se sa Edge AI, odnosno upotrijebiti male LLM modele po potrebi. To nam daje fleksibilnost i modularnost, a ne iziskuje veliku GPU i RAM snagu. Taj pristup ima naravno i svoje mane.

drag_gost · Post by **drag_gost** » 27/09/2025 00:09

zilog wrote: ↑26/09/2025 21:41 Par pitanja za obojicu:

1. Citam i koristim veliki broj dokumenata (data sheet, textbook, code snippet...) sa web-a: pdf, ppt, html... Trenutno je sve to razbacano na more Chrome tab-ova i grupa kartica, da bi bilo dostupno kada zatreba. Ne trebam ni napominjati, koliko puta sam zaboravio gdje mi je sta, pa sam opet trazio. Bilo bi idealno da postoji neki Chrome plugin, kojim bi mogao scrap-nuti aktuelni tab, ili pak sve snimljene kartice, u neki RAG, pa to ubuduce koristiti iz nekog lokalnog LLM-a?

2. Moze li se tako pripremljena RAG baza direktno konvertovati u fine tuning dataset, ili se treba posebno raditi scrap za tuning?

3. Da li je konverzija iz RAG-a u dataset za eventualni fine tuning - straight forward? Moze li se automatizirati i koji alat mogu koristiti za to?

Fino, konkretna primjena lokalnog modela

Idemo redom:

1. Mora biti neka Chrome ekstenzija, ali ja bih isao ka tome da napisem ekstenziju koja ce odmah kupiti sadrzaj aktivnog taba i slati na lokalni server, odatle u ingest folder. Bukvalno fetch treba napraviti, mozes obicni node servis napisati, moze i flask, fastAPI, sta god ti je lakse. Treba malo procackati Native Messaging API.

2. Normalizacija i ekstrakcija teksta

3. Priprema za RAG (chunking i embedding)

4. Indeksiranje (FAISS + SQLite ili obicni JSON, Chroma, Milvus - sta god ti odgovara). Milvus je tezi za setup.

5. RAG pipeline (upit -> embedding, FAIS (kNN koristiti), sastaviti prompt (vraceni chunkovi su kontekst + prompt inzinjering odnosno upit usera), posaljes prompt lokalnom LLM-u (koji god da koristis), LLM generira odgovor.

Ako ces ici sa svojom ekstenzijom, zbog sigurnosti i osjetljivosti podataka obrati paznju da bude samo dostupan iz localhosta, pravi backupove baze redovno (automatizuj).

Dalje, vezano za fine-tunning, RAG i konverziju:

Tesko da moze direktno jer su to dva odvojena sistema. RAG baza je skup dokumenata sa embeddinzima i optimizacijama za pretragu, a fine-tunning set je skup parova pitanja i odgovora ili skup instrukcija sa odgovorima u JSONL ili tekstualnom formatu. RAG cuva znanje, a fine-tunning treba eksplicitne primjere dijaloga na kojem moze mozel uciti. Vezano za scrap, ako vec imas sve u RAG bazi, to bi trebao biti izvor materijala za fine-tunning, medjutim moras sam dodati parove za pitanja i odgovore. Konverzija se moze automatizovati. Trebas napraviti:

1. pretragu u RAG-u
2. imati spremna pitanja/odgovore
3. formatirati u JSONL (predlazem HuggingFace datasets)

Eh sada, automatizacija moze biti jednostavnija sa Langchainom koji ima pipeline za generisanje QA datasetova ili da koristis LlamaIndex koji ce sinteticki vezati QA skupove iz dokumenata.

Nadam se da je jasno, pitaj ako nesto treba pojasniti.

moonco · Post by **moonco** » 27/09/2025 01:00

Mora biti nekakva lista URL-ova, da može dohvatiti Source kod

Eh kad dođe do source koda onda mora sve fetchovati u sirovi source kod

Eh kad to ima onda mora znati koristiti id-ove i klase u source kodu (Headere, naslove, paragrafe itd...) Da nemaš bulk sirovi source kod

Eh kad to imaš onda moraš to sve parsirati u neki txt/json/csv fajl.

Dokle smo došli...Da malo je nezgodno žnj svega natrpati

Scrapovanje URL-ova koji imaju web aplikacije koje vec imaju definisanu strukturu. To je jednostavno, jer filtriras, skidas zanimljivi sadrzaj preko ID-ova.

Uglavnom morat ces raditi sa Id-ovima i parsiranjem jer ces imati pogolemu bazu ako se radi o hiljadama, desetinama i stotinama hiljada stranica.

moonco · Post by **moonco** » 27/09/2025 01:06

Tvoj prvi zadatak je da ovo riješiš.

Najlakše ti je preko Python biblioteka: requests + BeautifulSoup / lxml / selenium/playwright.

Format će ti biti ovako:

Tipični JSON objekt po page/chunku:

Code: Select all

{
  "url": "https://example.com/page1",
  "title": "Naslov stranice",
  "author": "Ime autora",
  "date": "2025-09-27",
  "content": [
    {"type": "paragraph", "text": "Ovo je prvi paragraf."},
    {"type": "list", "items": ["item1", "item2"]},
    {"type": "code", "text": "print('Hello World')"}
  ]
}

Ovo ti daje chunkable, pretrazivo i auditabilno spremište. Iz ovoga možeš kasnije praviti embeddinge za RAG ili prompt/completion za fine-tuning.

Možeš dodati da ti parelelno odmah chukira i da imas odmah spremne fajlove za RAG

json_pages/ → JSON fajl po stranici sa chunkovima (RAG-ready).
Source code skripte: pastebin.com/N6qXRCXs

Generiranje fine-tuning JSONL dataset iz RAG-ready chunkova.
Source code skripta pastebin.com/kVTghiq7

zilog · Post by **zilog** » 27/09/2025 01:39

Aha, hvala

Mislio sam da vec postoji nesto gotovo, posto je prilicno generalizirano. Nismo valjda pioniri u ovome?

Znaci, treba zasukati rukave.

Javim ako mi nesto zapne...

moonco · Post by **moonco** » 27/09/2025 06:07

zilog wrote: ↑27/09/2025 01:39 Aha, hvala

Mislio sam da vec postoji nesto gotovo, posto je prilicno generalizirano. Nismo valjda pioniri u ovome?

Znaci, treba zasukati rukave.

Javim ako mi nesto zapne...

Ovo ti dodje DevOps + Data Engineering

Za ovo treba najviše vremena. Jer različite stranice koriste različite web aplikacije tipa Wordpress, phpBB...imaju različitu arhitekture. Lokalno je najlakše preko HTML pravila i sa algoritmima izvlačiti ono što ti treba. Sve drugo lokalno sa LLM ide jako teško.

Druga stvar industrijski ovo se sve radi sa REST API-jima. Tako da se podaci ne moraju skupljati u svoju bazu podataka već se koriste tuđe baze podataka preko API-ja u realnom vremenu.

Jedino integracijom nekog API-ja od ovih javnih servisa kao ChatGPT može se ovo ubrzati.

Korištenje online podataka iz pretraga radiš preko Search engina, Google Custom API, Bing, DuckDuck... Imaš dovoljan broj upita za besplatne račune.

zilog · Post by **zilog** » 27/09/2025 11:20

moonco wrote: ↑27/09/2025 06:07
zilog wrote: ↑27/09/2025 01:39 Aha, hvala

Mislio sam da vec postoji nesto gotovo, posto je prilicno generalizirano. Nismo valjda pioniri u ovome?

Znaci, treba zasukati rukave.

Javim ako mi nesto zapne...
Ovo ti dodje DevOps + Data Engineering

Za ovo treba najviše vremena. Jer različite stranice koriste različite web aplikacije tipa Wordpress, phpBB...imaju različitu arhitekture. Lokalno je najlakše preko HTML pravila i sa algoritmima izvlačiti ono što ti treba. Sve drugo lokalno sa LLM ide jako teško.

Druga stvar industrijski ovo se sve radi sa REST API-jima. Tako da se podaci ne moraju skupljati u svoju bazu podataka već se koriste tuđe baze podataka preko API-ja u realnom vremenu.

Jedino integracijom nekog API-ja od ovih javnih servisa kao ChatGPT može se ovo ubrzati.

Korištenje online podataka iz pretraga radiš preko Search engina, Google Custom API, Bing, DuckDuck... Imaš dovoljan broj upita za besplatne račune.

Razumijem.

Moje naivno razmisljanje, je bilo da postoji neki gotov Chrome (FireFox, Edge...) plug-in, koji na hot-key (npr. Ctrl-[

), u browser-u, prije render-a, pokupi tekst (i slike, ako radimo multimodalno) i proslijedi to alatu za RAG (chunking, indexiranje, embedding forging...) i agentu, koji uradi sumarizaciju i Q/A za fine tuning...

Kad smo vec kod ovog problema:
Bas me interesuje, kada ce proizvodjaci, npr. elektronskih komponenti, shvatiti potencijal primicanja njihovih baza znanja (data sheet, user guide, reference design, best practices...), AI svijetu i na sajtove okaciti RAG-ove i Q/A datasetove. HF ima milione datasetova, a nista od ovoga...

drag_gost · Post by **drag_gost** » 17/10/2025 12:56

Kakva je situacija?

zilog · Post by **zilog** » 21/10/2025 00:34

drag_gost wrote: ↑17/10/2025 12:56 Kakva je situacija?

Nasao sam onaj IBM-ov Docling, koji bi mogao parsati sve sto mi treba za RAG.

To je to za sada. Kad uhvatim vremena, pozabavicu se detaljnije...

drag_gost · Post by **drag_gost** » 22/10/2025 23:03

zilog wrote: ↑21/10/2025 00:34
drag_gost wrote: ↑17/10/2025 12:56 Kakva je situacija?
Nasao sam onaj IBM-ov Docling, koji bi mogao parsati sve sto mi treba za RAG.

To je to za sada. Kad uhvatim vremena, pozabavicu se detaljnije...

Kakav si sa certifikacijama?

zilog · Post by **zilog** » 23/10/2025 00:32

drag_gost wrote: ↑22/10/2025 23:03
zilog wrote: ↑21/10/2025 00:34
drag_gost wrote: ↑17/10/2025 12:56 Kakva je situacija?
Nasao sam onaj IBM-ov Docling, koji bi mogao parsati sve sto mi treba za RAG.

To je to za sada. Kad uhvatim vremena, pozabavicu se detaljnije...
Kakav si sa certifikacijama?

Nista u AI domenu, cisto amaterski...

Ali zato maltretiram polinomijalne regresije, ko digitalni Epstein...

drag_gost · Post by **drag_gost** » 23/10/2025 07:48

zilog wrote: ↑23/10/2025 00:32
drag_gost wrote: ↑22/10/2025 23:03
zilog wrote: ↑21/10/2025 00:34

Nasao sam onaj IBM-ov Docling, koji bi mogao parsati sve sto mi treba za RAG.

To je to za sada. Kad uhvatim vremena, pozabavicu se detaljnije...
Kakav si sa certifikacijama?
Nista u AI domenu, cisto amaterski...

Ali zato maltretiram polinomijalne regresije, ko digitalni Epstein...

Hoce to sa supervised treninzima.

Ja evo radim na eksperimentalnim PEFT-ovima.

zilog · Post by **zilog** » 27/12/2025 17:29

Seawolf wrote: ↑20/09/2025 17:08 Ili, da preokrenem pitanje: Koliko je kombinacija AMD Ryzen 9 9950X3D + G.Skill Trident Z5 Neo RGB 96 GB (2 x 48 GB) DDR5-6000 CL28 + Asus TUF GAMING GeForce RTX 5090 32 GB, lošija za AI lokalno izvođenje od ovoga na šta si postavio link?

Drug, kupi li ti ovo?

Da testiramo neki AI model?

Seawolf · Post by **Seawolf** » 28/12/2025 12:37

zilog wrote: ↑27/12/2025 17:29
Seawolf wrote: ↑20/09/2025 17:08 Ili, da preokrenem pitanje: Koliko je kombinacija AMD Ryzen 9 9950X3D + G.Skill Trident Z5 Neo RGB 96 GB (2 x 48 GB) DDR5-6000 CL28 + Asus TUF GAMING GeForce RTX 5090 32 GB, lošija za AI lokalno izvođenje od ovoga na šta si postavio link?
Drug, kupi li ti ovo?

Da testiramo neki AI model?

Kupio.

Sklopio.

Noćas instalisao najnoviju verziju BIOS-a (4.03) za Asrock Taichi matičnu ploču.

Instalisao X-Plane 12.

I šta sada?

zilog · Post by **zilog** » 28/12/2025 14:21

Seawolf wrote: ↑28/12/2025 12:37
zilog wrote: ↑27/12/2025 17:29
Seawolf wrote: ↑20/09/2025 17:08 Ili, da preokrenem pitanje: Koliko je kombinacija AMD Ryzen 9 9950X3D + G.Skill Trident Z5 Neo RGB 96 GB (2 x 48 GB) DDR5-6000 CL28 + Asus TUF GAMING GeForce RTX 5090 32 GB, lošija za AI lokalno izvođenje od ovoga na šta si postavio link?
Drug, kupi li ti ovo?

Da testiramo neki AI model?
Kupio.

Sklopio.

Noćas instalisao najnoviju verziju BIOS-a (4.03) za Asrock Taichi matičnu ploču.

Instalisao X-Plane 12.

I šta sada?

Za pocetak instaliraj LM Studio (najzahvalniji za pocetak), zatim skini neki "laksi" model (npr. gpt-oss-20b), da ne cekas DL i ucitavanje dok poslozis stvari. Mislim da ce ti ga LM Studio sam ponuditi. Kad to zavrsis, mozemo probati usporediti performanse gpt-oss-120b.

Lokalni AI modeli

#26 Re: Lokalni AI modeli

#27 Re: Lokalni AI modeli

#28 Re: Lokalni AI modeli

#29 Re: Lokalni AI modeli

#30 Re: Lokalni AI modeli

#31 Re: Lokalni AI modeli

#32 Re: Lokalni AI modeli

#33 Re: Lokalni AI modeli

#34 Re: Lokalni AI modeli

#35 Re: Lokalni AI modeli

#36 Re: Lokalni AI modeli

#37 Re: Lokalni AI modeli

#38 Re: Lokalni AI modeli

#39 Re: Lokalni AI modeli

#40 Re: Lokalni AI modeli

#41 Re: Lokalni AI modeli

#42 Re: Lokalni AI modeli

#43 Re: Lokalni AI modeli

#44 Re: Lokalni AI modeli

#45 Re: Lokalni AI modeli

#46 Re: Lokalni AI modeli