Predviđanje #ai budućnosti. Autor je napravio stranu sa fejk AI portalom da pokaže na šta će da liče portali kada krenu reklame: https://99helpers.com/tools/ad-supported-chat
#humor
#ai (5)
Uspešno završeno #testiranje 7 #ai LLM modela na svom računaru. Napisan je članak na tu temu a ovde ostavljam sumirane rezultate:
| Model | Veličina | ECO GPU | ECO CPU | PERF GPU | PERF CPU |
| -------------------- | ----------- | ------- | ------- | -------- | -------- |
| TinyLlama 1.1B Q4 | 636.18 MiB | 15.02 | 3.68 | 15.23 | 7.59 |
| SmolLM2 1.7B Q4 | 1005.01 MiB | 9.19 | 2.31 | 9.48 | 4.76 |
| Qwen Coder 3B Q4 | 1.95 GiB | 5.86 | 1.32 | 5.87 | 2.67 |
| SmolLM3 3B Q5 | 2.06 GiB | 5.44 | 1.27 | 5.59 | 2.51 |
| Phi-3 Mini 3.8B Q4 | 2.23 GiB | 5.03 | 1.10 | 5.02 | 2.19 |
| Qwen Coder 3B Q6 | 2.60 GiB | 4.51 | 1.25 | 4.51 | 2.64 |
| BioMistral 7B Q3 | 3.56 GiB | 2.12 | 0.51 | 2.17 | 1.08 |
Ja koristim termine "ECO" i "PERFORMANCE" ali logika je prosta: ako sistemu zatreba brzina, Intel Speed Shift omogućava da CPU brzo pređe iz stanja mirovanja sa 1200MHz na 3300MHz u jednoj sekundi. Naravno, OS igra ulogu u ovome ali je kod mene to konzervativno podešeno da radi na što nižoj frekvenciji:
sudo sysctl dev.hwpstate_intel.0.epp=100 \
dev.hwpstate_intel.1.epp=100 \
dev.hwpstate_intel.2.epp=100 \
dev.hwpstate_intel.3.epp=100
Ja računar koristim za malo stvari stoga meni to odgovara a pored toga, u malom je kućištu pa **želim** da troši manje struje da bi bio stabilniji rad a ne da gledam kako zimi se kuva kućište na 60°C.
dfbcc1634dd73181Vreme je da se poigramo malo, sve je spremno za #ai testiranje na mojoj kofi:
tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
BioMistral-7B-Q3_K_L.gguf
Phi-3-mini-4k-instruct-q4.gguf
SmolLM2-1.7B-Instruct-Q4_K_M.gguf
SmolLM3-3B-128K-UD-Q5_K_XL.gguf
qwen2.5-coder-3b-instruct-q4_k_m.gguf
qwen2.5-coder-3b-instruct-q6_k.gguf
Ali posle S08 "Drive to Survive", hvala lepo.
9f57ea5cae43bfb8Mislim, nije najgori #ai rezultat na mom računaru ali je daleko od dobrog
$ llama-bench -m qwen2.5-coder-3b-instruct-q6_k.gguf -t 3 --cpu-strict 1
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = Intel(R) HD Graphics 630 (KBL GT2) (Intel open-source Mesa driver) | uma: 1 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 0 | matrix cores: none
| model | size | params | backend | ngl | threads | cpu_strict | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ---------: | --------------: | -------------------: |
| qwen2 3B Q6_K | 2.60 GiB | 3.40 B | Vulkan | 99 | 3 | 1 | pp512 | 25.32 ± 0.01 |
| qwen2 3B Q6_K | 2.60 GiB | 3.40 B | Vulkan | 99 | 3 | 1 | tg128 | 4.51 ± 0.00 |
build: unknown (7709)e7a3885db3afa38fE pa nije ovo tragično sporo nakon /set parameter num_thread 3 :)
$ ollama run --verbose qwen2.5:0.5b
>>> /set parameter num_thread 3
Set parameter 'num_thread' to '3'
>>> hello, how are you today?
Hello! I'm Qwen, the AI language model created by Alibaba Cloud. How can I assist you today?
total duration: 3.504683535s
load duration: 2.030979805s
prompt eval count: 36 token(s)
prompt eval duration: 537.777283ms
prompt eval rate: 66.94 tokens/s
eval count: 24 token(s)
eval duration: 846.582586ms
eval rate: 28.35 tokens/s
2a742d18d5caaa52