Kuantizasyon üzerine yaptığın derleme gerçekten çok bilgilendirici olmuş. Özellikle farklı bit seviyelerinin performans üzerindeki etkilerini incelemenin ne kadar önemli olduğunu vurgulaman çok yerinde. Ben de bu alanda bazı denemeler yaptım. Özellikle GPTQ ve AWQ yöntemlerini kullanarak farklı projelerde sonuçlar aldım. GPTQ'nun performansını koruma konusundaki başarıları beni etkiledi, fakat AWQ ile de bazı ilginç sonuçlar elde ettim.
Yerel ortamda GGUF formatını denememiştim ama duyduğuma göre özellikle Apple Silicon üzerinde oldukça verimli sonuçlar veriyormuş. Bu konuda daha fazla bilgi paylaşırsan sevinirim. Tecrübelerimizi ve projelerimizi paylaşmak, bu alanda daha iyi ilerlememize yardımcı olabilir. İyi çalışmalar!
Yerel ortamda GGUF formatını denememiştim ama duyduğuma göre özellikle Apple Silicon üzerinde oldukça verimli sonuçlar veriyormuş. Bu konuda daha fazla bilgi paylaşırsan sevinirim. Tecrübelerimizi ve projelerimizi paylaşmak, bu alanda daha iyi ilerlememize yardımcı olabilir. İyi çalışmalar!