Samsung, Yapay Zekâ Verimliliğini Ölçen TRUEBench Benchmark Çözümünü Tanıttı

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek için geliştirdiği TRUEBench benchmark çözümünü duyurdu. TRUEBench, büyük dil modellerinin gerçek dünya iş uygulamalarındaki performansını kapsamlı şekilde ölçüyor.

TEKNOLOJİ - 03-10-2025 12:01

Samsung Electronics, yapay zekâ verimliliğini ölçmek amacıyla Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünya iş verimliliği uygulamalarındaki performansını değerlendiren kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi değerlendirmeler için çeşitli diyalog senaryoları ve çok dilli koşulları kullanıyor. Samsung’un kendi yapay zekâ teknolojilerine dayanan TRUEBench, içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmelerle görevlere güvenilir puanlar veriyor ve bu değerlendirmeler insan-yapay zekâ iş birliğiyle geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünya yapay zekâ deneyimleriyle müşterilerine güçlü uzmanlık ve rekabet avantajı sağlıyor. TRUEBench'in üretkenlik alanında değerlendirme standartları oluşturacağına ve Samsung’un teknoloji liderliğini pekiştireceğine inanıyoruz” dedi.

Son dönemde yapay zekâ kullanımının artmasıyla büyük dil modellerinin üretkenliğini ölçme talebi yükseldi. Ancak mevcut kriterler genellikle İngilizce odaklı, genel performansı ölçen ve tek tur soru-cevap yöntemleriyle sınırlı kalıyor. Bu da gerçek çalışma ortamlarını tam yansıtamıyor. TRUEBench ise 10 kategori ve 12 dilde 2.485 test setinden oluşuyor ve diller arası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçek hayatta hangi alanlarda çözüm sunduğunu inceliyor. TRUEBench, kolay taleplerden uzun belge özetlemeye kadar çeşitli görevleri kapsıyor ve içerik uzunlukları 8 karakterden 20.000 karakterin üzerine kadar değişiyor.

Yapay zekâ modellerinin performansını değerlendirirken yanıtların doğruluğunu anlamak için net kriterlere sahip olmak büyük önem taşıyor. Gerçek yaşam senaryolarında kullanıcı istekleri her zaman açık olmayabiliyor. Bu nedenle TRUEBench, sadece yanıtların doğruluğunu değil, kullanıcıların örtük ihtiyaçlarını da dikkate alarak gerçekçi değerlendirmeler yapıyor.

Samsung Research’ün geliştirdiği TRUEBench, gerçek insanlarla yapay zekâ iş birliğiyle değerlendirme kriterlerini oluşturuyor. İlk aşamada gerçek yorumcular kriterleri belirliyor, ardından yapay zekâ bu kriterleri inceleyerek hataları ve tutarsızlıkları tespit ediyor. Sonrasında yorumcular kriterleri iyileştiriyor. Bu süreç tekrarlanarak daha hassas değerlendirme standartları ortaya çıkıyor. Bu çapraz doğrulama sayesinde kişisel önyargılar azaltılıyor ve tutarlılık sağlanıyor. Her testte modelin tüm koşulları karşılaması gerekiyor, böylece puanlama daha detaylı ve hassas oluyor.

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face’de yayımlanıyor. Kullanıcılar beş modele kadar karşılaştırma yapabiliyor ve yapay zekâ performanslarını kapsamlı şekilde inceleyebiliyor. Ayrıca ortalama yanıt sürelerine ilişkin veriler de paylaşılıyor, böylece performans ve verimlilik eş zamanlı olarak değerlendirilebiliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı

Günün Diğer Haberleri