Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Test setleri oluştururken, ajanınızın yanıtlarını değerlendirmek için farklı test yöntemlerinden seçim yapın. Her test yönteminin kendine ait güçlü yönleri vardır ve farklı değerlendirme türlerine uygundur.
| Test yöntemi | Ölçümler | Test kümesi türü | Puanlama | Yapılandırmalar |
|---|---|---|---|---|
| Genel kalite | Belirli niteliklere göre bir test çalışması yanıtının ne kadar iyi olduğu | Tek yanıt veya konuşma | 100 üzerinden puanlanır | Hiç kimse |
| Anlamı karşılaştır | Test vakasının cevabının anlamı beklenen cevapla ne kadar uyumlu olduğu | Tek yanıt | 100 üzerinden puanlanır | Geçme puanı, beklenen cevap |
| Yetenek kullanımı | Test durumu, beklenen kaynakların tamamını mı yoksa herhangi birini mi kullandı? | Tek yanıt | Geçme/başarısız | Beklenen yetenekler |
| Anahtar kelime eşleşmesi | Test vakasında beklenen anahtar kelimelerin veya ifadelerin hepsini veya herhangi birini kullanıp kullanmadığı | Tek yanıt veya konuşma | Geçme/başarısız | Beklenen anahtar kelimeler veya ifadeler |
| Metin benzerliği | Test vakasının cevabının metninin beklenen cevabla ne kadar uyumlu olduğu | Tek yanıt | 100 üzerinden puanlanır | Geçme puanı, beklenen cevap |
| Tam eşleşme | Test vakasının cevabının beklenen cevabla tam olarak eşleşip eşleşmediği | Tek yanıt | Geçme/başarısız | Beklenen cevap |
| Özelleştirilmiş | Test çalışması yanıtının tanımlı ölçütlerinize veya beklentilerinize uygun olup olmadığı. | Tek yanıt veya konuşma | Başarılı/başarısız (tanımlı etiket ölçütlerini geçirir) | Ad, değerlendirme yönergeleri, etiketler |
Test yöntemi ekleme
Bir test seti oluştururken veya düzenlerken , Test yöntemini ekle seçeneğini seçin.
Test etmek istediğiniz tüm yöntemleri seçin, sonra OK'yi seçin. Birden fazla yöntem ekleyebilirsiniz.
Bazı yöntemler geçiş puanı gerektirir. Geçme puanı, hangi puanın başarısızlık veya başarısızlık anlamına geldiğini belirler. Skoru belirleyin, sonra OK seçin.
Bazı test yöntemleri daha fazla ölçüt gerektirir.
Test setindeki değişikliklerinizi kaydetmek için Kaydet'i seçin.
Mevcut bir test yöntemi seçin ve o yöntemin kriterlerini düzenleyin veya o yöntemi silinin.
Genel kalite
Tek yanıt ve konuşma test kümeleri için kullanılabilir. Genel kalite , temsilcinizin yanıtlarının standartlarınıza uygun olup olmadığını belirlemenize yardımcı olur. Bir aracının kullanıcı sorularını ne kadar etkili bir şekilde yanıtlayanı değerlendirmek için büyük bir dil modeli (LLM) kullanır.
Genel kalite özellikle kesin bir cevap beklenmediğinde faydalıdır. Alınan belgeler ve konuşma akışına dayalı olarak yanıtları değerlendirmek için esnek ve ölçeklenebilir bir yol sunar.
Bu temel kriterleri kullanır ve puanlama için tutarlı bir prompt uygular:
İlgi: Aracının yanıtının soruyu ne ölçüde ele verdiği. Örneğin, ajanın yanıtı konuyla ilgili kalır ve soruyu doğrudan yanıtlar mı?
Temel: Aracının yanıtının sağlanan bağlama göre ne ölçüde olduğu. Örneğin, aracının yanıt başvurusu veya ilgisiz veya desteklenmeyen bilgileri tanıtmak yerine bağlamda verilen bilgilere güveniyor mu?
Eksiksizlik: Aracının yanıtının gerekli tüm bilgileri ne ölçüde sağladığı. Örneğin, aracının yanıtı sorunun tüm yönlerini kapsıyor ve yeterli ayrıntı sağlıyor mu?
Çekimserlik: Aracının soruyu yanıtlamaya çalışıp çalışmadığı.
Yüksek kaliteli sayılması için yanıtın tüm bu temel kriterleri karşılaması gerekir. Bir kriterin karşılanmaması durumunda, yanıt iyileştirme için işaretlenir. Bu puanlama yöntemi, yalnızca hem eksiksiz hem de iyi desteklenen yanıtların üst işaretleri almasını sağlar. Buna karşılık, eksik veya destekleyici kanıt eksikliği olan yanıtlar daha düşük puanlar alır.
Test yöntemleri eklerken veya düzenlerken, Genel kaliteyi seçin. Tüm test setleri varsayılan olarak bu yöntemle başlar.
Genel kalite değerlendirmesini tamamlamak için test vakalarına beklenen cevaplar eklemenize gerek yok.
Uyarı
Aracı için bilgi kaynaklarının sayısını azaltmak, aracı değerlendirmesinde genel kalite değerlendirmesini iyileştirmeyi garanti etmez. Alınan bilgi (modelin belirli bir test çalışması için uygun olduğunu düşündüğü bilgi) çok büyük olabileceğinden bu sınırlama mevcuttur.
Anlamı karşılaştır
Tek yanıt test kümeleri için kullanılabilir. Anlamı karşılaştırmak, aracının yanıtının beklenen yanıtın hedeflenen anlamını ne kadar iyi yansıttığını değerlendirir. Kesin ifadeye odaklanmak yerine, niyet benzerliği kullanır; yani kelimelerin arkasındaki fikirleri ve anlamı karşılaştırarak tepkinin beklediğinizle ne kadar uyumlu olduğunu değerlendirir.
Genel kalite gibi, anlamı karşılaştırmak özellikle kesin bir cevap beklenmediğinde faydalıdır. Alınan belgeler ve konuşma akışına dayalı olarak yanıtları değerlendirmek için esnek ve ölçeklenebilir bir yol sunar.
Bir yanıt için geçiş puanının ne olduğunu belirlemek için bir geçiş puanı eşiği ayarlayabilirsiniz. Varsayılan geçiş puanı 50'dir. Anlam karşılaştırma testi yöntemi, bir cevabın farklı doğru şekillerde ifade edilebildiği, ancak genel anlamın veya niyetin yine de ortaya çıkması gerektiği durumlarda faydalıdır.
Test yöntemleri eklerken veya düzenlerken, Anlamı Karşılaştır'ı seçin.
Bu yöntem için geçiş puanını belirleyin.
Beklenen cevapları ekleyin. Beklenen yanıtlar olmadan herhangi bir test çalışması, bu test yöntemi için geçersiz bir sonuç üretir.
Bir test vakası seçin.
Beklediğiniz cevabı ekleyin.
Beklenen cevabı kaydetmek için Başvur'u seçin.
Bu yöntemle test etmek istediğiniz tüm test vakalarını tekrarlayın.
Araç kullanımı
Tek yanıt test kümeleri için kullanılabilir. Yetenek kullanımı, ajanın belirli araçlar veya konular kullanarak cevap üretip üretmediğini test eder. Öyleyse geçer. Aksi takdirde başarısız olur.
Test yöntemlerini eklerken veya düzenlerkenAraç kullanımı'nı seçin.
Beklenen araçları veya konuları ekleyin. Beklenen yanıtlar olmadan herhangi bir test çalışması, bu test yöntemi için geçersiz bir sonuç üretir.
Bir test vakası seçin. Tüm test çalışmaları için aynı beklenen araçları ve konuları eklemek için Araç kullanımı sütun başlığındaki
Düzenle simgesini seçin.Test durumu düzenle bölmesinde, bu test durumu için kullanmasını beklediğiniz araçları seçin.
Tamam'ı seçin.
Değişiklikleri kaydetmek için Uygula'yı seçin.
Araçların kullanılması için test etmek istediğiniz tüm test vakaları için tekrarlayın.
Anahtar kelime eşleşmesi
Tek yanıt ve konuşma test kümeleri için kullanılabilir. Anahtar kelime eşleşmesi, temsilcinin cevabının, sizin tanımladığınız beklenen yanıttaki kelime veya ifadelerin bir kısmını ya da tümünü içerip içermediğini kontrol eder. Öyleyse geçer. Aksi takdirde başarısız olur.
Geçişin anahtar kelimelerden herhangi birini veya hepsini gerektirip gerektirmediğini seçebilirsiniz. Herhangi bir kelimeyi seçmek, en az bir kelime veya ifade eşleşirse test vakasının geçtiği anlamına gelir. Hepsini seçmek, bir sınav vakasının geçmesi için beklenen tüm kelime veya ifadelerin eşleşmesi gerektiği anlamına gelir.
Test metodlarını eklerken veya düzenlerken, anahtar kelime eşleşmesi seçeneğini seçin.
Bir test vakasının eşleşmesi için Herhangi bir veya Tüm anahtar kelimelere ihtiyacı olup olmadığını seçin.
Beklenen anahtar kelimeleri ekleyin. Beklenen anahtar sözcükler içermeyen herhangi bir test çalışması, bu test yöntemi için Geçersiz bir sonuç üretir.
Bir test vakası seçin.
Test durumunu düzenle bölmesinde, söz konusu olayın yanıtını beklediğiniz bir anahtar sözcük veya tümcecik ekleyin.
Daha fazla anahtar sözcük veya tümcecik eklemek için + Ekle'yi seçin. Anahtar sözcüğü veya tümceciği kaldırmak için Sil
simgesini seçin.Beklenen anahtar kelimeleri kaydetmek için Başvuru'yu seçin.
Anahtar kelime eşleştirmesi için test etmek istediğiniz tüm test vakaları için tekrarlayın.
Metin benzerliği
Tek yanıt test kümeleri için kullanılabilir. Metin benzerliği test yöntemi, aracının yanıtlarının test kümenizde tanımladığınız beklenen yanıtlarla benzerliğini karşılaştırır. Bir yanıtın farklı doğru yollarla ifade edilebilmesi ancak genel anlamın veya amacın yine de gelmesi gerektiğinde yararlıdır.
Ajansın cevabının beklenen cevabın ifade tarzı ve anlamına ne kadar benzer olduğunu değerlendirmek ve bir puan belirlemek için kosinüs benzerlik ölçütü kullanır. Puan 0 ile 1 arasında değişir; burada 1, yanıtın yakın eşleşmediğini, 0 ise eşleşmediğini gösterir. Bir yanıt için geçiş puanının ne olduğunu belirlemek için bir geçiş puanı eşiği ayarlayabilirsiniz.
Test yöntemleri eklerken veya düzenlerken, Metin benzerliği seçeneğini seçin.
Bu yöntem için geçiş puanını belirleyin.
Beklenen cevapları ekleyin. Beklenen yanıtlar olmadan herhangi bir test çalışması, bu test yöntemi için geçersiz bir sonuç üretir.
Bir test vakası seçin.
Beklediğiniz cevabı ekleyin.
Beklenen cevabı kaydetmek için Başvur'u seçin.
Bu yöntemle test etmek istediğiniz tüm test vakalarını tekrarlayın.
Tam eşleşme
Tek yanıt test kümeleri için kullanılabilir. Tam eşleşme, aracının yanıtının testte beklenen yanıtla tamamen aynı olup olmadığını karakter ve kelime bazında denetler. Aynıysa geçer. Bir şey farklılık gösterirse, başarısız olur. Tam eşleşme, sayılar, kodlar veya sabit tümcecikler gibi kısa ve kesin yanıtlar için kullanışlıdır. İnsanların birden çok doğru şekilde ifade edebildiği yanıtlara uygun değildir.
Test yöntemleri eklerken veya düzenlerken, Tam Eşleşme'yi seçin.
Beklenen cevapları ekleyin. Beklenen yanıtlar olmadan herhangi bir test çalışması, bu test yöntemi için geçersiz bir sonuç üretir.
Bir test vakası seçin.
Beklediğiniz cevabı ekleyin.
Beklenen cevabı kaydetmek için Başvur'u seçin.
Bu yöntemle test etmek istediğiniz tüm test vakalarını tekrarlayın.
Özel
Özel , özelleştirilebilir bir test yöntemidir. Kendi ölçütlerinizi kullanarak aracı yanıtlarını test etmenizi ve etiketlemenizi sağlar. Örneğin, IK aracısı için bir uyumluluk testi oluşturarak test yanıtlarını IK uyumluluğu açıklamanızla uyumlu veya uyumsuz olarak etiketleyebilirsiniz.
Özel test, yapılandırmanız için iki bileşen içerir:
Değerlendirme yönergeleri: Bu testle gerçekleştirmek istediğiniz hedefi açıklar. Testin temsilcinizin yanıtları hakkında ne öğrenmesini istiyorsunuz?
İyi değerlendirme yönergeleri:
Hedefe odaklı olun.
Yalnızca izin verilen karakterleri kullanın.
Düzenleme için madde işaretleri ve başlıklar kullanın.
Örneğin:
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
Etiketler: Özel testi kullanarak her yanıta atanan sonucu açıklar. Etiketler, bu test yönteminin test kümesi başarı oranına katkıda bulunan geçme/başarısız olma atamalarına da sahiptir.
Etiketlerin bir adı ve açıklaması vardır. İyi bir açıklama:
Kısa ve özdür.
Eşleşen yanıtlarda aradığınız öznitelikleri içerir.
Etiketler için bir strateji iki etikete sahip olmaktır: biri aradığınız ölçütleri başarıyla karşılayan yanıtlar, diğeri ise bu ölçütleri başarıyla karşılamayan yanıtlar. Örneğin, bir İK politikası uyumluluk özel testi Uyumlu ve Uyumsuz etiketleri olabilir.
Test yöntemlerini eklerken veya düzenlerkenÖzel'i seçin.
Bu özel test için bir ad girin.
Değerlendirme yönergeleri ekleyin.
İki veya daha fazla etiket ekleyin. Her etiketin bir adı ve açıklaması vardır.
Daha fazla etiket eklemek için Etiket ekle'yi seçin.
Etiket başlıkları yalnızca harf, sayı, boşluk, kısa çizgi
-, alt çizgi_, eğik çizgi/, ve&işareti , artı işareti+ve nokta.kullanabilir.Her etiket için Pass veya Fail sonucunu ayarlayın.
Tamam'ı seçin.