Üç günde üç bin test vakası. Sıfır insan müdahalesi. Bu cümleler, şirketinin tüm çalışanlarına sunum yapan Kıdemli Başkan Yardımcısı Harrison’a aitti. Ekranın arkasında parlayan AI test panosu, sunumun tonunu belirliyordu: "Veriler yalan söylemez. Üç yüz kat daha verimli, sıfır ek maliyet." Oysa sunumun ikinci dakikasında, ekibin kalbi durdu.
Gerçekten sıfır hata mıydı?
Ben, takımın Test Mühendisi olarak, ilk soruyu sormakta tereddüt etmedim: "Üç bin test vakasının kapsama oranı yüzde kaç?"
Harrison’ın yanıtı hazırdı: "Yüzde yüz."
"Peki bu testler kaç adet gerçek hata buldu?"
Bir anlık duraksama. Sonra, "İlk faz regresyon kapsamıyla ilgiliydi, yani —"
"Sıfır." Cümleyi yarıda kestim. "Üç bin test vakası, sıfır hata. Bunlar kodun ne yaptığını değil, ne yapması gerektiğini kontrol etmek için tasarlanmamış. Kapsam, kalite değil."
Harrison gülümsedi. "Anladığım kadarıyla yeniliğe karşı bir kaygı yaşıyorsun. Yeni teknolojiler insanların alanlarını tehdit ettiğinde, direnç göstermek doğal. Ama veriler yalan söylemez."
Sunum devam etti. Benim not defterimse kapandı.
AI Testlerinin Gölgesinde Bir Hafta
Öğleden sonra, İnsan Kaynakları’nın masamda duran bildirisiyle şok oldum: takımımızın yerini AI Mühendislik Grubu aldı. Raporlama hattım, Harrison’ın yardımcısına bağlandı. O akşam, onun ofisine yürüdüm.
"Bay Harrison, AI test aracının üç haftalık bir deneme süreciyle değerlendirilmesi gerekiyor. Üretim trafiği desenlerini simüle etmemiz şart —"
"Değerlendirmeye gerek yok. Zaten yaptım."
"Hangi ortamda?"
"Test ortamında. Yüzde yüz başarı oranı."
"Test ortamı gerçek trafiği yansıtmıyor —"
"Dört yüz elle yazılmış test vakandan daha mı etkili olduğunu mu iddia ediyorsun?" Harrison arkasına yaslandı. "Buna gerçekten inanıyor musun?"
Kapıda durdum. Oturma daveti gelmedi.
"Yeni masan üçüncü katta. AI Mühendislik Grubu. Yarın rapor ver."
Üç Gece, Üç Bin Hata Senaryosu
Üç gece boyunca, üç bin AI test vakasını inceledim. Araç kötü değildi. Sorun, yapılandırmadaydı.
Harrison’ın yardımcısı, girdi sınırını "tarihsel üretim verilerinin yüzde 90’lık dilimi" olarak ayarlamıştı. AI, bu sınır içinde kalan üç bin test vakasını kusursuzca üretti. Tüm vakalar, yüzde 90’lık dilimin içindeydi. Sınırın dışında neler olduğunu kontrol etmek için hiçbir talimat almamıştı. AI, hatalı değildi; eksik talimatları kusursuzca yerine getirmişti.
Tam bir analiz raporu hazırladım. Ekran görüntüleriyle destekledim. Harrison’a gönderdim. CC yok.
Yirmi üç dakika sonra yanıtı geldi:
_"Not aldım. Belirttiğiniz kenar senaryoların gerçekleşme olasılığı yüzde 0,3’ün altında. Risk önceliklendirme çerçevemize göre kaynak ayırmaya gerek yok. Yeni araçlara odaklanmanızı tavsiye ederim."_
Cümleyi iki kez okudum. Sonra raporu RCA_2026Q3 klasörüne taşıdım ve eski test takımımıza geri döndüm.
Üretime Geçiş: Sıfır Sorun, İki Hafta
Üç hafta sonra, AI testleri ana yayın hattına entegre edildi. Harrison, şirket bülteninde bir makale yayınladı: "Elle Testlerin Sonu: Ekibinizin Sıra Sizde Olabilir."
E-postada beni bulduğu tek cümle şuydu:
_"Bazıları AI’in çalışmayacağını kanıtlamak için üç hafta harcadı. Üretimde iki hafta — sıfır olay. Bazen direncin kaynağı teknolojinin kusuru değil, kişinin kendi güvensizliğidir."_
Takımımın son testçisi masama geldi:
"Patron… o güvensizlik kısmı sizin için miydi?"
E-postayı kapattım.
_"İki hafta sıfır olay. Bakalım üçüncü hafta neler getirecek."_
Geceyarısı Alarmları: 700 Bin Dolarlık Maliyet
01:14’te PagerDuty adeta yılbaşı ağacı gibi yanıyordu. AI testlerinin onayladığı bir modül, gerçek trafik altında veri yarış koşullarına girdi. Üç bin test vakası, normal trafik desenleri içinde kalmıştı — hiçbiri çağrı yoğunluğunun kaynak çatışmasına yol açacağı senaryoyu test etmemişti.
Sonuç: dokuz saatlik veri kurtarma süreci. Zarar: 700 bin dolar.
Cuma sabahı 09:00’da Acil Durum İnceleme Toplantısı başladı. CEO, Harrison’dan ilk sözü aldı.
Harrison, "Bu bir araç düzeyinde kenar vakaydı. AI test çerçevesi bu senaryoyu otomatik olarak tespit edemiyor. Tedarikçiye ulaştık, yeni sürümde düzeltilecek," dedi.
CEO, ayakta durarak dinledi. Hiçbir şey söylemedi.
Üç saniye süren sessizlikten sonra, not defterimi açtım.
"Önceden uyarı yapılmıştı."
CEO’nun bakışları bana çevrildi.
"Bir ay önce, AI test aracının yapılandırmasına dair bir analiz raporu gönderdim. Girdi sınırı yüzde 90’lık dilimde ayarlanmıştı — geriye kalan yüzde 10’luk dilimde, hem olasılığı düşük hem etkisi yüksek yirmi üç farklı senaryo ihmal edilmişti. Aralarında dün geceki kaynak çatışması da vardı."
CEO: "Kime gönderdin?"
"Bay Harrison’a."
Laptopumu konferans odasının projektörüne bağladım. E-postayı açtım.
Dersler ve Gelecek
Harrison’ın yanıtı, 700 bin dolarlık faturanın sadece başlangıcıydı. Bu hikaye, AI test araçlarının getirdiği verimlilik vaatlerinin ardındaki yanlış yapılandırmaların ne kadar maliyetli olabileceğini gösteriyor.
Gelecekte, AI testlerinin üretimde güvenle kullanılabilmesi için üç temel adım atılmalı:
- Sınır koşullarının manuel olarak doğrulanması
- Yapılandırma varsayımlarının şeffaf bir şekilde belgelenmesi
- AI araçlarının insan denetimine açık olması
AI teknolojisi, test süreçlerini hızlandırabilir — ancak yanlış yapılandırılmış bir AI, en tehlikeli kör noktaları bile kör edebilir.
Yapay zeka özeti
Üç bin AI testi, yüzde yüz kapsama ve sıfır hata vaadiyle üretime alındı. Peki 700 bin dolarlık kayıp nasıl yaşandı? Kritik hatalara yol açan yapılandırma yanlışlarını keşfedin.