Teknoloji ve Yapay Zeka

Google MLE-STAR ile Makine Öğrenimi Sürecinde Otomasyon

blog görseli

Makine öğrenimi projelerinde en çok zamanı, model kurmaktan çok uçtan uca süreci ayakta tutmak alır. Google’ın MLE-STAR ajanı tam da bu darboğazı hedefliyor ve ML mühendisliğinin büyük kısmını otonom biçimde yürütebilen bir çatı sunuyor. Arama, hedefli kod iyileştirme ve ensembling’i bir araya getiren yaklaşım; özellikle Kaggle tabanlı görevlerde güçlü sonuçlar vererek dikkat çekti.

MLE-STAR Nedir?

MLE-STAR (Machine Learning Engineering – Search and Targeted Refinement), büyük dil modellerini yalnızca “kod yazdırma aracı” olarak değil, bir ML mühendisi gibi davranan otonom ajanlar olarak kullanmayı amaçlayan bir yöntemdir. Ajan; önce web aramasıyla işe yarar model/çözüm iskeletleri bulur, ardından oluşturduğu kodun en etkili parçalarını belirleyip hedefli şekilde iyileştirir. Süreç boyunca deneyler yapar, sonuçları kıyaslar ve gerekli adımları yinelemeyle geliştirir.

Neden Otomasyon? Kurumsal Etki ve Zaman Kazancı

ML yaşam döngüsünde en çok enerji, model eğitiminden daha çok veri temizleme, özellik mühendisliği, hata ayıklama ve denemelerin yönetimine gider. Ajan tabanlı otomasyon, özellikle yinelemeli deneme-yanılma fazında insan hatasını ve operasyonel yükü azaltabilir. MLE-STAR’ın tasarımı, bu pratik ihtiyaçlara odaklanarak “minimal insan girdisi” ile boru hattını uçtan uca ilerletmeyi hedefler. Böylece ekipler daha stratejik işlere; problem tanımı, domain bilgisi aktarımı ve üretimleştirme mimarisi gibi alanlara zaman ayırabilir.

Değerlendirme Zemini: MLE-Bench ve “Lite” Split

MLE-STAR, OpenAI’nin MLE-Bench benchmark’ı üzerinde ölçülüyor; bu benchmark 75 farklı Kaggle yarışmasından derlenen gerçek dünya görevlerini içeriyor. Tam benchmark pahalı olduğundan, “Lite” split 22 yarışmadan oluşan daha erişilebilir bir alt küme sunuyor ve karşılaştırmalar için standart bir zemin sağlıyor. Benchmark’ta “madalya” oranı (≥ bronz) temel başarı metriği olarak kullanılıyor ve ajanlar makul zaman/süreç kısıtları altında deneniyor. Bu yapı; veri hazırlama, eğitim, deneme çalıştırma gibi MLE işlerini bütünsel olarak ölçmeyi amaçlıyor.

MLE-STAR’ın Mimari Yaklaşımı: Arama + Hedefli İyileştirme

Yaklaşımın kalbinde, web’den mevcut güçlü çözümleri hızla keşfetmek ve bunları task-özgü hale getirmek var. Ajan, oluşturduğu çözüm iskeletinde hangi kod bloklarının skora en çok etki ettiğini küçük ölçekli ablasyonlarla saptar. Ardından bu “kritik bloklar” üzerinde alternatif stratejileri planlayıp test ederek hedefli bir iyileştirme döngüsü yürütür. Bu sayede tüm boru hattını tepeden aşağı yıkıp yeniden yazmak yerine, etkisi yüksek mikro müdahalelerle hızlı kazançlar elde edilir.

Güvenlik ve Sağlamlık Modülleri

Gerçek dünyada ajanlar yalnızca “skor” peşinde koşmaz; çalışır kod üretmek ve yanlış pratiklerden kaçınmak da şarttır. MLE-STAR, üç tamamlayıcı modülle bu ihtiyaca cevap verir: hata ayıklama ajanı (çalışma zamanı hatalarını bulup düzeltir), veri sızıntısı denetleyicisi (test verisinin yanlış kullanımını engeller) ve veri kullanımı denetleyicisi (sağlanan tüm veri kaynaklarının gerçekten kullanıldığını kontrol eder). Bu modüller özellikle Kaggle benzeri ortamlarda etik ve adil değerlendirme açısından kritiktir.

Ensembling: Neden ve Nasıl?

Tek bir modelin “tatlı noktası” her görevde değişebilir; bu yüzden MLE-STAR, aday çözümleri akıllıca birleştiren yeni bir ensembling yöntemi uygular. Ajan, iyileştirme döngüsünde keşfettiği stratejilerden yararlanarak farklı modelleri veya tahminleri harmanlar. Bu adım çoğu zaman küçük ama istikrarlı skor artışları getirir ve liderlik tablolarında anlamlı sıçramalar sağlayabilir. Ensembling stratejisinin, özellikle farklı mimarilerin tamamlayıcı hatalarını telafi etmesi beklenir.

Sonuçlar: Kaggle Madalya Oranları ve Karşılaştırma

Google, MLE-STAR’ı MLE-Bench-Lite üzerinde denedi ve yaklaşık %63–64 bandında madalya oranı bildirdi; bu sonuç en iyi önceki ajanlara kıyasla belirgin bir sıçrama. Haberlere yansıyan kırılımda altının yaklaşık %36 olduğu paylaşılıyor ve bu da pratik rekabet gücünü gösteriyor. Karşılaştırma için referans bir tablo: MLE-Bench sonuçlarında AIDE iskeletinde o1-preview modeli %16,9 “herhangi bir madalya” oranına ulaşıyordu; MLE-STAR bu çıtanın oldukça üzerine çıkıyor.

ADK Üzerinde İnşa: Kurumsal Uygulamalar ve Genişletilebilirlik

MLE-STAR, Google’ın Agent Development Kit (ADK) üzerinde inşa edilmiştir; ADK, Gemini ile optimize edilse de model-agnostik ve dağıtım-agnostiktir. Geliştiriciler sıralı/loop/paralel “workflow agent” kalıplarıyla kestirilebilir hatlar kurabilir ya da LLM yönlendirmeli dinamik rotalama kullanabilir. Araç ekosistemi; arama, kod çalıştırma, dış API’ler, hatta başka ajanları “tool” gibi kullanmayı destekler. ADK aynı zamanda değerlendirme, güvenlik ve dağıtım (Vertex AI Agent Engine, Cloud Run, GKE) için rehberlik sunar.

Nasıl Başlanır? Pratik Kurulum ve Denemeler

  • Kurulum: pip install google-adk, kimlik bilgileri ve proje ayarları; hızlıca bir “Hello, Agent!”
  • İskelet seçimi: Örnek ML ajanından başlayıp görevlerinize göre araçları ekleyin/çıkarın.
  • Deneme döngüsü: Küçük veri örnekleriyle hızlı iterasyon, sonra tam veriyle sağlamlaştırma.
  • Değerlendirme: Ajan adımlarını ve çıktılarını ADK’nin yerleşik değerlendirme ve loglama olanaklarıyla izleyin.

Kullanım Senaryoları

MLE-STAR’ın yöntemsel bileşenleri, belirli alanlarda anında değer sunar. Tablo verilerinde talep tahmini gibi klasik supervised görevler iyi bir başlangıç noktasıdır. Görüntü sınıflandırma ve metin sınıflandırma gibi alanlarda web aramasıyla güncel mimarilerin hızla yakalanması avantaj sağlar. Zaman serileri için hedefli iyileştirme, özellik mühendisliği ve pencereme stratejilerinde hızlı deney yapmayı kolaylaştırır. Üretim öncesi A/B deneylerinde ensembling, risk dağıtımı ve kararlılık için ek güvence sunabilir.

İyi Uygulamalar ve Sınırlar

Benchmark’lar, gerçek dünyanın kusursuz bir aynası değildir; “Lite” split erişilebilirlik sağlasa da tam kapsamı temsil etmeyebilir. MLE-Bench’te insan karşılaştırmaları Kaggle lider tabloları üzerinden yapılır, fakat çevrimdışı kopyalar ile gerçek yarışma koşulları birebir aynı değildir. Ayrıca uzun ufuklu çalışmalarda ajanların kaynak/zaman farkındalığı ve araç hataları gibi pratik sorunları bulunur. Veri sızıntısı ve aşinalık (contamination) riskleri her zaman dikkatle yönetilmelidir.

Kaynaklar