Teknoloji

Yapay zeka kodlamada tökezliyor

Yorulmak bilmeyen bir kodlama asistanı olarak yapay zekanın sunduğu vaat, yeni bir araştırmanın bu tür araçların çeşitli sorunlar yaşayabildiğini ortaya koymasının ardından önemli bir engelle karşılaştı.

Waterloo Üniversitesi tarafından yapılan yakın tarihli bir çalışma, yapay zekanın yazılım geliştirmede zorlandığını ortaya koydu; buna göre en gelişmiş modeller bile yapılandırılmış çıktı gerektiren görevlerin her dört tanesinden birinde başarısız oluyor.

Araştırma, sistemlerin önceden tanımlanmış kuralları ne kadar iyi takip edebildiğini test etmek için 18 farklı yapılandırılmış format ve 44 görev genelinde 11 büyük dil modelini değerlendirdi. Bulgular, metin tabanlı görevlerdeki performans ile multimedya ya da karmaşık yapılar içeren çıktılardaki performans arasında açık bir fark olduğunu gösterdi.

Kıyaslama, kaygı verici bir güvenilirlik açığını ortaya koyuyor

Metinle ilgili görevler genel olarak orta düzeyde başarıyla yerine getirilirken, görsel, video ya da internet sitesi üretimi gerektiren görevlerin çok daha sorunlu olduğu görüldü.

Bu alanlardaki doğruluk keskin biçimde düştü ve bu yapay zeka araçlarının profesyonel iş akışlarına güvenli şekilde nasıl entegre edilebileceğine dair soru işaretlerini artırdı.

Çalışmanın doktora öğrencisi ve eş birinci yazarı Dongfu Jiang, “Bu tür bir çalışmayla yalnızca kodun sözdizimini, yani belirlenen kurallara uyup uymadığını değil, aynı zamanda çeşitli görevler için üretilen çıktıların doğru olup olmadığını da ölçmek istiyoruz” dedi.

JSON, XML ya da Markdown üzerinden biçim tutarlılığı sağlamayı amaçlayan yapılandırılmış çıktılar, geliştiriciler için yapay zeka yanıtlarını daha güvenilir hale getirmek üzere tasarlanmıştı.

OpenAI, Google ve Anthropic dahil yapay zeka şirketleri, yanıtları öngörülebilir biçimlere zorlamak için yapılandırılmış çıktı yaklaşımını devreye almıştı.

Waterloo araştırması ise bu yaklaşımın geliştiricilerin ihtiyaç duyduğu güvenilirlik seviyesini henüz sunamadığını gösteriyor.

Waterloo’nun kıyaslaması, en gelişmiş kapalı kaynak modellerin bile yalnızca yaklaşık yüzde 75 doğruluk seviyesine ulaşabildiğini, açık kaynak alternatiflerin ise yüzde 65’e daha yakın performans gösterdiğini ortaya koydu.

Bu sonuçlar, iyileşmelere rağmen yapay zeka sistemlerinin hâlâ profesyonel geliştirme ortamlarında göz ardı edilemeyecek ölçüde ciddi hatalar yaptığını gösteriyor.

Rapor, insan denetiminin gerekliliğini vurgulayarak, “Geliştiriciler bu ajanları kendileri için çalıştırabilir, ancak yine de önemli ölçüde insan gözetimine ihtiyaç duyuyorlar” ifadelerine yer verdi.

Yapılandırılmış çıktılar, serbest biçimli doğal dil yanıtlarına kıyasla ileriye dönük bir adım olsa da hatalar yaygın olmaya devam ediyor.

Teknoloji, karmaşık geliştirme senaryolarında bağımsız biçimde çalışabilecek kadar güçlü değil.

Sektörün yapay zekaya ve “vibe coding” asistanlarına yönelik heyecanının, altta yatan teknolojinin gerçek kabiliyetlerini aşıp aşmadığı makul biçimde sorgulanabilir.

En gelişmiş modeller bile yapılandırılmış görevlerde kayda değer bir başarısızlık oranı sergiliyor; bu da pazarlama iddiaları ile gerçek performans arasında geniş bir boşluk bulunduğunu ortaya koyuyor.

Bu nedenle geliştiriciler, en azından şimdilik, bu araçları otonom çalışma arkadaşları olarak değil, deneysel yardımcılar olarak değerlendirmeli.

Geçmiş Makaleler

Sahte veri ihlali bildirimlerine dikkat!

Veri ihlali bildirimi almak eskiden nadir bir olayken ihlallerinin rekor sayılara ulaşmasıyla birlikte bu bildirimler…

20 Nisan 2026

Galaxy A55 ve A53 için Nisan güncellemesi yayınlandı

Samsung, Galaxy A55 ve A53 modelleri için Nisan 2026 güvenlik yamasını kullanıma sundu. 47 kritik…

18 Nisan 2026

Android 17 Beta 4 yayında: RAM sınırı ve kuantum güvenliği geliyor

Google, Android 17'nin final betasını yayımladı. Yeni güncelleme, cihazları hızlandıracak katı RAM sınırları, yerel ağ…

18 Nisan 2026

Microsoft, Windows 11 Başlat Menüsü’nü yeniden tasarlıyor

Microsoft, Windows 11 Başlat menüsünü WinUI 3 altyapısıyla yeniden inşa ediyor. Performans sorunlarını gidermeyi hedefleyen…

18 Nisan 2026

Gemini ile ‘Kişisel Zeka’ dönemi başlıyor

Gemini’ın "Kişisel Zeka" özelliği, kullanıcıların Google uygulamalarındaki verilerini güvenle entegre ederek, tamamen kişisel bağlama uygun,…

18 Nisan 2026

ASUS ProArt ve NVIDIA Studio, içerik üreticilerini “Creator Connect 2026” etkinliğinde bir araya getirdi

ASUS ProArt ve NVIDIA iş birliğiyle ve "İçerik Oluşturucular İçin Geliştirildi, İlham Vermek İçin Tasarlandı"…

18 Nisan 2026