Teknoloji

Yapay zeka kodlamada tökezliyor

Yorulmak bilmeyen bir kodlama asistanı olarak yapay zekanın sunduğu vaat, yeni bir araştırmanın bu tür araçların çeşitli sorunlar yaşayabildiğini ortaya koymasının ardından önemli bir engelle karşılaştı.

Waterloo Üniversitesi tarafından yapılan yakın tarihli bir çalışma, yapay zekanın yazılım geliştirmede zorlandığını ortaya koydu; buna göre en gelişmiş modeller bile yapılandırılmış çıktı gerektiren görevlerin her dört tanesinden birinde başarısız oluyor.

Araştırma, sistemlerin önceden tanımlanmış kuralları ne kadar iyi takip edebildiğini test etmek için 18 farklı yapılandırılmış format ve 44 görev genelinde 11 büyük dil modelini değerlendirdi. Bulgular, metin tabanlı görevlerdeki performans ile multimedya ya da karmaşık yapılar içeren çıktılardaki performans arasında açık bir fark olduğunu gösterdi.

Kıyaslama, kaygı verici bir güvenilirlik açığını ortaya koyuyor

Metinle ilgili görevler genel olarak orta düzeyde başarıyla yerine getirilirken, görsel, video ya da internet sitesi üretimi gerektiren görevlerin çok daha sorunlu olduğu görüldü.

Bu alanlardaki doğruluk keskin biçimde düştü ve bu yapay zeka araçlarının profesyonel iş akışlarına güvenli şekilde nasıl entegre edilebileceğine dair soru işaretlerini artırdı.

Çalışmanın doktora öğrencisi ve eş birinci yazarı Dongfu Jiang, “Bu tür bir çalışmayla yalnızca kodun sözdizimini, yani belirlenen kurallara uyup uymadığını değil, aynı zamanda çeşitli görevler için üretilen çıktıların doğru olup olmadığını da ölçmek istiyoruz” dedi.

JSON, XML ya da Markdown üzerinden biçim tutarlılığı sağlamayı amaçlayan yapılandırılmış çıktılar, geliştiriciler için yapay zeka yanıtlarını daha güvenilir hale getirmek üzere tasarlanmıştı.

OpenAI, Google ve Anthropic dahil yapay zeka şirketleri, yanıtları öngörülebilir biçimlere zorlamak için yapılandırılmış çıktı yaklaşımını devreye almıştı.

Waterloo araştırması ise bu yaklaşımın geliştiricilerin ihtiyaç duyduğu güvenilirlik seviyesini henüz sunamadığını gösteriyor.

Waterloo’nun kıyaslaması, en gelişmiş kapalı kaynak modellerin bile yalnızca yaklaşık yüzde 75 doğruluk seviyesine ulaşabildiğini, açık kaynak alternatiflerin ise yüzde 65’e daha yakın performans gösterdiğini ortaya koydu.

Bu sonuçlar, iyileşmelere rağmen yapay zeka sistemlerinin hâlâ profesyonel geliştirme ortamlarında göz ardı edilemeyecek ölçüde ciddi hatalar yaptığını gösteriyor.

Rapor, insan denetiminin gerekliliğini vurgulayarak, “Geliştiriciler bu ajanları kendileri için çalıştırabilir, ancak yine de önemli ölçüde insan gözetimine ihtiyaç duyuyorlar” ifadelerine yer verdi.

Yapılandırılmış çıktılar, serbest biçimli doğal dil yanıtlarına kıyasla ileriye dönük bir adım olsa da hatalar yaygın olmaya devam ediyor.

Teknoloji, karmaşık geliştirme senaryolarında bağımsız biçimde çalışabilecek kadar güçlü değil.

Sektörün yapay zekaya ve “vibe coding” asistanlarına yönelik heyecanının, altta yatan teknolojinin gerçek kabiliyetlerini aşıp aşmadığı makul biçimde sorgulanabilir.

En gelişmiş modeller bile yapılandırılmış görevlerde kayda değer bir başarısızlık oranı sergiliyor; bu da pazarlama iddiaları ile gerçek performans arasında geniş bir boşluk bulunduğunu ortaya koyuyor.

Bu nedenle geliştiriciler, en azından şimdilik, bu araçları otonom çalışma arkadaşları olarak değil, deneysel yardımcılar olarak değerlendirmeli.