Gündem

Yapay zeka PDF’leri okumada neden bu kadar kötü?

Dünyanın en gelişmiş yapay zeka modelleri, bugün insanlığın en temel dijital formatlarından biri olan PDF karşısında beklenmedik bir başarısızlık sergiliyor. Uzmanlar, PDF’leri hatasız bir şekilde metne dönüştürmeyi, “Yapay Genel Zeka” (AGI) yolundaki son büyük engellerden biri olarak tanımlıyor.

Geçtiğimiz Kasım ayında Jeffrey Epstein davasına ait 20 bin sayfalık belgenin kamuoyuna açılması, teknoloji dünyasında ilginç bir gerçeği tekrar gün yüzüne çıkardı. Belgeleri incelemek isteyen yazılımcı Luke Igel ve ekibi, hükümetin sunduğu optik karakter tanıma (OCR) sisteminin yetersizliği nedeniyle dosyaların neredeyse “aranamaz” durumda olduğunu fark etti. Milyonlarca sayfalık döküman, yapay zeka için bir veri hazinesi olması gerekirken, formatın karmaşıklığı nedeniyle birer “dijital labirente” dönüştü.

“Seksi Olmayan Başarısızlık”: PDF Neden Çözülemiyor?

Data şirketi Surge’ün CEO’su Edwin Chen’e göre PDF, yapay zekanın “seksi olmayan başarısızlıkları” listesinin başında yer alıyor. En gelişmiş modeller bile bir PDF’ten bilgi çıkarması istendiğinde; dipnotları ana metinle karıştırıyor, tabloları anlamsız bir kelime yığınına dönüştürüyor veya olmayan içerikler uyduruyor (halüsinasyon).

PDF’in bu denli zorlayıcı olmasının temel nedeni, makineler tarafından okunmak için değil, görsel sadakati korumak için tasarlanmış olmasıdır. 1990’ların başında Adobe tarafından geliştirilen bu format, bir dökümanın her bilgisayarda ve yazıcıda aynı görünmesini amaçlar. HTML gibi mantıksal bir metin akışı yerine; koordinatlar, karakter kodları ve görsel talimatlardan oluşur. Bu da yapay zekanın metnin “editoryal yapısını” (başlık mı, tablo mu, yoksa bir görsel alt yazısı mı?) anlamasını zorlaştırır.

Trilyonlarca “Kaliteli Veri” PDF Dosyalarında Saklı

Yapay zeka geliştiricileri, modellerini eğitmek için yüksek kaliteli veri bulmakta zorlanırken gözlerini PDF arşivlerine dikmiş durumda. Hükümet raporları, akademik makaleler ve ders kitaplarının neredeyse tamamı bu formatta. Allen Yapay Zeka Enstitüsü, PDF’lerin trilyonlarca yeni ve yüksek kaliteli “token” (veri birimi) sağlama potansiyeline sahip olduğunu belirtiyor.

Bu sorunu çözmek için Reducto gibi uzmanlaşmış girişimler, “görme” (vision) tabanlı modeller kullanarak sayfayı bölümlere ayırıyor. Kendi kendine giden araçların yoldaki nesneleri (yaya, araç, çöp kutusu) ayırmasına benzer bir mantıkla; önce başlıklar, tablolar ve grafikler tanımlanıyor, ardından her biri için özelleşmiş alt modeller devreye giriyor.

PDF: Dijital Dünyanın “Yıkılamaz” Kalesi

PDF Association CEO’su Duff Johnson’a göre, PDF formatı hiçbir yere gitmiyor. Web sitelerinin değiştiği, linklerin bozulduğu ve Word dosyalarının farklı cihazlarda farklı göründüğü bir dünyada PDF, 1995 yılındaki bir dosyanın bugün bile kusursuz açılmasını garanti eden tek teknoloji.

Yapay zeka devleri, bu formatın ne kadar zorlu olduğunu ancak içine gömülü olan devasa bilgi birikimine ihtiyaç duyduklarında anladılar. Bugün gelinen noktada, yapay zekanın PDF’i “çözmesi”, sadece metin okumak değil, insan kültürünün dökümanlara yansıttığı görsel hiyerarşiyi ve normları anlaması anlamına geliyor.