TÜBİTAK BİLGE: Türkiye’nin Yapay Zekâ Projesi

Başarıları, Eksikleri ve Geleceğe Dair Beklentiler

Yapay zekâ artık yalnızca teknoloji şirketlerinin konuştuğu bir alan olmaktan çıktı. Bundan böyle ülkelerin ekonomik gücünü, bilimsel üretimini, eğitim sistemini, savunma kapasitesini ve hatta dijital egemenliğini belirleyen en önemli stratejik alanlardan biri hâline geldi. Yakın gelecekte kendi büyük dil modelini geliştiremeyen ülkeler, sadece teknolojiyi kullanan değil, başkalarının ürettiği teknolojilere bağımlı kalan ülkeler olacaktır.

Bu nedenle TÜBİTAK tarafından geliştirilen BİLGE projesini, sadece yeni bir yapay zekâ modeli olarak değil, Türkiye’nin yapay zekâ alanındaki bağımsızlık arayışının önemli bir kilometre taşı olarak görüyorum.

Her şeyden önce, böyle bir girişimin hayata geçirilmiş olması takdir edilmelidir. Çünkü büyük dil modeli geliştirmek, birkaç yazılım mühendisiyle kısa sürede ortaya çıkarılabilecek bir ürün değildir. Bunun arkasında büyük veri altyapısı, yüksek işlem gücü, nitelikli araştırmacılar, aylar süren eğitim süreçleri ve ciddi kamu yatırımları bulunmaktadır. Dolayısıyla Türkiye’nin bu alanda kendi modelini geliştirmeye başlaması bile başlı başına stratejik bir kazanımdır.

Resmî açıklamalara göre BİLGE için yaklaşık bir trilyon Türkçe kelimelik bir veri havuzu oluşturulmuş, bu veriler işlenerek yüksek kaliteli token setleri hazırlanmış ve farklı büyüklüklerde modeller geliştirilmiştir. Özellikle 1 milyar ve 9 milyar parametreli modellerin sıfırdan (pre-training) eğitildiğinin açıklanması çok önemli bir gelişmedir.

Eğer bu süreç gerçekten uçtan uca Türkiye’de gerçekleştirilmişse, bu yalnızca bir model geliştirme başarısı değildir. Aynı zamanda veri hazırlama, tokenizer geliştirme, dağıtık eğitim, model optimizasyonu ve büyük ölçekli yapay zekâ mühendisliği konusunda önemli bir bilgi birikiminin oluştuğunu gösterir. Bu, gelecekte geliştirilecek daha büyük modeller için de güçlü bir temel oluşturacaktır.

Bir diğer önemli nokta ise BİLGE’nin Türkçeye özel geliştirilmiş olmasıdır.

Türkçe, eklemeli yapısı nedeniyle İngilizce merkezli büyük dil modellerinin zorlandığı dillerden biridir. Kelimelerin çok farklı eklerle binlerce farklı biçime dönüşebilmesi, doğru bir tokenizer tasarımını son derece önemli hâle getirir. Bu nedenle Türkçeye özel geliştirilen bir tokenizer ve Türkçe ağırlıklı eğitim süreci, teorik olarak modelin hem doğruluğunu hem de verimliliğini artırabilecek doğru bir yaklaşımdır.

Ayrıca farklı büyüklüklerde model ailesi geliştirilmesi de doğru bir stratejidir. Dünyanın önde gelen yapay zekâ şirketleri artık tek bir model yerine, farklı kullanım alanlarına yönelik model aileleri geliştiriyor. BİLGE’nin de benzer bir yaklaşımı benimsemesi, küresel eğilimlerle uyumlu bir vizyon ortaya koymaktadır.

Ancak bütün bunları söylerken, projenin gelişmesi için üzerinde durulması gereken bazı önemli hususlar da bulunmaktadır.

Dünyada öncü olan yapay zekâ firmaları geliştirdikleri modeller hakkında devamlı olarak ayrıntılı teknik raporlar yayımlıyorlar. Model mimarisi, eğitim yöntemi, kullanılan donanım, veri kaynakları, değerlendirme kriterleri ve güvenlik testleri araştırmacılarla paylaşılmaktadır. Bu yaklaşım, hem bilimsel güven oluşturmakta hem de modelin gerçek kapasitesinin bağımsız araştırmacılar tarafından doğrulanmasını sağlamaktadır.

BİLGE’de ise bu konuda daha fazla şeffaflığa ihtiyaç olduğu kanaatindeyim.

Örneğin modelin hangi transformer mimarisini kullandığı ayrıntılı olarak açıklanmamıştır. Model tamamen yoğun (Dense) bir yapı mı kullanıyor, yoksa günümüzde giderek yaygınlaşan Uzmanlar Karışımı (Mixture of Experts – MoE) yaklaşımı mı tercih edildi? Bağlam uzunluğu nedir? Tokenizer’ın teknik özellikleri nelerdir? Bu soruların cevapları kamuoyuyla paylaşılmış değildir.

Benzer şekilde eğitim altyapısına ilişkin bilgiler de sınırlıdır. Model hangi grafik işlemciler üzerinde eğitildi? Kaç GPU kullanıldı? Eğitim ne kadar sürdü? Toplam hesaplama gücü neydi? Bunlar yalnızca teknik ayrıntılar değildir; aynı zamanda modelin ulaştığı seviyeyi değerlendirebilmek için önemli göstergelerdir.

Veri tarafında da benzer bir durum söz konusudur.

Bir trilyon kelimelik veri havuzu gerçekten etkileyici Ancak büyük dil modellerinde başarıyı belirleyen yalnızca veri miktarı değildir; verinin niteliğidir. Akademik yayınların, kitapların, hukuk metinlerinin, bilimsel içeriklerin, kamu belgelerinin ve güvenilir dijital kaynakların hangi oranlarda kullanıldığı bilinmemektedir. Günümüzde yapay zekâ dünyasında kaliteli veri, büyük veriden çok daha değerli hâle gelmiştir.

Kanaatimce en önemli eksikliklerden biri ise uluslararası değerlendirme sonuçlarının henüz yeterince paylaşılmamış olmasıdır.

Bugün herhangi bir büyük dil modeli yalnızca geliştiricisinin beyanıyla değerlendirilmez. MMLU, HumanEval, GSM8K, GPQA, MATH, IFEval ve benzeri uluslararası benchmark testleri üzerinden performansı ölçülür. Böylece araştırmacılar modelin muhakeme, problem çözme, kod üretme ve bilgi doğruluğu gibi alanlardaki seviyesini objektif biçimde görebilir.

BİLGE hakkında paylaşılan bilgiler ise daha çok Türkçe örnekler ve çeviri performanslarıyla sınırlı görünmektedir. Uluslararası benchmark sonuçlarının yayımlanması, hem akademik güvenilirliği artıracak hem de modelin dünya ölçeğinde nerede durduğunu daha net ortaya koyacaktır.

Bir diğer önemli konu ise araştırma ekosistemidir.

Yapay zekâ yalnızca bir model geliştirmekten ibaret değildir. O model etrafında çalışan üniversiteler, araştırmacılar, girişimler ve bağımsız geliştiriciler de başarının önemli bir parçasıdır. BİLGE’nin zaman içinde araştırma dünyasına daha açık hâle gelmesi, API veya kontrollü erişim imkânlarının sunulması ve üniversitelerle ortak projelerin artırılması, Türkiye’deki yapay zekâ ekosistemini çok daha hızlı büyütecektir.

Bütün bu değerlendirmeleri bir eleştiri değil, yapıcı bir katkı olarak görmek gerekir.

Çünkü teknoloji geliştiren ülkeler, projelerini övgülerle değil; bilimsel tartışmalarla olgunlaştırırlar. Bugün dünyanın en başarılı yapay zekâ modelleri de yüzlerce akademik eleştiri ve binlerce bağımsız test sonucunda gelişmiştir.

Türkiye’nin de artık aynı bilimsel kültürü güçlendirmesi gerektiğine inanıyorum. Yerli projeleri ya koşulsuz alkışlayan ya da peşinen değersiz gören anlayış yerine; başarılarını teslim eden, eksiklerini ise bilimsel bir dille ortaya koyan bir yaklaşım ülkemize çok daha fazla katkı sağlayacaktır.

Ben BİLGE’yi, Türkiye’nin yapay zekâ tarihinde önemli bir başlangıç olarak görüyorum. Ancak bu başlangıcın dünya ölçeğinde güçlü bir başarı hikâyesine dönüşebilmesi için teknik şeffaflığın artırılması, uluslararası benchmark sonuçlarının paylaşılması, ayrıntılı teknik raporların yayımlanması ve araştırma ekosisteminin daha da güçlendirilmesi büyük önem taşımaktadır.

Sonuç olarak BİLGE, Türkiye’nin yapay zekâ alanında kendi yolunu çizebilmesi adına umut veren ve stratejik değeri yüksek bir girişimdir. Eksikleri elbette olacaktır; çünkü büyük teknolojik projeler ilk günden mükemmel olmaz. Önemli olan, bu projelerin sürekli gelişmesi, eleştirilerden beslenmesi ve uluslararası ölçekte rekabet edebilecek seviyeye ulaşmasıdır.

Bu vesileyle TÜBİTAK bünyesinde BİLGE projesinde emeği geçen tüm araştırmacıları, mühendisleri ve yöneticileri gönülden tebrik ediyorum. Temennim odur ki bu girişim yalnızca Türkiye’nin değil, Türkçe konuşan tüm coğrafyanın faydalanacağı güçlü bir yapay zekâ ekosisteminin temelini oluştursun. Bilimle, ortak akılla ve sürekli gelişim anlayışıyla desteklenen her yerli teknoloji girişiminin ülkemizin geleceğine önemli katkılar sağlayacağına yürekten inanıyorum.

Saygılarımla

Taşkın Koçak

Taşkın Koçak

TÜBİTAK BİLGE: Türkiye’nin Yapay Zekâ Projesi

Leave a Comment Yanıtı iptal et

Pages

Categories

Son Yazılar