Araştırma
10 Oca 2025
Haber Özeti
Yapay zeka teknolojilerinin gelişimi, büyük veri kaynaklarının birkaç teknoloji devinin kontrolüne yoğunlaştığını ortaya koyarken, şeffaflık ve erişim sorunlarını gündeme getiriyor. Veri Kaynağı İnisiyatifi'nin araştırması, yapay zeka modellerini eğitmek için kullanılan veri setlerinin büyük ölçüde Batı odaklı olduğunu ve coğrafi-kültürel çeşitliliğin yetersiz kaldığını gösteriyor. Rekabet avantajı ve yasal kısıtlamalar, şirketlerin veri kaynaklarını paylaşmasını zorlaştırıyor ve küçük ölçekli girişimlerin erişimini sınırlıyor. Bu sorunlar, yapay zekanın kapsayıcılık ve tarafsızlık hedeflerini tehdit ederken, veri yönetimi ve çeşitliliğinin iyileştirilmesi gerektiğini vurguluyor.
Yapay zeka teknolojilerinin gelişimi, veri kaynaklarının giderek daha fazla birkaç büyük teknoloji şirketinin kontrolünde yoğunlaştığını ortaya koyuyor. Yapay zeka, büyük ölçüde veri üzerinden inşa edilir; algoritmaların eğitilmesi için geniş ve çeşitli veri setlerine ihtiyaç duyulur. Ancak, bu veri setlerinin kaynakları ve içerikleri hakkında yeterli bilgiye sahip olunmaması, önemli bir sorun teşkil etmektedir. Yapay zeka geliştiricileri ve araştırmacıları, kullandıkları verilerin nereden geldiğini genellikle tam olarak bilmemekte, bu da veri toplama süreçlerinin yapay zekanın teknik karmaşıklığına kıyasla daha az gelişmiş olduğunu göstermektedir.
Büyük veri setleri çoğunlukla kaynakları ve içerikleri hakkında şeffaflık sağlamaz. Bu sorunu ele almak amacıyla, akademi ve endüstriden 50'den fazla araştırmacının bir araya geldiği Veri Kaynağı İnisiyatifi, yapay zeka modellerinin temelini oluşturan verilerin kökenini araştırmayı hedefledi. Bu kapsamda, 600'den fazla dili, 67 ülkeyi ve son 30 yılı kapsayan yaklaşık 4.000 kamuya açık veri seti incelendi. Bu veri setleri, 800'den fazla farklı kaynaktan ve yaklaşık 700 organizasyondan elde edildi. MIT Technology Review ile paylaşılan bulgular, yapay zeka veri uygulamalarında birkaç büyük teknoloji şirketinin elinde güç yoğunlaşması riski olduğunu ortaya koyuyor.
2010'ların başlarında, yapay zeka veri setleri çok daha çeşitli kaynaklardan geliyordu. Bu kaynaklar arasında ansiklopediler, web siteleri, parlamento tutanakları, kazanç çağrıları ve hava durumu raporları gibi farklı içerikler bulunuyordu. Ancak, 2017 yılında dil modellerinin temelini oluşturan "transformer" teknolojisinin geliştirilmesiyle birlikte, yapay zeka sektörü veri setlerinin ve modellerin büyüklüğünün performansı artırdığını fark etti. Bu durum, veri toplama süreçlerini köklü bir şekilde değiştirdi. Günümüzde, yapay zeka veri setlerinin büyük bir kısmı internetten kazınan içeriklerden oluşmaktadır. 2018'den itibaren, web tabanlı veri kaynakları, ses, görüntü ve video gibi tüm medya türleri için baskın hale geldi. Ancak, özenle hazırlanmış veri setleri ile kazınmış veriler arasındaki fark giderek büyümekte.
"Temel model geliştirmede ölçek ve veri çeşitliliği, başarının anahtarıdır," diyor MIT'den araştırmacı Shayne Longpre. Bu ölçek ihtiyacı, sentetik verilerin kullanımını artırmış ve çok modlu üretken yapay zeka modellerinin yükselişine yol açmıştır. Örneğin, video ve görüntü üretebilen modeller, büyük miktarda veri gerektirir ve bu verilerin en büyük kaynağı genellikle YouTube gibi platformlardır. Longpre, YouTube'un Alphabet (Google'ın ana şirketi) için büyük bir avantaj sağladığını belirtiyor. Metin verileri birçok farklı web sitesinden gelirken, video verileri büyük ölçüde tek bir platformda yoğunlaşmıştır. Bu durum, Alphabet'in bu verilere erişimi kontrol etme gücünü artırmaktadır.
Yapay zeka şirketleri, modellerini eğitmek için kullandıkları veriler hakkında genellikle bilgi paylaşmazlar. Bunun nedenlerinden biri, rekabet avantajlarını koruma isteğidir. Diğer bir neden ise, veri setlerinin genellikle karmaşık ve belirsiz bir şekilde bir araya getirilmiş olmasıdır. Veri setlerinin kaynaklarını tam olarak bilmek veya bu verilerin kullanımına ilişkin kısıtlamaları anlamak çoğu zaman mümkün değildir. Veri Kaynağı İnisiyatifi araştırmacıları, veri setlerinin genellikle kısıtlayıcı lisanslar içerdiğini ve ticari amaçlarla kullanımını sınırladığını tespit etmiştir. Bu durum, geliştiricilerin doğru veri seçimi yapmasını zorlaştırırken, telif hakkı ihlallerinden kaçınmayı da neredeyse imkansız hale getirmektedir.
Son yıllarda, OpenAI ve Google gibi şirketler, büyük yayıncılar, sosyal medya platformları ve forumlarla özel veri paylaşım anlaşmaları yaparak bu sorunu aşmaya çalışmıştır. Ancak bu durum, büyük teknoloji şirketlerinin güçlerini daha da yoğunlaştırmasına yol açmaktadır. Longpre, bu tür özel anlaşmaların, interneti erişim sağlayabilenler ve sağlayamayanlar arasında bölerek yeni bir asimetrik erişim dalgası yarattığını ifade ediyor. Bu durum, büyük şirketlere avantaj sağlarken, daha küçük yapay zeka girişimleri, kar amacı gütmeyen kuruluşlar ve bağımsız araştırmacılar için ciddi erişim sorunları yaratmaktadır.
Yapay zeka modellerini eğitmek için kullanılan veriler büyük ölçüde Batı dünyasına odaklanmıştır. Veri Kaynağı İnisiyatifi'nin analiz ettiği veri setlerinin %90'ından fazlası Avrupa ve Kuzey Amerika'dan gelirken, Afrika'dan gelen veri setleri %4'ten az bir oranı temsil etmektedir. Bu durum, yapay zeka modellerinin dünya genelindeki kültürel ve coğrafi çeşitliliği yeterince yansıtamamasına neden olmaktadır. Hugging Face'in baş etikçisi Giada Pistilli, internetin %90'ından fazlasının İngilizce olmasının bu dengesizliğin başlıca nedenlerinden biri olduğunu belirtmektedir. Ayrıca, diğer dillerde veri setleri oluşturmanın bilinçli bir çaba ve önemli bir çalışma gerektirdiği de vurgulanmaktadır.
Bu dengesizlik, özellikle çok modlu modellerde belirgin hale gelmektedir. Örneğin, bir yapay zeka modeli düğün görüntüleri ve sesleriyle eğitildiğinde, yalnızca Batı kültürüne özgü düğünleri temsil edebilir. Bu durum, belirli bir dünya görüşünü pekiştirirken, diğer kültürleri ve dilleri dışlayabilir. Cohere'den Sara Hooker, bu tür modellerin dünyanın dört bir yanında kullanıldığını, ancak modellerin görünmez kıldığı dünyalar ile temsil edilen dünyalar arasında büyük bir uyumsuzluk olduğunu ifade etmektedir.
Yapay zeka teknolojilerinin gelişimi, veri kaynaklarının şeffaflığı, erişilebilirliği ve çeşitliliği konularında önemli sorunları beraberinde getirmektedir. Büyük teknoloji şirketlerinin veri üzerindeki hakimiyeti, yapay zeka modellerinin tarafsızlığını ve kapsayıcılığını tehdit etmektedir. Bu durum, yalnızca teknolojik değil, aynı zamanda etik ve toplumsal bir sorun olarak ele alınmalıdır. Yapay zeka araştırmalarının daha şeffaf, kapsayıcı ve adil bir şekilde ilerlemesi için, veri kaynaklarının daha iyi yönetilmesi ve çeşitlendirilmesi gerekmektedir.
Kaynak: Technologyreview