Karanlık Veri Çağı
Üniversiteden mezun olur olmaz, halihazırda çalıştığım işimden istifa edip, özellikle büyük veri alanında kendimi geliştirme fırsatı bulabileceğim bir işyeri arayışına girdiğim zamanı hatırlıyorum. Okulumun son yılında da bu konu ile ilgili bir hayli mesai ve emek harcadığım için, yavaştan popülerliği artan bu alanda konuşulan şeylere normalden daha fazla kulak kabartıyor, bu alanda fikir yürüten insanları takip ediyordum. Gartner’ın Hype Cycle grafiği pek çok sefer yanıltmadığı gibi, bu popüler konunun akıbeti hakkında da bizleri yanıltmayacaktı. İnsan, doğası gereği iyimserlik yanlılığına (optimism bias) yenik düşerek olayların kendi lehine sonuçlanacağına dair aşırı bir güvenle hareket ediyor. Bazen de FOMO geliştirip bir trendi kaçıracağı yanılgısına kapılarak, aslında farklı görünen yolların kendisini aynı sona götürmesine müsaade ediyor.
Büyük Veri İllüzyonu
Sektörel rekabetin de etkisiyle, çeşitli alanlardaki teknoloji liderlerinin “Büyük veri dönüşümü için veri biriktirmeye başlıyoruz” ya da “Bünyemize Cassandra kümeleri kattık” gibi cümleleri sıklıkla kurduğu o günleri hatırlıyorum. Tabii o dönemdeki sektörel deneyimimin yetersizliği nedeniyle, bu yaklaşımların altında yatan asıl sebepleri kavrayamıyor; belki de bu kararların arkasında benim henüz göremediğim devasa stratejik hamlelerin yattığını varsayıyordum. Ama şu soruları içten içe sormadan duramıyordum:
“Neyi bekliyoruz?”, “Neyi biriktiriyoruz?”, “Neden biriktiriyoruz?”, “Bunun şirketlere maliyeti nedir?”
Peki ya sadece şirketler mi verilerini biriktiriyor? iCloud veya Google Drive hesabımıza eşleştirdiğimiz dosyalarımıza, fotoğraflarımıza ve videolarımıza ne sıklıkla erişiyoruz? Yılda ne kadar ücret ödüyoruz? Yapay zeka araçları ile üretmiş olduğumuz fotoğrafları, videoları ve metinleri sadece yapay zeka platformlarının sunucularında mı yer tutmasına izin veriyoruz? Yoksa bir de bu verileri hem kendi cihazlarımızda hem de diğer uygulamaların bulut sunucularında defalarca tutuyor muyuz? Kaçına dönüp dolaşıp tekrardan ama tekrardan kullanıyoruz? Yıllar içerisinde veri tüketim alışkanlıklarımız da bir daha asla dönüp izlemeyeceğimiz Netflix dizilerine dönüştü galiba.
Bu sorulara net bir cevap verebilmek için, önce problemin kendisine bir isim koymamız gerekiyor.
Karanlık Veri (Dark Data) Nedir?
Bir probleme çözüm üretmenin ilk adımı, o problemi ifade etmektir. Bahsettiğimiz bu problemin finansal, psikolojik ve teknik açıdan farklı tanımlamaları olmasına rağmen, ben ele aldığım konu için “Karanlık Veri” (Dark Data) kavramını tercih ettim.
Gartner Tanımı
Karanlık veri, Gartner’ın tanımıyla; şirketlerin rutin iş faaliyetleri sırasında topladıkları, işledikleri ve depoladıkları ancak analiz, geliştirme ve doğrudan değere dönüştürme gibi diğer amaçlar için kullanmadıkları veriler olarak tanımlanmaktadır.
Genellikle karanlık verinin şirketler için değer üretebilecek ve gelire dönüştürülebilecek potansiyelde olduğu ifade edilir; bu verilerin keşfedilmesi ve analitik öngörüye dönüştürülmesi teşvik edilir. Bu bağlamda karanlık veri, “henüz değere ve gelire dönüştürülmemiş veri” olarak da sıklıkla kullanılır.
Fakat ben kavramı sadece bu anlamda kullanmanın oldukça “iyimserlik yanlılığı” barındırdığına inanıyorum. Bazı verileri silebiliriz; her veri değerli değildir veya her verinin değerini matematiksel olarak ölçemeyiz. Ayrıca her verinin, analitik öngörüye dönüştükten sonra üreteceği maddi değerin, onu üretme maliyetinden yüksek olacağını da garanti edemeyiz. Pek çok veri; tutulduğu hâliyle veya saklanma şekliyle analitik öngörüye hiçbir zaman dönüştürülemez ya da dönüştürülmesi yüksek efor ve maliyet gerektirir.
Bu istifçiliğe biraz da hepimizin sunumlarda kullandığı “veri yeni benzindir” tanımlamalarının yol açtığını düşünüyorum. Tabii ki bu verilerin bir kısmının gerçekten operasyonel anlamda iyileştirmelere yakıt olabileceği ve çeşitli öngörüler üreterek verimliliği artırabileceği konusundaki iyimserliği de bırakmamak gerekiyor.
Şimdi, biraz rakamlar ile karanlık veriye bakalım:
Splunk’ın yayınlamış olduğu “The State of the Dark Data” raporuna göre,
Bu rapordaki metrikleri yorumlamak gerekirse; çok ama çok büyük bir çoğunluk, verinin ne kadar önemli ve stratejik olduğu konusunda hemfikir fakat bulundukları organizasyonlardaki verilerin %75’inin kullanılmayan veriler olduğu konusunda da hemfikir. Bu ve buna benzer araştırmaların yorumlanması genellikle, “Hadi o zaman verimizdeki gizli değeri işleyerek çıkaralım” şeklinde gerçekleşiyor.
Ben kendi fikrimi ifade edecek olursam; insanlar zaten verinin bu kadar önemli olduğunu düşündükleri için istifliyorlar. Sonrasında ise istifledikleri veri onlara gelir getirmekten çok, çoğu zaman sürekli bir maliyet kalemi, bir bilinmezlik ve çevreye de vermiş olduğu çok büyük bir zarar olarak geri dönüyor. Benim buradan çıkardığım not; kesinlikle “hadi bu verileri kullanalım ve daha fazla kazanalım” değil. Benim buradan çıkardığım ana not, veri depolama araçlarının kullanımının, henüz tasarım aşamasındayken hedeflerine ve amaçlarına uygun olarak tasarlanması; geleceğe yönelik öngörülerle veri depolama yaklaşımlarının stratejik olarak planlanmasıdır. Veriye bir “yastık altı altın” muamelesi yapmaktan ziyade; operasyonel ihtiyaçlarımızı doğru bir şekilde karşılayabilmemize ve operasyonel süreçlerimizi düzenli olarak geliştirmemize yol açacak bir veri depolama stratejisi ile veriye yaklaşmamız gerektiğidir.
Peki bu stratejik körlüğün kurumlar için somut bedeli ne kadar? Bunu en iyi bir senaryo üzerinden gösterebiliriz.
Veri İstifçiliğinin Faturası
Gerçek hayat senaryolarının çoğunda karşılaştığımız üzere; bu stratejiyi benimsemeyen kurumların operasyonel maliyetlerini senaryolaştırarak, bu durumun yol açtığı finansal ve çevresel problemleri inceleyelim.
Şirketimizin adını CompW olarak belirleyelim ve CompW’nun alanında lider bir e-ticaret platformu olduğunu varsayalım. Çeşitli operasyonel ve analitik süreçlerde kullandıkları veri depolama araçlarını, konunun daha kolay anlaşılabilmesi adına üç ana kategoriye ayıralım:
Bellek Tabanlı (In-Memory)
Global bir teknoloji şirketinin kurumsal ve operasyonel süreçleri için kullanılan yüksek performanslı veritabanları.
İlişkisel/İlişkisel Olmayan (SQL & NoSQL)
Analitik süreçler ve çeşitli operasyonel ihtiyaçlar için kullanılan asıl veri yükünü çeken veritabanları.
Obje Tabanlı (Object Storage)
Ham veriler, veri entegrasyon katmanları, IoT verileri, "Lakehouse" verileri, BLOB'lar ve anlık görüntülerin (snapshot) tutulduğu alanlar.
Örneklerimi rakamlara dökerken oldukça iyimser davranacağım. Diyelim ki bellek tabanlı veritabanları toplamda 10 TB yer kaplasın ve %90’ı gerçekten düzenli olarak erişilen ve kullanılan verilerden oluşsun. Yani karanlık veri miktarı sadece 1 TB olsun. Bu karanlık verinin işletmeye yıllık maliyeti; lisanslama ve kurulum tipine göre değişeceği için burada rakamsal bir ifade kullanmayacağım.
Kurumumuzdaki tüm ilişkisel ve ilişkisel olmayan veritabanlarının toplam hacminin de 10 TB olduğunu varsayalım. Burada da oldukça iyimser bir tahminde bulunarak, bu verinin %80’inin aktif olarak erişildiğini ve kullanıldığını düşünelim. Yaklaşık 2 TB’lık bu verinin kuruma yıllık maliyetini yine aynı sebeplerle net olarak belirtmeyelim.
Son olarak da bu kurumun en yoğun kullandığı obje tabanlı depolama çözümünün toplam boyutunun 4 PB olduğunu varsayalım. Yani tüm departmanlara ait obje depolama çözümlerinin; uygulamaların, veri entegrasyon katmanlarının ve akla gelebilecek diğer her türlü ihtiyacın toplam hacminin 4 PB olduğunu düşünelim. Bunun %75’inin karanlık veri olması; 3 PB’lık verinin son 15-30 gün içinde hiç erişilmeyen, sadece birikip orada bekleyen veriler olması demektir. Matematiği basit tutmak adına, veri merkezi ve kıta bazlı obje tabanlı veri replikasyonlarını hesaplamanın dışında tutuyorum.
Organizasyonların bu verilere yönelik nasıl bir yaklaşım sergilediği de oldukça önemlidir. Genellikle bu ve benzeri durumlarda ürün sağlayıcı firmalar, DLM çatısı altında çeşitli özellikler sunuyorlar. Basitçe ifade etmek gerekirse DLM; bir verinin erişim sıklığına ve yaşına bağlı olarak farklı depolama katmanlarına transfer edilmesi sürecidir. Yani bu, verinin üretildikten veya kullanıldıktan belirli bir süre sonra “yaşlanması” mantığına dayanmaktadır. Burada karşımıza en sık çıkan katmanların sırasıyla Hot, Warm, Cold ve Archive katmanları olduğunu söyleyebiliriz.
Veriyi Hot katmanında depolamanın maliyeti diğer katmanlara göre oldukça yüksek olsa da, bu veriye erişim ücreti diğer depolama katmanlarından daha ucuzdur. Tam tersi yönden bakacak olursak; Arşiv katmanında depoladığımız verinin depolama maliyeti diğer katmanlara göre oldukça düşükken, o veriye erişme maliyeti diğer katmanlara göre daha pahalıdır. Özetle bu süreç; verinin erişim sıklığına göre arka plandaki depolama teknolojisinin değiştirilmesi ve buna uygun olarak veri depolama süreçlerinin maliyet açısından optimize edilmiş bir şekilde işletilmesidir.
Komprise 2026 State of Unstructured Data Management raporuna göre; katılımcıların %47’si departmanların depolama harcamaları ve veri kullanımı konusunda görünürlük eksikliği yaşadıklarını beyan ederken, çalışmaya katılan kurumların %74’ü artık 5 PB’dan fazla veriyi yönettiklerini belirtmişlerdir. FinOps uygulamalarının henüz emekleme aşamasında olduğu bu alanda; özellikle her bir iş birimi veya departman için açılan ayrı sanal depolama konteynerleri ve hesapları nedeniyle, kurum ölçeğinde ne kadar verinin ne kadar doğru bir şekilde yaşlandırıldığının ölçümlenmesi de özel bir çaba gerektiriyor. Kendi kariyerimdeki birçok firmada edindiğim tecrübelere dayanarak konuşmam gerekirse; DLM uygulamasının düzenli bir şekilde ölçümlendiğine veya bir iş yükü tasarlanırken bu konunun göz önüne alındığına çok az şahit oldum. Hatta önerilerde bulunduğum firmalarda dahi bu konunun nadiren önemsendiğini fark ettim.
Örneğimize dönecek olursak; DLM stratejilerinin uygulanmadığı bir senaryoda, sadece liste fiyatları üzerinden ve bu yazıyı hazırladığım tarihteki güncel rakamlar baz alındığında, aşağıdaki gibi bir aylık maliyetle karşılaşıyoruz:

Bu verinin sadece %66’lık bir kısmını kullanım sıklığına göre gruplandırıp “Cold” katmanına taşıdığımızda ve geri kalan tüm veriyi “Hot” katmanda depoladığımız takdirde ise şu ücretle karşılaşıyoruz:

Burada neredeyse %50 oranında bir maliyet optimizasyonundan bahsediyoruz. Üstelik bugün “optimizasyon” olarak adlandırdığımız bu sürecin, önümüzdeki yıllarda bir zorunluluğa dönüşeceğine dair güçlü göstergeler mevcut. Günümüzde kullandığımız verilerin büyük çoğunluğu bizim veya cihazlarımızın ürettiği verilerken; Gartner raporlarına göre, yapay zeka araçları tarafından üretilecek sentetik veri miktarının, gerçek veri miktarını geride bırakması beklenmektedir.

Bu durum açıkça gösteriyor ki; bugün optimizasyon olarak nitelendirdiğimiz süreç, önümüzdeki dönemlerde iş yüklerimizin kârlılığını koruyabilmek adına bir zorunluluğa dönüşebilir.
Dijital Çöplüğün Karbon İzi
Buraya kadar anlattığım her şey konunun maliyet boyutuyla ilgiliydi. Kullanılmayan her verinin, özellikle güvenlik açısından da ciddi riskler barındırdığını unutmamak gerekir; ancak belki de hepimizi çok daha yakından ilgilendiren kısım, bu durumun çevresel etkileridir.
Veritas’ın henüz 2020 yılında paylaştığı verilere göre; sadece karanlık verilerin depolanması için harcanan enerji, yılda 6,4 milyon ton CO2 salınımına neden olmaktadır. Aynı rapor, 2025 yılına kadar 175 ZB veri depolanacağını öngörmüşken; günümüzde bu rakamın üzerine çıkıldığını ve yaklaşık 200-250 ZB arasında bir veri hacmine ulaşıldığını öngören çalışmalar mevcuttur. Bu durumun, güncel karanlık veri istatistikleriyle birlikte yıllık yaklaşık 9,5-10 milyon ton CO2 salınımına eş değer olduğu düşünülebilir.
Böylesine devasa bir karbon miktarını bir yılda absorbe edebilmek için yaklaşık 500 milyon adet yetişkin ağaca ihtiyaç duyulmaktadır. Bir ağacın yetişmesi yıllar sürerken, yapay zekanın veri üretme hızının üstel olarak artacağı öngörülmektedir.
Mahatma Gandhi
“Dünya herkesin ihtiyacına yetecek kadarını sağlar, ama herkesin hırsına (açgözlülüğüne) yetecek kadarını değil.”
Bu serinin diğer bloglarında görüşmek üzere.