Yeni Nesil Veri ve Büyük Veri Mimarisi

Veri, araştırmalardan, gözlemlerden, internetten, sosyal medyadan, sensörlerden vb. çok farklı ortamlardan elde edilen genel bir terimi ifade etmektedir.





Verileri şu şekilde gruplandırabiliriz:


• Yapılandırılmış, Yapılandırılmamış, Yarı yapılandırılmış

• Statik, dinamik, akan

• Güvenli / açık, özel / halka açık

• Ücretli / ücretsiz

• Açık hükümet verisi

• Açık veri

• Büyük veri


Büyük Veri


McKinsey Global Institute, 2011 yılında 'Büyük Veri' kavramını, tipik ve geleneksel veri tabanı yazılımlarının yapamayacağı şekilde, bunların kabiliyetlerinin ötesinde, veri kümelerini alan, saklayan, yöneten, erişime sunan ve analiz eden araçları tanımlamak için kullanmıştır. 2012 rakamları ile dünyada günlük 2.5 Kentirilyon byte veri üretilmektedir. Bu çapta büyük veriyi işleme, transfer etme gibi işlerin tümüne Büyük Veri (Big Data) adı verilmektedir.


Genel olarak, Büyük Veri; web sunucularının logları, internet istatistikleri, sosyal medya yayınları, bloglar ve benzer sensörlerden gelen bilgiler, GSM operatörlerinden elde edilen arama kayıtları gibi büyük sayıda bilgiden oluşmaktadır. Aynı zamanda, Büyük verinin yalnızca verinin hacmi nedeniyle büyük olduğu söylenemez.


Tarihçe

Teknolojinin gelişmesi, veriyi önemli bir ekonomik değeri olan önemli bir iş girdisi şekline dönüştürmüştür. Teknolojinin gelişmesi ile birlikte bilgiyi “depolama” kapasitemiz arttı. Büyük Veri’nin toplanan verinin analizi ile gerçekleştireceği büyük etki ve değişiklikler son birkaç yıl içinde gelişmiş seviyeye ulaşmıştır. Günümüzde, hayatımızın her noktasından aynı anda ve hızlı bir şekilde veri gelmektedir. 2016 yılının başlarında elde edilen verilerin daha düzenli olarak depolanması ve yönetiminin daha kolay olması için Hadoop ve NoSQL dediğimiz veri yönetimi yöntemleri geliştirildi. 2017 yılında Büyük Veri kaynakları yapılandırılmış ve yapılandırılmamış veri kaynakları diye ikiye ayrıldı. Yapılandırılmamış kaynaklar bloglar, sosyal medya, video ve online olarak elde edilen verileri kapsamaktadır. Yapılandırılmış veriler ise finans, satış bilgileri, şirket kaynakları ve sensörlerden elde edilen bilgiler gibi şeyleri kapsamaktadır. Büyük verinin işlenme olanaklarının ve hızının artması önümüzdeki yıllarda hayatımızı şekillendirecek en önemli unsurlardan biri.


Verinin Önemi


Verinin önemini anlatmak için ortaya konulabilecek en belirgin kriter, verinin yapılan çalışmalara kattığı değerdir. Bu nedenle verinin değerine ilişkin bazı kavramlara yer vermek gerekir. Bunlar; verinin gerçek değeri ve opsiyon değeri arasındaki ilişki, verinin amortisman değeri ve veri simsarlığı gibi kavramlardır. Verinin gerçek değeri, okyanusta yüzen buzdağının görünen parçası olarak tanımlanabilir. Veri’nin opsiyon değeri, verinin kullanılabileceği bütün olası biçimlerin toplamını ifade etmektedir. Görünüşte sonsuz olan bu potansiyel kullanımlar, opsiyonlar gibidir. Veri’nin değeri, bu seçeneklerin toplamıdır. Veri’nin değeri için en önemli nokta görünüşte sınırsız olan yeniden kullanım potansiyeli, yani verinin opsiyon değeridir.


Bilgiyi toplamak önemli ama yeterli değildir, verinin sahip olduğu potansiyel, yalnızca sahip olunmasında değil, kullanımında yatmaktadır. Çoğu veri, zamanla faydasının bir kısmını kaybetmektedir. Bu nedenle kurumlar, veriyi sadece verimli olmaya devam ettiği sürece kullanma yönünde bir dürtüye sahiptirler ve bunun sonucu olarak da sürekli verilerini incelemeleri ve değerini kaybeden bilgiyi ayıklamaları gerekmektedir. Buradaki zorluk hangi verinin artık faydalı olmadığını bilebilmektir. Bu şekilde, eski verinin faydası daha iyi değerlendirilebilir ve dolayısı ile veri için daha doğru amortisman oranları modellenebilir.






'3 V' Kavramı


Gelecekte Büyük Veri zamanla değişebilir ve bugünün Büyük Veri’si gelecekte aynı anlama gelmeyebilecektir. Bu yüzden Büyük Veri kavramının tanımlamasında yardımcı olması için genellikle verinin hacmi, hızı ve çeşitliliğini ifade eden “3 V” (Volume, Velocity, Variety)


notasyonu, yaygın olarak onu diğer veri türlerinden ayıran kavramlar olarak kullanılmaktadır. Daha sonraki yıllarda bu tanımlar 5V ve hatta 8V olarak geliştirilse de temeldeki 3 ana kavram değişmemiştir.


Volume (Hacim)

Verinin hacmi, verinin büyüklüğü ve boyutunu ifade etmektedir. Terabayttan petabaytlara kadar olan veri aralıklarına denir. Eğer ilgilenilen verinin miktarı daha önce kullanılan verinin üstündeyse muhtemelen büyük veri ile uğraşılmaktadır.


Variety (Çeşitlilik)

Çok çeşitli kaynaklardan ve biçimlerden veri içerir (örnek; web günlükleri, sosyal medya etkileşimleri, e-ticaret ve çevrimiçi işlemler, finansal işlemler vb.)


Velocity (Hız)

Verinin hızı, elde edilen veri ile ilgili gerçek zamanlı olarak harekete geçilebilmesini ifade etmektedir. Örneğin, coğrafi konum olarak müşterinin nerede olduğuna dayanarak yapılan bir indirim/promosyon teklifi; müşteri o noktadan geçtikten sonra müşteriye ulaşırsa, başarılı olma şansı çok düşebilir.


Verinin Çeşitililiği & Söz Dizimi ve Semantik


Verinin çeşitliliğinin söz dizimi (syntax) ve semantik (anlamsal) olmak üzere 2 boyutu vardır. Geçmiş dönemlerde bu iki boyut, hangi verinin güvenilir bir biçimde veri tabanlarında yapılandırıldığının ve analizin içeriği için ne kadar güvenilir olduğunun derecesini belirlemekteydi. Modern ETL (ETL, birden fazla kaynaktan gelen verileri harmanlamak için kullanılan ve üç adımdan oluşan “Veri, Enformasyon, Bilgiyi” ifade eden bir tür veri bütünleşmesidir.) araçları görsel olarak gelen sanal sözdizimi verilerini çok başarılı bir şekilde işleyebilirken, serbest metin gibi semantik olarak zengin verilerin çözümünde daha başarısızlardır. Bu yüzden birçok organizasyon, enformasyon yönetim sisteminin veri kapsamını daha dar bir veri düzeni ile sınırlamışlardır. Bu sınırlamayı organizasyonların daha kapsayıcı, ek değer yaratması takip etmiştir.


Büyük Verinin Artmasının Nedenleri


1980 lerde ürünün çok daha önemli olduğu zamanlarda, şirketlerin asıl amacı belirli bir ürünü üretmek ve müşteriye ulaşımını sağlamaktı. Bu yıllarda ERP (Enterprise Resource Planning) sistemlerinin ön plandaydı. Bu sistemlerin amacı müşteri, dağıtım merkezi, tedarikçiler ve üretimi bir platformda toplamaktı. Daha sonra, CRM (Customer Relationship Management-Müşteri ilişkileri Yönetimi) kavramı doğdu. Sosyal ağ etkileşimlerinin büyüdü, video ve medya kaynakları daha da arttı. Özellikle son birkaç yılda mobil teknoloji ve sosyal medyadaki gelişmeler ile veri daha da arttı ve gerçek zamanlı verinin önemi daha da artmış

oldu. Akıllı telefonların kullanım oranındaki artış, internete 7/24 erişim olanağı sağlamasının yanı sıra Whatsapp gibi online mesajlaşma uygulamaları ile Facebook, Twitter ve Instagram gibi sosyal medya uygulamaları bu artışa etkili oldu.


Dünyada Büyük Veri’nin Kullanım Alanları


Walmart

Walmart 2004 yılında Teradata’nın sayısal çözümleme uzmanları ile hangi müşterinin hangi ürünü aldığı, toplam maliyetleri, alışveriş sepetlerinde başka neler olduğu, günün saatleri ve hatta durumları gibi verileri içeren devasa veri tabanlarını incelemişlerdir. Bu incelemeyi yaparken şirket, bir kasırga öncesinde sadece el feneri satışlarının değil aynı zamanda şekerli bir Amerikan gevreği PopTarts satışlarının da arttığını fark etmiştir. Sonrasında hızla girip çıkan müşterileri için mağazanın ön tarafındaki kasırga malzemelerinin yanına PopTarts’ları depolayarak satışları önemli ölçüde artırmıştır. Geçmişte, verinin toplanması ve fikirlerin test edilmesi için merkezdeki bir çalışanın önceden içine doğması gerekirken, günümüzde Walmart bu kadar büyüklükte veriye ve daha iyi araçlara sahip olduğu için, korelasyonları çok daha hızlı ve ucuz şekilde ortaya çıkarıp bunları şirket operasyonlarında kullanarak büyük faydalar sağlayabilmiştir.


Dünya Kupası 2014 Brezilya Örneği:

Bilindiği gibi 2014 yılında FIFA Dünya Kupası şampiyonu Almanya olmuştu. Turnuvada SAP ve Almanya Futbol Federasyonu, kupadaki oyuncu performanslarını artırmak için büyük veriyi akıllı kararlara dönüştürecek bir sistem için inovatif bir işbirliği yapmışlardır. SAP HANA platformunda çalışan bu çözüm, antrenmanların, hazırlıkların ve turnuvaların analizi kolaylaştırmak için ve oyuncu - takım performanslarını artırmak için tasarlanmıştır. Milli Takım Menajeri Oliver Bierhoff, bu konuda 10 dakikada 10 oyuncunun, 7 milyondan fazla veri noktasından veri ürettiğini belirtmektedir.


İlgili çözüm ile bir sonraki maçın antrenmanlarının ve hazırlığının yapılmasında bu büyüklükteki verinin analizi gerçekleştirilebilmiştir. Bu analizler Almanya’ya kupayı getirmede büyük rol oynamıştır. Futbol dünyasında başarının gelmesinde payı olan bu çözüm hem büyük verinin kullanım alanlarının çeşitliliği ve geliştirilmesi

konusunda hem de spor dünyası açısından çok önemli bir gelişmedir. Maç içinde toplanan verinin, enformasyona dönüşmesinde ve bu enformasyonun karar süreçlerinde kullanılarak önemli bilgiler elde edilmesinde büyük veri uygulamalarında ne kadar önemli olduğu bu örnekte değerlendirilebilir.















Son Paylaşımlar

Hepsini Gör