Big Data Abstract

BÜYÜK VERİ

BIG DATA & ANALYTICS

Dijital Çağın Yeni Petrolü

Öğr. Gör. Tahsin ÇİLOĞLU

1. Büyük Veri Tanımı

Büyük veri, daha fazla çeşitlilik içeren ve hacmi hızlıca artan verilerdir. Bu kavram, genellikle geleneksel veri işleme yöntemlerinin yetersiz kaldığı büyük ve karmaşık veri kümelerini ifade eder.

  • Tanım: Yeni veri kaynaklarından elde edilen devasa, karmaşık veri yığınları.
  • Kapasite: Geleneksel yazılımların başa çıkamayacağı kadar büyük.
  • Fırsat: Daha önce çözülemez sanılan iş sorunlarını çözmek için kullanılır.
Big Data Concept

1.1 Veri Madenciliği Nedir?

Veri madenciliği, büyük hacimli ve karmaşık veri kümeleri içerisinden anlamlı, faydalı ve daha önce fark edilmemiş bilgilerin ortaya çıkarılmasını amaçlayan bir analiz sürecidir.

  • Yöntem: İstatistiksel yöntemler, makine öğrenmesi ve YZ teknikleri.
  • Amaç: Veriler arasındaki ilişkileri, örüntüleri ve eğilimleri belirlemek.
  • Sonuç: Ham verinin bilgiye dönüştürülerek karar destek sistemlerinde kullanılması.
Data Mining

1.2 Veri Madenciliği Kapsamı

Kullanılan Teknikler

Sınıflandırma, Kümeleme, Birliktelik Kuralları ve Tahminleme gibi algoritmalar.

Temel Fayda

Kurumların rekabet avantajı elde etmesine ve daha doğru, hızlı kararlar almasına katkı sağlar.

Sektörel Uygulamalar

  • Bankacılık: Risk analizi ve kredi onayı.
  • Pazarlama: Müşteri davranışları incelemesi.
  • Sağlık: Hastalık tahmini.
  • Eğitim: Öğrenci başarı analizi.
  • E-Ticaret: Kişiselleştirilmiş öneri sistemleri.

1.3 Bankacılıkta Risk Analizi

Veri madenciliği, bankacılık sektöründe kredi riski, dolandırıcılık tespiti ve müşteri ödeme davranışlarının analizinde yoğun olarak kullanılmaktadır.

  • Tahmin: Geçmiş finansal veriler ve harcama alışkanlıkları incelenerek kredi geri ödeme olasılıkları hesaplanır.
  • Güvenlik: Riskli müşteriler önceden belirlenir ve kredi politikaları daha güvenli hale getirilir.
  • Sonuç: Finansal kayıplar en aza indirilir.
Banking Risk Analysis

1.4 Pazarlamada Müşteri Analizi

Marketing Analysis

Müşteri satın alma alışkanlıklarını, tercihlerini ve eğilimlerini analiz etmek için kullanılır.

  • Segmentasyon: Müşteriler benzer özelliklerine göre gruplandırılır.
  • Kişiselleştirme: Her gruba özel kampanyalar oluşturulur.
  • Fayda: Müşteri memnuniyeti artarken satış oranları yükselir ve stratejiler daha etkili planlanır.

1.5 Sağlıkta Hastalık Tahmini

Hasta kayıtları, laboratuvar sonuçları ve tıbbi geçmiş verileri üzerinden hastalıkların erken teşhis edilmesine yardımcı olur.

  • Risk Analizi: Kronik hastalıkların risk faktörleri analiz edilerek olası sorunlar önceden tahmin edilir.
  • Tedavi: Tedavi süreçlerinin iyileştirilmesini sağlar.
  • Etkinlik: Sağlık hizmetlerinin daha etkin sunulmasına olanak tanır.
Health Prediction

1.6 Eğitimde Başarı Analizi

Education Analysis

Öğrencilerin akademik performanslarını, ders katılımlarını ve sınav sonuçlarını analiz ederek başarı düzeylerini değerlendirir.

  • Erken Uyarı: Başarısızlık riski taşıyan öğrenciler erken dönemde tespit edilebilir.
  • Destek: Gerekli destek programları zamanında planlanır.
  • Kalite: Eğitim kalitesi artırılarak başarının sürdürülebilirliği sağlanır.

1.7 E-Ticarette Öneri Sistemleri

Kullanıcıların geçmiş alışverişleri ve gezinme davranışları üzerinden kişiselleştirilmiş ürün önerileri sunmak için kullanılır.

  • Deneyim: İlgi alanlarına uygun ürünleri ön plana çıkararak alışveriş deneyimini geliştirir.
  • Sadakat: Müşteri sadakati artar.
  • Kazanç: İşletmelerin satış hacmi önemli ölçüde yükselir.
E-Commerce Recommendation

2. Büyük Verinin 5V Kuralı

1. Hacim (Volume)

Ciddi miktarda veri. Büyük verilerle, düşük yoğunluktaki yüksek hacimli ve yapılandırılmamış verileri işlemeniz gerekir. Bu; Twitter veri akışları, tıklamalar veya sensör verileri olabilir. Bazı organizasyonlar için onlarca terabayt, diğerleri için yüzlerce petabayt anlamına gelir.

2. Hız (Velocity)

Verilerin alınma ve eyleme geçme hızıdır. Normalde, diske yazmaya kıyasla veri akışlarının en yüksek hızı doğrudan belleğe olandır. Akıllı ürünler gerçek zamanlı çalışır ve anlık değerlendirme gerektirir.

3. Çeşitlilik (Variety)

Birçok kullanılabilir veri türünü ifade eder. Geleneksel ilişkisel veritabanlarına uymayan; metin, ses ve video gibi yapılandırılmamış ve yarı yapılandırılmış veri türleri, anlam türetmek için ek ön işleme gerektirir.

4. Değer (Value)

Verinin kendisi bir değerdir ancak bu değer "keşfedilene kadar" saklıdır. Önemli olan veriyi işleyip faydaya dönüştürmektir. Şirketler verimlilik üretmek için analiz yaparlar.

5. Doğruluk (Veracity)

Veriye ne kadar güvenebilirsiniz? Kirli veya yanlış veri, yanlış kararlara yol açar. Verileriniz ne kadar doğru ve bunlara ne kadar güvenebilirsiniz?

4.1 Büyük Veri Tarihi

  • 1960'lar - 70'ler: İlk veri merkezleri ve ilişkisel veritabanlarının doğuşu.
  • 2005 Civarı: Facebook, YouTube gibi platformlarla veri patlamasının fark edilmesi.
  • Apache Hadoop & NoSQL: Büyük veriyi depolamak ve analiz etmek için geliştirilen açık kaynaklı devrim.
  • IoT & Spark: Nesnelerin İnterneti ile cihazların veri üretmeye başlaması ve Spark gibi daha hızlı işleme motorları.
  • Bulut Bilişim: Esnek ve ölçeklenebilir veri depolama imkanları.
History of Data

4.2 Verinin Doğuşu (1960 - 2000)

1960'lar İlk Veri Merkezleri kuruldu. İlişkisel veritabanı kavramı doğdu. Veri sadece "kayıt tutmak" içindi.
1990'lar World Wide Web (WWW) doğdu. Veri dijitalleşmeye başladı ancak henüz "büyük" değildi. ERP ve CRM sistemleri yaygınlaştı.
Vintage Data Center

4.3 İnternet Çağı (2000 - 2010)

2001 Gartner, 3V kuralını (Hacim, Hız, Çeşitlilik) tanımladı. Veri patlaması resmiyet kazandı.
2005-2008 Facebook & YouTube çağı. Kullanıcılar içerik (veri) üretmeye başladı. Hadoop projesi doğdu.
Internet Boom

4.4 Modern Çağ (2010 - Günümüz)

2010+ Mobil Devrim & IoT. Her cep telefonu ve sensör bir veri kaynağına dönüştü.
2020+ Yapay Zeka & Büyük Veri Entegrasyonu. Veri artık sadece saklanmıyor, kendi kendine düşünüyor (GenAI).
Modern AI

5. Avantajlar

💰 Maliyet Tasarrufu

Bulut tabanlı depolama (Hadoop, Spark) ile büyük miktarda veriyi saklamak artık çok daha ucuz.

⏱️ Zaman Tasarrufu

Gerçek zamanlı bellek-içi (in-memory) analizler, veriden anında içgörü elde etmeyi sağlar. Hızlı karar, rekabette öne geçirir.

💡 Yeni Ürün Geliştirme

Müşteri ihtiyaçlarını veriye dayalı analiz ederek, tam isabet ürün ve hizmetler tasarlanabilir.

🎯 Pazar İhtiyacını Anlama

Müşteri davranışlarını analiz ederek satın alma alışkanlıklarını çözmek ve doğru pazarlama stratejisi kurgulamak.

"Veri, sadece bir sayı değil; işletmelerin geleceğini şekillendiren bir pusuladır."

5.1 Dezavantajlar

Data Privacy

🔒 Veri Güvenliği ve Gizlilik

Kişisel verilerin ihlali (KVKK/GDPR) büyük cezalar ve itibar kaybı doğurur. Veri büyüdükçe korumak zorlaşır.

📉 Veri Kalitesi (Kirli Veri)

Hatalı, eksik veya tekrarlayan veriler yanlış analizlere yol açar. Temizleme süreci maliyetlidir.

🧩 Karmaşıklık ve Uzmanlık

Büyük veri teknolojileri (Hadoop, Spark vs.) karmaşıktır ve bu alanda yetişmiş uzman (Veri Bilimci) bulmak zordur.

6.1 Ürün Geliştirme

Müşteri talebini tahmin etmek için geçmiş veriler kullanılır ve başarılı özellikler modellenerek yeni ürünler tasarlanır.

  • Netflix: İzleme alışkanlıklarına göre 'House of Cards' gibi dizilerin başarısını önceden öngördü.
  • P&G: Sosyal medya ve satış verileriyle yeni ürün lansmanlarını optimize eder.
Product Development

6.2 Tahmine Dayalı Bakım

Predictive Maintenance

Mekanik arızaları oluşmadan tahmin etmek için sensör verileri, motor sıcaklığı ve loglar analiz edilir.

  • Yöntem: Titreşim ve ısı sensörlerinden gelen anlık veri akışı.
  • Sonuç: Bakım maliyetlerinde %30'a varan düşüş ve plansız duruşların önlenmesi.

6.3 Müşteri Deneyimi

Sosyal medya, web ziyaretleri ve çağrı kayıtları birleştirilerek 360 derece müşteri profili oluşturulur.

  • Kişiselleştirme: Her müşteriye özel teklif sunarak sadakati artırma.
  • Churn Analizi: Müşterinin ayrılma ihtimalini önceden tespit edip önlem alma.
Customer Experience

6.4 Dolandırıcılık Tespiti

Fraud Detection

Güvenlik sürekli değişen bir ortamdır. Büyük veri, sahteciliği işaret eden örüntüleri (pattern) anında tespit eder.

  • Hız: Saniyeler içinde milyonlarca işlem taranır.
  • Örnek: Kredi kartı hırsızlığı veya sigorta yolsuzluklarının anlık yakalanması.

6.5 Makine Öğrenimi

Makineleri programlamak yerine eğitiyoruz. Büyük veri, bu modelleri eğitmek için gereken "yakıtı" sağlar.

  • Veri Kümesi: Daha fazla veri, daha "akıllı" yapay zeka demektir.
  • Uygulama: Chatbotlar, görüntü işleme ve otonom araçlar (Tesla).
Machine Learning

6.6 Operasyonel Verimlilik

Operational Efficiency

Üretim verileri ve geri bildirimler analiz edilerek kesintiler azaltılır ve süreçler hızlanır.

  • Stok Optimizasyonu: "Tam Zamanında" (JIT) üretim için talep tahmini.
  • Darboğaz Analizi: Üretim bandındaki yavaşlamaların tespiti.

6.7 Akıllı Şehirler

Şehir yaşamını iyileştirmek için IoT sensörlerinden gelen veriler kullanılır.

  • Trafik: Sinyalizasyonun yoğunluğa göre otomatik ayarlanması.
  • Enerji: Akıllı şebekelerle elektrik dağıtımının optimize edilmesi.
Smart Cities

6.8 Akıllı Tarım

Smart Agriculture

Tarım arazilerinden toplanan verilerle verimlilik maksimize edilir.

  • Hassas Tarım: Toprak nemi ve uydu görüntülerine göre sadece gereken yere sulama/gübreleme.
  • Hasat Tahmini: Hava durumu verileriyle rekolte tahmini.

6.9 Telekomünikasyon

Milyonlarca abonenin sinyal kalitesi ve kullanım alışkanlıkları analiz edilir.

  • Şebeke Planlama: Yoğunluğun arttığı bölgelere otomatik kapasite artırımı.
  • Müşteri Kaybı (Churn): Rakip operatöre geçme riski taşıyan müşteriye özel kampanya sunma.
Telecommunications

6.10 Lojistik

Logistics

Ürünlerin doğru zamanda doğru yerde olması için veriden güç alınır.

  • Rota Optimizasyonu: Trafik ve hava durumuna göre en hızlı/ucuz rotanın belirlenmesi.
  • Amazon & Getir: Sipariş gelmeden ürünün en yakın depoya sevk edilmesi (Predictive Shipping).

6.11 Savunma Sanayii

Saha verilerinin anlık analizi ile karar destek mekanizmaları güçlenir.

  • İHA/SİHA: Görüntü işleme ile hedef tespiti ve otonom uçuş.
  • Simülasyon: Sanal ortamda büyük veri ile savaş senaryolarının test edilmesi.
Defense Industry

6.12 Spor Analitiği

Sports Analytics

Sporda şans faktörü azalıyor, veri odaklı strateji kazanıyor.

  • Oyuncu İzleme: Koşu mesafesi, kalp atış hızı ve pas isabet oranları.
  • Transfer: Pahalı yıldızlar yerine, verileri potansiyel vadeden oyuncuların keşfi (Moneyball).

7. İnovasyon ve Zorluklar

🚀 İnovasyona Yön Vermek

Kurumlar ve süreçler arasındaki bağımlılıkları öğrenerek yeni yollar keşfedin.

  • Dinamik fiyatlandırma.
  • Yeni trendleri önceden görüp ürün geliştirme.
  • Finansal planlamayı optimize etme.

⚠️ Büyük Veri Zorlukları

  • Veri Hacmi: Her iki yılda bir ikiye katlanıyor, depolamak zorlaşıyor.
  • Veri Temizliği: Veri bilimciler zamanlarının %50-80'ini veriyi düzenlemekle (temizlemekle) harcıyor.
  • Hızlı Teknoloji: Teknoloji çok hızlı değişiyor (Hadoop -> Spark vb.), ayak uydurmak zor.

8. Büyük Veri Nasıl Çalışır?

How it works
  • 1. Entegre Etme: Farklı kaynaklardan (uygulamalar, sensörler) gelen verileri bir araya getirme. ETL süreçleri.
  • 2. Yönetme: Veriyi depolama (Bulut veya On-Premise). İhtiyaca göre ölçeklenebilirlik.
  • 3. Analiz Etme: Yatırımın karşılığını aldığınız yer. Görsel analizler, keşifler ve makine öğrenimi modelleri oluşturma.

9.1 İş Hedefleriyle Uyum

Büyük veri projeleri, sadece "teknoloji" değil, "iş" projesidir. Somut hedeflerle başlamak başarıyı garantiler.

  • Odaklanma: "Hangi veriyi toplayalım?" yerine "Hangi sorunu çözelim?" diye sorun.
  • KPI: Başarı kriterlerinizi (örn. %10 müşteri artışı) önceden belirleyin.
Business Goals

9.2 Beceri Eksikliğini Giderme

Skills Gap

En iyi araçlara sahip olsanız bile, onları kullanacak yetkin ekip olmadan ilerleyemezsiniz.

  • Eğitim: Mevcut çalışanlara Veri Bilimi ve Analitik eğitimi verin.
  • Kültür: Kurum içinde "Veri Odaklı Karar Alma" kültürünü yaygınlaştırın.

9.3 Mükemmellik Merkezi (CoE)

Bilgi paylaşımını optimize etmek, standartları belirlemek ve projeleri yönetmek için merkezi bir yapı kurun.

  • Standartlaşma: Her departman kendi doğrusunu değil, kurumun ortak veri dilini konuşsun.
  • Denetim: Veri kalitesini ve güvenliğini sürekli izleyen bir ekip oluşturun.
Center of Excellence

9.4 Bulut İşletim Modeli

Cloud Computing

Büyük veri projeleri esneklik ister. Bulut (Cloud), ihtiyaç duyduğunuz gücü anında sağlar.

  • Hız: Sunucu satın almakla uğraşmadan dakikalar içinde analiz ortamı kurun.
  • Maliyet: Sadece kullandığınız kadar ödeyin, yatırım maliyetini düşürün.

10.1 Sağlıkta Veri Madenciliği

Türkiye'nin ulusal sağlık verileri, hastalık takibi ve teşhis süreçlerinde aktif olarak işlenmektedir.

  • e-Nabız: Milyonlarca vatandaşın tahlil, görüntüleme ve ilaç verilerini işleyerek kişisel sağlık profili oluşturur.
  • Salgın Yönetimi: HES (Hayat Eve Sığar) ile lokasyon bazlı risk haritaları oluşturulmuş ve yayılım tahmin edilmiştir.
Health Data

10.2 Finans ve Bankacılık

Finance Data

Bankalararası Kart Merkezi (BKM) ve bankalar, anlık dolandırıcılık tespiti için büyük veriyi kullanır.

  • Risk Skorlama (KKB): Kredi notu hesaplanırken milyonlarca finansal geçmiş verisi analiz edilir.
  • Harcama Analizi: Kredi kartı harcamalarından müşteri yaşam tarzı modellenir ve kampanya önerilir.

10.3 Savunma Sanayii

ASELSAN ve HAVELSAN, karar destek sistemlerinde yapay zeka ve büyük veri analitiğini entegre etmiştir.

  • İstihbarat Analizi: Sahadan gelen karmaşık veriler (görüntü, sinyal) anlamlandırılarak tehditler belirlenir.
  • Simülasyon: Sanal harp ortamlarında senaryolar veriyle test edilir.
Defense Data

10.4 E-Ticaret Analitiği

E-Commerce Data

Önde gelen e-ticaret platformlarımız, kullanıcı davranışlarını anlık izleyerek satışa dönüştürür.

  • Öneri Sistemleri: "Bunu alan şunu da aldı" algoritmasıyla sepet tutarı artırılır.
  • Dinamik Fiyatlama: Rakip fiyatları ve talep yoğunluğuna göre ürün fiyatı anlık değişebilir.

10.5 Akıllı Ulaşım

Yerli otomobil ve akıllı belediyecilik, ulaşım verilerini işleyerek mobiliteyi optimize eder.

  • Trafik Tahmini: İstanbul'da sensör verileriyle yoğunluk haritası ve süre tahmini yapılır.
  • Bağlantılı Araçlar: Araçlar merkezle haberleşerek proaktif bakım ve kaza uyarısı alır.
Smart Transport

11.1 Veri ile Erken Teşhis

Hastalıkların belirti göstermeden yakalanması, veri madenciliğinin futüristik değil, bugünkü gücüdür.

  • Bütüncül Analiz: Tahlil sonuçları, genetik geçmiş ve çevresel faktörler birleştirilerek risk analizi yapılır.
  • Hayat Kurtarır: Erken teşhis, tedavi şansını %90 oranında artırabilir.
Early Diagnosis

11.2 Kanser Tanısında Yapay Zeka

Cancer Detection

Yapay zeka modelleri, patoloji ve radyoloji görüntülerinde insan gözünün kaçırabileceği mikroskobik detayları yakalar.

  • Derin Öğrenme: Binlerce vakadan öğrenen algoritmalar, kanserli hücreleri %99 doğrulukla işaretleyebilir.
  • Hız: Teşhis süresini haftalardan dakikalara indirerek tedaviye anında başlanmasını sağlar.

11.3 Önleyici Tıp ve Genetik

Tedavi etmekten öte, hastalığın oluşmasını engellemek hedefleniyor.

  • Genetik Kod Çözme: DNA verileri analiz edilerek, kişinin ileride yakalanabileceği hastalıklar öngörülür.
  • Kişiselleştirilmiş İlaç: "Herkese aynı ilaç" yerine kişinin genetiğine uygun, yan etkisiz tedavi planı oluşturulur.
Predictive Medicine

12. Uygulama: Veri Madenciliği

🔍 Metin İçinde Veri Arama

Büyük verinin önemli bir kısmı yapılandırılmamış metinlerdir. Aşağıdaki metin içinde geçen en popüler anahtar kelimeleri analiz edelim.

13. Uygulama: Akıllı Teşhis Asistanı

🩺 Belirtileri Analiz Et

Yapay zeka, yazdığınız belirtileri analiz eder ve olası durumu tahmin eder. (Basit Simülasyon)

📝 Nasıl Çalışır? (Örnekler)

Sistemin algıladığı anahtar kelimeler ve sonuçları:

Senaryo Anahtar Kelimeler Sonuç
Grip ateş, öksürük, halsizlik İstirahat & Vitamin
Astım nefes darlığı, hırıltı İnhaler Tedavisi
Riskli kitle, yumru, kilo kaybı Uzmana Sevk (Acil)

TEŞEKKÜRLER

"Geleceği tahmin etmenin en iyi yolu, veriyi doğru okumaktır."

Zonguldak Bülent Ecevit Üniversitesi Logo

Öğretim Görevlisi Tahsin ÇİLOĞLU

Zonguldak Bülent Ecevit Üniversitesi

1 / 14