Veri Madenciliği Algoritmaları
NAİM UYGUN – Çok büyük veri miktarlarını analiz etmek için ihtiyaç duyulan kurumsal piyasa analizi ve bilimsel araştırma projelerine gelindiği zaman, veri madenciliği algoritmaları, yeni moda sözcüklerdir.
Bu makale, hangi veri madenciliği algoritmalarının ve onların iş yerlerine ve araştırma projelerine nasıl yardım edebilir olduğunu açığa kavuşturur.
Veri madenciliği algoritmaları, verinin herhangi çok büyük miktarından faydalı ilişkileri ve kalıpları gün ışığına çıkarmada yardım eden araçlardır.
Bu makalede, veri madenciliğinin ne olduğunun temel bir bakış açısı ve veriyi analiz etmede ve ondan bilgiyi çıkarmada onun nasıl yardım edeceği ile sizi donatmayı planlarım.
Veri Madenciliği Nedir?
Veri madenciliği terimi, çok akıllı bir şekilde uyduruldu ve ismin kendisi, maden analojisi içine daha derin bakarsanız, kavram kendisini açıklar.
Gerçek dünya madenciliği, zeminden faydalı mineralleri bulmak için, bir uçtan bir uca, maden içeren tonlarca toprak ve molozu kazmaktır.
Benzer şekilde, veri madenciliği, verinin bir selinden faydalı bilgi ve kestirimci kalıpları kazma veya çıkarmadır.
Bir kazanma stratejisini planlamak için, onun herhangi bir işyeri veya insan faaliyeti olduğunda, biri elde edilebilir ham veriyi analiz etmeye ihtiyaç duyar.
Çoğu şirketler, şirketin performansı ile ilgili veri veya müşteri anket verisinin çok büyük miktarları ile ilgilenir.
Bugünün rekabetçi iş dünyasında hayatta kalmak için, biri, müşterinin ihtiyaçlarına uyarlanmış doğru işyeri stratejileri ile yaklaşmanızda size yardım edebilen, uzmanlaşmış bilgiye ihtiyaç duyar.
Veri madenciliği algoritmalarına dayanan yazılımlar, çok büyük veri kümeleri içinde kalıpları belirleyebilir ve verinin farklı kategorileri arasındaki karşılıklı ilişkileri çıkartabilir.
Bu, piyasa trendlerinin gelecekteki yapılarını önceden haber vermede yardım edebilir ve rakipler üzerinde üstünlük sağlayabilir.
Stok piyasa verisi, gelecekteki kestirimlerde yardım edebilen kalıpları öngörme için kazıp çıkarılır.
Google arama motoru, İnternet üzerinde elde edilebilir milyonlarcasından en ilgili web sayfalarını seçmek için en akıllı veri madenciliği algoritmalarınının bir çeşidini kullanır.
Bilimsel araştırma projelerine gelindiğinde, deneysel veriyi analiz etme, tasarlanılan deneyler için, bilimsel hipotezleri doğrulamak önemlidir.
Geniş ölçüde veri madenciliği algoritmalarını halihazırda kullanan bilimsel bir uğraşın bir örneği, hergün verinin gigabaytlarını üreten CERN’in ‘Large Hadron Collider’ makinasıdır.
O veriyi analiz etme, ustalıkla tasarlanmış veri madenciliği algoritmaları aracılığıyla otomatik yapılır.
Veri madenciliği algoritmalarının uygulamaları, her yerin veri ile dolu olmasından dolayı evrenseldir.
Veri Madenciliğinde Algoritmaların Tipleri
Tamamen minerallerin madeni gibi, biri, zeminin içine işleyebilen ve minerallere erişebilen doğru araçları kullanmaya ihtiyaç duyar, biri, ilgilenilen verinin türüne uygun olan akıllıca tasarlanmış veri madenciliği algoritmasına ihtiyaç duyar.
Veri, sayısal, alfabetik, gerçek duruma dayalı ve tüm bunların karmaşık bir alaşımı gibi değişik tiplerden olabilir.
Onlardan birinin seçilebilir olduğu, değişik veri madenciliğine dayanan çeşitli yazılım programları vardır.
Karşılıklı ilişkileri çıkarmak için veriyi sıralayan ve madenciliğini yapan değişik yaklaşımlar vardır.
İşte, veri madenciliği algoritmalarının iki ana tipi :
Klasik Veri Madenciliği Algoritmaları
Veri madenciliği algoritmalarının birinci sınıfı, veri analizi için, istatistik teknikler ve geleneksel anlayış kullananlardır.
Temel yöntemlerden biri regresyondur.
Bu yöntemde, verinin bulunmasına uyan, verilen verinin grafiği ve matematiksel eğrisi çizilir.
Sonuç olarak, eğrinin denklemi, veri akışının gelecekte izleyeceyi yolu tahmin etmek için kullanılır.
Regresyon, bir matematiksel denklemin kullanımı yoluyla veri modellenir ve veri madenciliğinde kullanılan regresyonun değişik tipleri vardır.
Regresyondan başka, en eski klasik veri madenciliğinin ikisi, “Kümeleme” ve “En yakın Komşu” ‘dur.
Onlar, ilke olarak tamamen benzerdir.
Kümelemeye dayanan veri madenciliği algoritmaları, düzgün verinin kümeleri içine şeyler birlikte gibi demet yapma ilkesini kullanır.
O, ilke olarak bir taksonomi (sınıflandırma) şeması gibidir.
“En yakın Komşu” algoritması, ona en çok benzeyen daha eski veri ile onu karşılaştırarak, gelecekteki veri akışını tahmin edebilir.
Tahmin, bir veri akımının en yakın komşusu ile ne olduğu düşüncesi yeni veri akımı ile tekrar olabilir temeli üzerine yapılır.
Modern Veri Madenciliği Algoritmaları
Modern veri madenciliği algoritmaları, çoğunlukla karar ağaçları kavramına dayandırılır.
Yani, veri, bir mantıksal çerçeve içine onu elekten geçiren soruların temeli üzerine sıralanır.
Algoritmalar, karmaşık bir karar ağacı çerçevesi kullanarak verinin çoğu tiplerini yakalama düşüncesi üzerine dayandırılır.
O, verinin her küçük parçasını yakalayan mantığın bir ağıdır.
O, birinin, verilen çerçeveden veri akışını tahmin etmesini mümkün kılar.
Bu merkezi düşüncenin bir modifikasyonu olan veri madenciliği algoritmalarının birçok tipi vardır.
*İngilizce Öğretmeni ve Bilgisayar Programcısı Y.Müh. Naim Uygun tarafından İngilizce’den çevrilmiştir.