Veri ve Metin Madenciliği
Zehra Taşkın
BBY 363, 30 Kasım 2016
Veri Madenciliği
• Bir kutu toplu iğne
• İçine 3 boncuk düşürdünüz
• Nasıl alacağız?
• Fikirler?
BBY 363, 30 Kasım 2016
Veri Madenciliği
• Data – Information – Knowledge
• Veri madenciliği;• Büyük yoğunluklu veri/metinler içinden önemli/ilginç örüntüler
keşfetme görevleri
• Toplu iğne örneği
BBY 363, 30 Kasım 2016
Veri Madenciliği
• İlişkili olduğu alanlar;• Bilgibilim
• Makine öğrenme, bilgisayar bilimleri
• Veri tabanı teknolojileri
• Görselleştirme
• İstatistik
• …
BBY 363, 30 Kasım 2016
Neden Veri Madenciliği
BBY 363, 30 Kasım 2016
• İhtiyacım olan veriyi bulamıyorum!
• İhtiyacım olan veriyi buluyorum ama elde edemiyorum!
• Bulduğum veriyi anlamıyorum!
• Anladığım veriyi kullanamıyorum!
• …
Veri Madenciliği Süreçleri
BBY 363, 30 Kasım 2016
BBY 363, 30 Kasım 2016
Veri Madenciliği Araçları
BBY 363, 30 Kasım 2016
• Nooj
• Weka
• KNIME
• Angoss Knowledge Studio
• Matlab
• …
Veri Madenciliği Uygulamaları
BBY 363, 30 Kasım 2016
• Bilgi erişim (information retrieval)
• Bilgi çıkarımı (information extraction)
• Makine çevirisi (machine translation)
• Özetleme (summarization)
• Metin kategorizasyonu (text categorization)
Bilgi Erişim
BBY 363, 30 Kasım 2016
• İnsanların herhangi bir paragrafın, kitabın ya da büyük yoğunluklu metnin içinden ihtiyaç duydukları herhangi bir kısma erişimlerinin sağlanabilmesi
• Nasıl yapılabilir?
Bilgi Çıkarımı
BBY 363, 30 Kasım 2016
• Büyük yoğunluklu bir metnin içinden temel anahtar unsurların (kişiler, kurumlar, konumlar, ülkeler gibi) tanımlanması, etiketlenmesi ve çıkarımı
• Bilgi çıkarımı yapılınca işlem biter mi?
• Nooj programında bir veri çıkarımı uygulaması• Elde edilen verileri anlamlandırmak için ne yapılabilir?
Makine Çevirisi
BBY 363, 30 Kasım 2016
• Bir dilden diğer dile otomatik çeviri
• Algoritmalar nasıl yapılandırılabilir?
Otomatik Özetleme
BBY 363, 30 Kasım 2016
• Büyük yoğunluklu metinlerde yer alan cümle ya da paragraflar içinden,
• Dilsel veya istatistiksel bazı yöntemleri kullanarak,
• En önemli sözcükleri ya da cümleleri seçmeye,
• Metni temsil eden anlamlı bir özet çıkarmaya dayanır
Metin Kategorizasyonu
BBY 363, 30 Kasım 2016
• Tahminleyici bir metot
• Neleri tahmin edebiliriz?• Hava nasıl olacak?
• Patron kim olacak?
• Eurovision’u kim kazanacak?
• Golü kim atacak?
• 2 soru• Nasıl tahmin edecek?
• Nasıl başarıya ulaşacak?
Gözetimli vs. GözetimsizMetin Kategorizasyonu
BBY 363, 30 Kasım 2016
GözetimliUzman gözetiminde
GözetimsizTamamen bilgisayar yardımı ile
Her ikisinin de avantaj ve dezavantajları neler olabilir?
Metin Kategorizasyonunda Kullanılan Teknik ve Algoritmalar
BBY 363, 30 Kasım 2016
• Karar ağaçları
• İstatistiğe dayalı algoritmalar
• Mesafeye dayalı algoritmalar
• Yapay sinir ağları
Karar Ağaçları
BBY 363, 30 Kasım 2016
Karar Ağaçları
BBY 363, 30 Kasım 2016
• Sınıflandırma için bir ağaç oluşturulur (kök)
• Daha sonra her bir kayıt bu ağaca uygulanır (yaprak/düğüm)
• Çıkan sonuca göre kayıtlar sınıflandırılır
• Çeşitli algoritmaları var• ID3, C4.5, CART
İstatistiğe Dayalı Algoritmalar
BBY 363, 30 Kasım 2016
• Verilerin önceden sınıflara ayrılması
• Gelecekte elde edilen sonuçların tahmini
• Yani sınıfların tahmini
Mesela;Öğrenci mezun olduysa Araştırma Yöntemleri dersinden geçmiştir.
Yüksek notla geçtiyse istatistiğe dayalı algoritmaları daha kolay anlar.
Mesafeye Dayalı Algoritmalar
BBY 363, 30 Kasım 2016
• Eldeki verilerin birbirlerine olan uzaklığı veya benzerliği kullanılarak sınıflandırma yapılır
Yapay Sinir Ağları
BBY 363, 30 Kasım 2016
• Biyolojik sinir ağlarından esinlenerek geliştirilmiştir
• Yapay sinir hücrelerinin birbirleriyle çeşitli şekilde bağlanmasından oluşur
• Genel olarak katmanlar şeklinde düzenlenir
• 3 temel katman vardır (girdi, gizli ve çıktı)
Performans Değerlendirme
BBY 363, 30 Kasım 2016
• Metodolojik değerlendirme• Test ve eğitim seti
• Çapraz doğrulama
• Sayısal Değerlendirme• Başarımın sayısal ölçümü
• Anma?
• Duyarlık?
• f değeri?
• ROC eğrisi
Performans Değerlendirme
BBY 363, 30 Kasım 2016
Gerçek kategori
Kategori 1 Kategori 2
Tahmin edilen kategoriKategori 1 Doğru pozitif (TP) Yanlış pozitif (FP)
Kategori 2 Yanlış negatif (FN) Doğru negatif (TN)
Anma= TP / TP+FN
Duyarlılık: TP / TP+FP
f= 2*anma*duyarlılık
(anma + duyarlılık)
ROC Eğrisi
BBY 363, 30 Kasım 2016
BBY 363, 30 Kasım 2016
BBY 363, 30 Kasım 2016
BBY 363, 30 Kasım 2016
BBY 363, 30 Kasım 2016
Bilgi Danışmanlığı ve Veri Madenciliği
BBY 363, 30 Kasım 2016
• "Talep o kadar çok ki firmalar arasında paslaşmak zorunda kalıyoruz"
• Talepler ne olabilir
• Bilgi danışmanı neyi nasıl sunar? Sunmalı?
• Sosyal medya ve büyük veri: https://www.youtube.com/watch?v=z1RXxeZpBM8
Veri ve Metin Madenciliği
Zehra Taşkın
BBY 363, 30 Kasım 2016
Top Related