R ile Metin Madenciliği

Genel Bilgi

Metin madenciliğinin temellerinden başlayan bu programda, önce kullanılacak olan araçlar ve yöntemler anlatılır. Arkasından internetten metin verisi elde etmek için kullanılan sosyal medya API kullanımı ve veri kazıma (web-scrapping) dair yöntemler gösterilir. Elde edilen verilerle önce duygu analizi sonra da konu modelleme teknikleri öğretilir. Son olarak büyük dil modellerinin nasıl çalıştığı ve onları nasıl kullanılacağına dair projeler yapılır. Bu programın sonunda öğrenciler metin madenciliği ve büyük dil modelleri hakkında genel bilgiye sahip, metin madenciliği sürecinde kullanılan araçlara hakim ve kazandığı anahtar becerileri gerçek durumlara uygulayabilecek olarak mezun olur.

Toplam Eğitim Süresi: 54 saat

Toplam Uygulamalı Eğitim Senaryo Süresi: 9 saat

Toplam Uygulamalı Eğitim Senaryo Sayısı: 3

Toplam Bireysel Proje Sayısı: 3

Uygulamalı Eğitim Senaryo Örnekleri:
  • Sosyal medyada paylaşılan içerikleri inceleyip, “Anne sütü” ve “formül süt” anahtar kelimelerini içeren metinlerin analizinin yapılması ve insanların bu iki durum hakkındaki görüşlerinin analiz edilmesi.
  • FiQA ve Financial PhraseBank verilerini kullanarak ekonomi ile ilgili metinlerindeki anlamsal yönelimlerin tespit edilmesi.
  • GPT-4 kullanılarak, kullanıcının yazım tarzına uygun ve bağlamına uygun metin önerileri üretebilen bir metin tamamlama aracı geliştirilmesi.
Bireysel Proje Örnekleri:
  • LinkedIn üzerinde “Veri Analisti” iş ilanlarının iş tanımlarının analiz edilip bir veri analistinden beklenen işlerin ve yeteneklerin değerlendirilmesi.
  • Amazon ürünlerine yapılan yorumların daha kolay bir şekilde aranabilmesi için konu modellemesinin yapılması
  • Belirli bir konu veya endüstriye özgü soruları yanıtlayabilen bir bot geliştirilmesi.
Anahtar Beceriler
  • Metin Verisi Ön İşleme
  • Duygu Analizi
  • Konu Modelleme
  • Büyük Dil Modelleri
Platformlar
  • R
  • RStudio (posit)
  • Bash
  • Git
  • ChatGPT
Paketler
  • tidytext
  • stringr
  • quanteda
  • tm
  • text2vec
  • lda
  • SentimentAnalysis