Veri analistlerinin ilk projesi genellikle temiz, önceden işlenmiş veri setleriyle başlar - bir defada bir beceri öğretmek için tasarlanmış izole egzersizler. Ancak gerçek dünya analizi nadiren bu senaryoyu takip eder. Bunun yerine, meraklılık, uyum yeteneği ve çoklu teknikleri birleştirerek kapsamlı bir soruşturma yapma yeteneği talep eder. İşte bu uçtan uca rehber tam da bunu sağlar.
Bir ham veri setiyle başlıyoruz, anlamlı bir soru soruyoruz ve temizleme, keşfetme ve görselleştirme yoluyla gerçek içgörüler ortaya çıkarmak için karmaşık ve yinelemeli bir süreci yönetiyoruz. Kısayollar yok. Destek yok. Sadece bir veri profesyonelinin veri setinden keşfe yolculuğu.
Veri Setini Tanıyın: Netflix'in Küresel İçerik Kütüphanesi
Bu analiz, Kaggle'dan Netflix Filmleri ve TV Şovları veri setini kullanır, bu 8.807 başlıktan oluşan kamu tarafından erişilebilen bir koleksiyondur. Yayın yılı, köken ülkesi, tür, süre ve içeriğin platforma eklendiği tarih gibi önemli alanları içerir.
Bu analizi dosya indirmeden yeniden oluşturmak istiyorsanız, bu kodu kullanarak basitleştirilmiş bir sürüm oluşturabilirsiniz:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from collections import Counter
import warnings
warnings.filterwarnings("ignore")
sns.set_theme(style="darkgrid", palette="husl")
np.random.seed(42)Veri seti en iyi anlamıyla ham - filtresiz, cilasız ve gerçek analiz için hazır. Bu, eksik değerler, tutarlı olmayan formatlar ve örtüşen kategorileri içerir, tüm bunlar günlük olarak analistlerle karşılaşılan zorlukları yansıtır.
Temel Soruyu Tanımlama: Veriden İçgörüye
Tek bir kod satırını yazmadan önce, tüm keşfi yönlendirecek bir soru oluşturmak önemlidir. İyi bir keşifsel veri analizi (EDA) sorusu, odaklanmak için yeterli özgüllüğe sahip olmalı, ancak beklenmedik keşiflere izin vermek için đủ geniş olmalıdır.
Buradaki merkezi soru:
*Netflix'in içerik stratejisi zaman içinde nasıl değişti? Özellikle orijinal filmler mi yoksa TV şovları mı üretiyorlar? Hangi ülkeler en çok içerik katkısında bulunuyor ve hangi türler platformu domine ediyor?"
Bu soru sadece trendleri sormaz - nedenlerini araştırmaya davet eder. Odaklanma ve açıklık arasındaki bu denge, teknik bir egzersizi gerçek bir analitik zorluğa dönüştürür.
Adım 1: Veri Yükleme ve İlk Keşif
İlk adım her zaman aynıdır: veriyi yükleyin ve hızlı bir bakış atın.
df = pd.read_csv("netflix_titles.csv")
print(f"Şekil: {df.shape}")
print(f"Sütunlar: {df.columns.tolist()}")
print(f"\nEksik değerler:\n{df.isnull().sum().sort_values(ascending=False)}")Çıktı, 8.807 satır ve 12 sütun içeren bir veri setini ortaya koyar, yönetmen (2.634 eksik girdi) ve oyuncular (825 eksik) gibi alanlarda önemli boşluklar vardır. ülke alanı, örneğin, virgülle ayrılmış değerler içerir - ortak üretimleri gösterirken, listed_in tek bir dizede birden fazla tür listeler.
Bu yapı, gerçek verilerin karmaşık olduğunu vurgular. Eksik değerler, görmezden gelinmesi gereken hatalar değil, yorumlanması gereken sinyallerdir. Eksik yönetmenlerle satırları silmek, verilerin %30'unu silmekle eşdeğer olacaktır - anlamlı analiz için çok pahalı. Bunun yerine, bu boşlukları stratejik olarak ele alacağız.
Adım 2: Veri Temizleme ve Dönüştürme
Temizleme, sadece hataları düzeltmekle ilgili değil, veriyi bozmadan kullanılabilir hale getirmekle ilgilidir. İşte ham veriyi yapılandırılmış bir formata dönüştürme şeklimiz.
İlk olarak, date_added sütununu düzelttik, boşlukları temizledik ve datetime olarak parçaladık:
df["date_added"] = pd.to_datetime(df["date_added"].str.strip(), errors="coerce")
df["year_added"] = df["date_added"].dt.year
df["month_added"] = df["date_added"].dt.monthSonraki adımda, kategorik alanlardaki eksik değerleri yer tutucularla değiştirdik:
yönetmen,oyuncularveülke→ "Bilinmeyen" ile doldurulduülkeiçin, dizeyi böldük ve ilk
[metin devam ediyor...]
Yapay zeka özeti
Explore how Netflix’s content strategy evolved from 2010 to 2021 using real data. Learn end-to-end analysis techniques and uncover key trends in movies vs TV shows, top countries, and genre dominance.