CrawlForge, yapay zeka projeleri için yerel kazıma deneyimini kökten değiştiren v4.2.2 sürümünü duyurdu. Bu güncellemeyle birlikte, kullanıcıların API anahtarlarına ihtiyaç duymadan kendi makinelerinde çalıştırabilecekleri üç yeni araç ve bağımsız bir komut satırı arayüzü (CLI) eklendi.
Yeni sürümün odak noktası, web kazımanın geleneksel olarak bağımlı olduğu bulut tabanlı API'lerden uzaklaşarak, verilerin yerelde işlenmesini sağlamak. Bu yaklaşım, hem gizlilik hem de maliyet açısından önemli avantajlar sunuyor.
Yeni Sürümde Neler Var?
v4.2.2 ile birlikte toplam araç sayısı 20'den 23'e yükseldi. En önemli yenilikler arasında:
- Bağımsız CLI aracı (`@crawlforge/cli`): MCP istemcisi gerektirmeyen, kullanıcıların terminal üzerinden doğrudan CrawlForge araçlarına erişmesini sağlayan komut satırı arabirimi.
- Yerel LLM çıkarma (`extract_with_llm`): OpenAI ya da Anthropic API'lerine ihtiyaç duymadan, yerel Ollama modelleriyle yapılandırılmış veri çıkarma özelliği.
- Önceden tanımlanmış kazıma şablonları (`scrape_template`): Amazon, LinkedIn, GitHub, YouTube gibi popüler 10 platform için hazır kazıma şablonları.
- Ollama modellerini listeleme (`list_ollama_models`): Kullanıcıların yerel Ollama kurulumlarında bulunan modelleri sorgulamasına olanak tanıyan keşif aracı.
Ücretsiz kullanım planı hâlâ 1.000 kredi içerirken, yeni araçların tümü mevcut API anahtarıyla kullanılabiliyor. Kurulum için basit bir npm komutu yeterli:
npm install -g @crawlforge/cliCLI: Terminalden Kazıma Verilerine Doğrudan Erişim
Yeni crawlforge/cli, kullanıcıların terminalden doğrudan kazıma işlemleri gerçekleştirmesini sağlıyor. MCP (Model Context Protocol) istemcisi gerektirmeyen bu araç, özellikle otomatikleştirilmiş görevler için ideal.
Örneğin, bir URL'den veri çekmek için basit bir komut yeterli:
crawlforge scrape CLI'nin en büyük avantajı, kullanıcıların komut satırından doğrudan JSON çıktısı alabilmesi ve bu çıktıları jq gibi araçlarla işleyebilmesi. Bu özellik, cron görevleri, CI/CD işlemleri ve tek seferlik kazıma işleri için mükemmel bir çözüm sunuyor.
CLI'nin MCP'ye göre farkı, dinamik araç seçiminden ziyade, kullanıcı dostu komutlar ve JSON tabanlı çıktı odaklı olmasıdır. Hem CLI hem de MCP, aynı arka uca bağlı kalarak kredi sistemini ve API anahtarını paylaşıyor.
Yerel LLM ile Veri Çıkarma: API Ücretlerinden Kurtulun
extract_with_llm, yapılandırılmış verileri çıkarmak için kullanılan bir araçtır. Yeni özellik ise varsayılan olarak bulut tabanlı API'ler yerine yerel Ollama modellerini kullanmasıdır. Bu sayede:
- Üçüncü taraf API maliyetlerinden kurtulun.
- Veriler yerel makinenizde kalır ve gizlilik korunur.
- Yeni bir API anahtarı yönetmeye gerek kalmaz.
Örnek bir kullanımda, Hacker News'taki bir gönderinin başlığını, puanını ve yorum sayısını çıkarmak için şu komut kullanılabilir:
{
"url": "
"schema": {
"type": "object",
"properties": {
"title": { "type": "string" },
"points": { "type": "number" },
"comments": { "type": "number" }
}
},
"provider": "ollama",
"model": "llama3.1:8b"
}Ancak, uzun metinlerin özetlenmesi veya nüanslı duygu analizi gibi karmaşık görevler için hâlâ OpenAI ya da Anthropic gibi ileri modeller tercih edilmelidir. Bu durumlarda, sağlayıcıya ait token maliyetleri artı 3 CrawlForge kredisi ödenir.
Hazır Şablonlar: Popüler Platformlardan Veri Çekmek Hiç Bu Kadar Kolay Olmamıştı
scrape_template, kullanıcıların popüler platformlardan veri çekmek için CSS seçicileri yazmak zorunda kalmamasını sağlayan hazır şablonlar sunar. Örneğin, Amazon ürün verilerini çekmek için:
crawlforge template amazon --url "On farklı platform için hazırlanan şablonlar ve karşılık gelen kredi maliyetleri şu şekilde:
- Amazon: Ürün başlığı, fiyat, derecelendirme, incelemeler, resimler (1 kredi)
- LinkedIn: Profil adı, başlık, deneyim, beceriler (1 kredi)
- GitHub: Depo meta verileri, yıldız sayısı, diller, README (1 kredi)
- YouTube: Video başlığı, görüntülenme sayısı, kanal, metin (1 kredi)
- Reddit: Gönderi başlığı, puan, yorumlar, en iyi yanıtlar (1 kredi)
- Hacker News: Hikaye başlığı, puanlar, URL, yorumlar (1 kredi)
- Stack Overflow: Soru, yanıtlar, kabul edilen yanıt, oylar (1 kredi)
- npm: Paket meta verileri, haftalık indirme sayıları, versiyonlar (1 kredi)
- Product Hunt: Ürün adı, slogan, oy sayısı, yapımcıları (1 kredi)
- Twitter/X: Tweet metni, yazar, etkileşim, yanıtlar (1 kredi)
Bu şablonlar, kullanıcıların karmaşık yapılandırmalara ihtiyaç duymadan hızlıca veri toplamasına olanak tanır.
Gelecekte Neler Bekleniyor?
CrawlForge ekibi, yerel kazıma ekosistemini sürekli olarak geliştirmeyi planlıyor. Gelecek güncellemelerde, daha fazla platform için şablonlar eklenmesi ve yerel LLM entegrasyonunun derinleştirilmesi bekleniyor. Ayrıca, kullanıcıların yerel modellerle daha verimli çalışabilmesi için araçların optimize edilmesi hedefleniyor.
Yerel kazımanın AI projeleri için yeni standart haline gelmesiyle birlikte, CrawlForge'un bu alandaki lider konumunu güçlendirmesi kaçınılmaz görünüyor.
Yapay zeka özeti
CrawlForge v4.2.2, yerel AI kazıma için CLI ve 3 yeni araçla tanıtıldı. API anahtarı gerektirmeyen yerel LLM desteği ve hazır şablonlarla verimlilik artıyor.