Teknolojik gelişmeleri takip etmeyenlerin dahi sıkça duyduğu AI dünyasının, günden güne içini dolduran pek çok yeni ürün tanıtılıyor. Her biri sunduğu kolaylıklarla büyük zaman tasarrufları sağlıyor. Bu yazının konusuda yazılımcıların kod yazarken sıkça dönüp stackoverflow benzeri sitelerden aramalar yaptığı konuları GitHub gibi büyük bir havuzdan beslenerek geliştiricinin çalıştığı ekrandan ayrılmadan sunan güçlü bir ürün; GitHub CoPilot.
AWS Athena – 2 (Create View & Partitioned Table)
Bu yazıda AWS Athena servisi üzerinde View Create etme ve mevcut tablolardan CTAS (Create Table as Select) ile Partitioned Table Create etmeye dair örnekler anlatılacaktır.
AWS Athena – 1 (Config)
AWS Athena servisi önceki yazılarda da konu edinilen (bkz. Presto) bir Query Engine hizmetidir. Farklı olarak Athena kaynak sistem olarak AWS S3 servisini kullanan özelleşmiş bir yapıdır. Okumaya devam et
AWS S3 – 2 (Select Query w/ Parquet)
AWS S3 hizmetini kullanırken genel kabul gören dosya formatlarından biri olan Parquet formatı ne sağlar? Ve depolanan dosyalar SQL sorgusu ile sorgulanabilir mi?
AWS S3 – 1 (w/ Boto3)
AWS S3 (Simple Storage Service) çok yönlü ve oldukça yetenekli bir bulut depolama çözümüdür. Bu yazıda ana hatlarıyla Python Boto3 modülü üzerinden kullanım örnekleri ile S3 servisi detaylandırılmaya çalışılacaktır. Okumaya devam et
Data Profiling – 1 (w/ Pandas Profiling)
Veri setinin alfanümerik bir yığın olduğu o ilk anda ne yapılmalıdır? Yapılması gereken ilk şey veri seti üzerinden anlamlı desenler çıkarılması için analiz etmek olacaktır. EDA (Exploratory Data Analysis) yada Data Profiling kavramıda bu noktada hangi analiz adımlarının kullanılabileceğini toparlayan bir üst başlık niteliği taşır. Okumaya devam et
Apache Spark – 2 (Spark SQL w/ Databricks)
Veri özelinde kullanılan pek çok ürün gibi Apache Spark‘ında cloud hizmet sağlayıcıları tarafından sunulan servisleri mevcuttur. Son zamanlarda adı sıkça duyulan Databricks veri tarafında Spark’ında içinde bulunduğu bir dizi hizmeti cloud hizmeti olarak sunmaktadır. Okumaya devam et
Apache Spark – 1 (Spark SQL w/ Jupyter)
Büyük veri setleri üzerinde performanslı analiz ve uygulamalar geliştirme imkanı sunan in-memory hesaplama yeteneğine sahip merkezi bir analitik işleme motorudur. Kendi sayfasındaki açıklaması da şöyledir; “Apache Spark™ is a unified analytics engine for large-scale data processing.” Okumaya devam et
Presto – 2 (w/ Postgre & Apache Superset)
Presto’yu cli arayüzünde değil daha yüksek seviyede giydirilmiş bir arayüzde kullanmak çalışma ve anlaşılırlık açısından oldukça değerli olacaktır. Bu noktada önceki yazıda da değindiğim BI araçlarından birini tercih ederek ilerlenebilir. Bu yazıda Apache Superset tercih edilerek ilerlenecektir. Okumaya devam et
Presto – 1 (Single Node)
Presto‘nun ne olduğunu anlamak için veri üzerinde sorgulama yapma sürecinin karanlık dehlizlerine (evet bu aralar fazla roman okuyorum 🙂 ) inilmesine gerek yok. Kısaca şu söylenebilir; bir veri tutma altyapısının üzerinde en az maliyetle sorgulama yapabilmemizi sağlayan query engine‘lerden biridir. Okumaya devam et