Selamlar THT üyeleri, Python Pandas Kütüphanesi İle Corona Virüs Analizi Yapalım isimli serimizin 2. bölümü ile karşınızdayım. İlk bölümü okumak için bu bağlantıyı kullanabilirsiniz: https://www.turkhackteam.org/python/1946444-1-python-pandas-ile-corona-virus-analizi-yapalim.html
Evet, ilk bölümümüzde Pandas kütüphanemizi kullanmayı öğrenmiştik ve birkaç tane basit örnek yapmıştık. Serinin ismi aksine, ilk bölümde daha çok bir Pandas Temelleri konusunu işlemiştik. Bu bölümde yavaş yavaş Corona Virüs analizine başlayacağız.
Bu konunun yayınlanma tarihi 19.10.20?dir ve konu yayınlanması itibari ile en güncel verileri kullanmaktadır. Bu bölümden sonra bir tane daha bölüm olacaktır ve 3 bölüm ile bu seriyi bitirmek istiyorum. Şimdilik bu konumuza odaklanalım ve alt başlıklarımızı inceleyelim.
Bu Bölümdeki Konu Başlıkları:
- Pandas DataFrame
- Kaggle Nedir ve Corona Virüs Verileri
- Corona Virüs Verilerine Basit Bir Giriş
Pandas DataFrame
İlk bölümde Pandas serilerini görmüştük ve bu bölümde ise farklı bir veri yapısı olan DataFrame, yani veri çerçevesini öğreneceğiz. DataFrame?de farklı tipde data sütunları vardır. SQL tabanlarına benzemektedir bir bakıma.
Şimdi ilk olarak bir sözlük oluşturalım. Sonrasında bu sözlük ile bir DataFrame alıştırması yapalım. Ben sözlüğü İngilizce-Felemenkçe-Türkçe olarak yapacağım. Böylelikle bir iki kelime de öğrenirsiniz en azından :) .
Önemli bir nokta, burada 2 boyutlu bir veri tablomuz olacak. Bu yüzden ortak key değeri olmasına dikkat edelim.
Kod:
import pandas as pd
en=dict(Merhaba="Hello", Lütfen="Please", Teşekkürler="Thanks", Bugün="Today")
nl=dict(Merhaba="Hallo", Lütfen="Alsjeblieft", Teşekkürler="Bedankt", Bugün="Vandaag")
data1=dict(English=en,Dutch=nl)
dataframe1=pd.DataFrame(data1)
Evet şimdi bu küçük sözlüğümüzü yazdırmak için ?print(dataframe1)? komutunu kullanalım.
Peki, key verilerimiz aynı değil de farklı olursa ne olur? Bunun nasıl bir sonucu olacağına hadi bakalım:
Kod:
en=dict(Merhaba="Hello", Lütfen="Please", Teşekkürler="Thanks", Bugün="Today", Sonunda="At last")
nl=dict(Merhaba="Hallo", Lütfen="Alsjeblieft", Teşekkürler="Bedankt", Bugün="Vandaag", Manzara="Uitzicht")
data1=dict(English=en,Dutch=nl)
dataframe1=pd.DataFrame(data1)
print(dataframe1)
Sonlarına bir tane ortak olmayan key verisi ekledim ve gördüğümüz gibi key?e değer atanmayan durumlarda bilinmiyor anlamına gelen NaN değerini döndürdü.
Pekala, şimdi farklı bir örnek yapalım Bu sefer serileri kullanıp DataFrame ile yazdıralım. Az önceki örnek gibi sadece kelime değil, bu defa hem sayı hem de kelimeleri yazdıralım.
İki tane seri oluşturalım.
Kod:
seri1=pd.Series([1,2,3,4,5])
seri2=pd.Series(['anne','baba','dede','nine','kayınço'])
Bu serileri şimdi DataFrame olarak yazdıralım:
Kod:
seri1=pd.Series([1,2,3,4,5])
seri2=pd.Series(['anne','baba','dede','nine','kayınço'])
data2=dict(numara=seri1,akraba=seri2)
df2=pd.DataFrame(data2)
print(df2)
Gördüğümüz gibi buralarda serileri DataFrame olarak yazdırdık.
Aynı zamanda daha önceden belirlenen DataFrameleri de bu şekilde yazdırabiliriz.
Kod:
df3=pd.DataFrame(dataframe1)
print(dataframe1)
DataFrame konumuz bittiğine göre bir sonraki bölüme devam edebiliriz.
Kaggle Nedir ve Corona Virüs Verileri
Bu bölümde ilk olarak Kaggle Nedir sorusunun cevabı yer alacak.
Kaggle, Google bünyesinde faaliyet gösteren bu web site en büyük veri platformudur. Bu sitede bir çok konuda datasetlerini bulabilirsiniz.
Kaggle web sitesinin en olumlu yanlarından biri ise bir çok konu ile ilgili profesyonelleri ve meraklıları bir araya topluyor olmasıdır. Profesyonel veri bilimcilerin girdiği kodları ya da veri setlerine kolayca ulaşıp üstünde çalışmalar yaparak kendinizi geliştirebilirsiniz. Aynı zamanda yaptığınız işlerle veya düzenlenen yarışmalarda kendinizi göstermeniz halinde profesyonel iş verenler tarafından dikkat çekebilirsiniz. Resmi Kaggle Sitesi: https://www.kaggle.com/
ımg
Biz de Corona Virüs verilerimizi bu Kaggle sitesinden çekeceğiz.
İlk olarak Kaggle?ın sitesine giriyoruz ve güncel bir Corona Virüs data set?ini seçiyoruz. Seçtiğimiz veri setini indirmek için önce Kaggle?a üye olmamız lazım, isterseniz de Google ile giriş yapabilirsiniz. Benim seçtiğimin linkini buraya bırakıyorum. https://www.kaggle.com/unanimad/corona-virus-brazil
(Güncel ve global çapta olan datasetlere ulaşmak zordu ve çok büyük boyuta sahiptiler -20 GB kadar- Ben de o yüzden şimdilik Brezilyadaki güncel Corona Virüs verilerini seçtim.)
Tek yapmanız gereken buradan Download kısmına basmak.
İndirilen dosyayı istediğimiz klasöre taşıyın ve zip dosyasına sağ tıklayıp ?Buraya Ayıkla? seçeneğini seçin.
Bu bölümdeki işimiz de bittiğine göre artık son alt başlığımıza geçelim ve bu verileri kullanmaya başlayalım.
Corona Virüs Verilerine Giriş
Bu bölümde internetten indirdiğimiz Corona Virüs Verilerini kullanacağız. İlk olarak bu indirdiğimiz csv dosyasını projemize ekleyelim. Öncelikle kolay olsun diye python dosyamızı indirdiğimiz veriler ile aynı klasör içine atalım. Ondan sonra ise dosyayı programa okutalım.
Kod:
import pandas as pd
covid=pd.read_csv("brazil_covid19.csv")
Şimdi bu veriler üzerinde ilk ders öğrendiğimiz metodları kullanalım. Daha anlaşılır olması için metodları tek tek, açıklayarak yazacağım
Kod:
print(covid.shape) #Verilerin satır ve sütür sayısını öğrenme
6372 tane satırımız, 5 tane de sütunumuz varmış.
Kod:
print(covid.columns) #Verilerin sütun değerini öğrenme
Verilerimizde date, region, state, cases ve deaths olmak üzere 5 sütun olduğunu ve bunların tipinin object olduğunu görüyoruz.
Kod:
print(covid.dtypes) #Sütunların veri tiplerini öğrenme
Burada hangi sütunun ne tipte bir veri içerdiğini görüyoruz.
Kod:
print(covid.head(8)) #Verilerin varsayılan ilk 8 satırını yazdırma
Verilerdeki ilk 8 satırı yazdırdık.
Kod:
print(covid.tail(8)) #Verilerin varsayılan son 8 satırını yazdırma
Sondaki 8 satırı yazdırdık
Kod:
print(covid.info()) #Dataset hakkın genel bilgi öğrenme
Genel olarak veri setimizin bilgilerini öğrendik, bunların zaten ne anlama geldiğini bildiğinizi varsayıyorum.
Kod:
print(covid.isnull().sum()) #Herhangi bir değeri olmayan yerleri ve verilerin toplamı gösterir
Evet, gördüğümüz gibi integer olarak bir veri verilmemiş ve biz o yüzden bu kısmı 0 olarak görüyoruz. Demek ki tüm veriler string tipinde.
Kod:
print(covid.describe()) #Sütunların istatiksel genel bilgilerini öğrenme
Buradaki bilgilerin açıklamaları ilk bölümdeki metodları anlatırken verilmiştir, o yüzden uzun uzun anlatmıyorum.
Kod:
print(covid["state"].describe()) #İstenilen bölümdeki stringlerin analizini yapma
Burada ise "state" sütununun verilerini inceledik. Burada "states" kısmında en çok değere sahip olan, yani en fazla vaka görülen yeri görebiliyoruz. Aynı zamanda bir çok farklı parametre de yer almaktadır. Mesela bu sütünda en çok bahsedilen key değerini de öğrenebiliriz.
Kod:
a=(covid.describe(include=["O"])) #Sayısal olmayan sütunların analizini yapma
print(a)
Burada ise string verilerin değerlerini yazdırdık. Hatırlarsanız tüm verilerimiz zaten string'di.
Kod:
b=(covid["state"].value_counts()) #Belirtilen sütundaki boş değere sahip olmayan verileri gösterme
print(b)
Gördüğümüz gibi en fazla değere sahip kısımlar bunlarmış
Kod:
c=(covid[covid["state"]=="RJ"]) #İstenilen sütunda, istenilen satırın verilerini verme
print(c)
Burada Rio De Janerio kenti için olan verileri ekrana yazdırdık. Yani her günkü vaka sayılarını da buradan görebiliriz.
Evet, bu kısım da burada bitiyor. Genel olarak temel ve basit metodlar bunlardı.
Python Pandas Covid-19 analizi serimizin 2. bölümünün sonuna gelmiş bulunmaktayız. 3. ve son bölüm eğer bir sıkıntı olmazsa en geç 2 gün içinde, yani 21.10.20 tarihi gecesine kadar gelmiş olur. Gerçekten çok emek veriyorum, dürüst olmak gerekirse anlattığım şeyler kolay şeyler ama bunu yazıya dökü size sunuma hazırlamak, yani front-end?i halletmek saatleri alıyor :D
Bu yüzden tek ricam bu serinin işinize yaraması ve beğenmeniz, işine yararsa ne mutlu bana.
Kendinize iyi bakın ve bir sonraki bölümü beklemeye alın.
(Bu konuda bana yardımcı olan Enes Abiye teşekkürler )
#2 Python Pandas İle Corona Virüs Analizi Yapalım
Python0 Mesaj
●61 Görüntüleme
- ReadBull.net
- Programlama ve Yazılım
- Server-Side Programlama
- Python
- #2 Python Pandas İle Corona Virüs Analizi Yapalım
-
21-10-2020, 08:13:32