TR
Avrasya Ekonometri �statistik ve Ampirik Ekonomi Dergisi Yýl:2020  Sayý: 17  Alan: Çalýþma Ýktisadý ve Ýktisadi Demografi

Engin KARAMAN, Çiðdem ARICIGÝL ÇÝLAN
COVÝD-19 DÖNEMÝNDE TURÝZM ÝLE ÝLGÝLÝ TWÝTLERÝN MAKÝNE ÖÐRENMESÝ YÖNTEMLERÝYLE DUYGU ANALÝZÝ
 
Tüm dünyada etkili olan ve küresel bir pandemi özelliði taþýyan COVÝD-19 virüsü, Türkiye’de ki turizm tercihleri üzerinde de etkisini göstermiþtir. Bu çalýþmada, Nisan- Aðustos 2020 tarihleri arasýnda atýlan turizm hahstagli (#turizm) Türkçe twitler üzerinden duygu analizi çalýþmasý yapýlmýþtýr. Veriler Twitter API uygulamasýndan elde edilmiþtir. Bu süreçte toplanan 9678 adet ileti gerekli ön iþleme ve dönüþtürme süreçleri üzerinden yapýlandýrýlarak 4202 adet olarak analize hazýr hale getirilmiþ ve iletiler anlamsal açýdan içerdikleri duygu ifadesine göre üç kategoride etiketlenmiþtir. Duygu analizi çalýþmalarýnda Makine Öðrenmesi’nin en çok kullanýlan yöntemlerinden (algoritmalarýndan); Lojistik Regresyon Analizi, Karar Aðacý, Multinominal Naive Bayes Analizi, Kümeleme Analizi(k-En Yakýn Komþu), Destek Vektör Makineleri ve Rassal Ormanlar kullanýlarak sýnýflandýrma performanslarý karþýlaþtýrýlmýþ ve en baþarýlý model olarak 0.66 doðruluk skoruyla Lojistik Regresyon modeli olmuþtur. Oluþturulan model geliþtirilmeye açýk olmakla birlikte tahminlime çalýþmalarýnda kullanýma uygundur.

Anahtar Kelimeler: Turizm, Python, Twitter API, Duygu Analizi, Makine Öðrenmesi


SENTIMENT ANALYSIS OF TOURISM-RELATED TWEETS DURING COVID-19 OUTBREAK THROUGH MACHINE LEARNING TECHNIQUES
 
Covid-19 virus which is effective all the world and is a global pandemic also affected tourism choices in Turkey. In this study, sentiment analysis study was conducted over the tourism hahstagli (#turizm) Turkish tweets posted between April and August 2020. The data was obtained from the Twitter API application. 9678 messages collected in this process were structured over the necessary pre-processing and transformation processes and made ready for analysis as 4202 messages, and the messages were labeled in three categories (neutral, positive and negative) according to the emotion expressions they contain.Classification performances were compared using Machine Learning algorithms (Logistic Regression Analysis, Decision Tree, Multinominal Naive Bayes Analysis, Cluster Analysis (k-Nearest Neighbor), Support Vector Machines and Random Forests), which are frequently used in sentiment analysis studies. As a result, Logistic Regression model was found to be the most successful model.

Keywords: Tourism, Python, Twitter API, Sentiment Analysis, Machine Learning


Detay

ÝÇERÝK