Kada se portali „zaraze” koronom Razvoj i usporedna analiza članaka portala Index.hr 2019. i 2020. godine
Svrha ovog rada jest predstaviti metodologiju, alate i rezultate usporedne računalne analize online članaka: od prikupljanja dokumenata i čišćenja jezičnih podataka za razvoj specijaliziranoga korpusa članaka do prikaza korištenih alata i usporedne statističke analize korpusa. Istraživanje je proved...
Saved in:
Published in: | Medijske studije Vol. 13; no. 25; pp. 27 - 49 |
---|---|
Main Author: | |
Format: | Journal Article |
Language: | English |
Published: |
04-08-2022
|
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Svrha ovog rada jest predstaviti metodologiju, alate i rezultate usporedne računalne analize online članaka: od prikupljanja dokumenata i čišćenja jezičnih podataka za razvoj specijaliziranoga korpusa članaka do prikaza korištenih alata i usporedne statističke analize korpusa. Istraživanje je provedeno na dva specijalizirana korpusa razvijena upravo za potrebe istraživanja, a temelje se na 500 članaka u kategoriji „Vijesti” portala Index.hr. Jedan korpus temelji se na člancima objavljenima u predpandemijskoj 2019. godini, a drugi na temelju članaka objavljenih u pandemijskoj 2020. godini. Analizom podataka otkriveno je da je vokabular pandemijskoga korpusa značajno siromašniji od predpandemijskoga korpusa, da se u 2020. manje pisalo o susjednim državama RH nego 2019. godine te da se u predpandemijskom korpusu više spominju domaći gradovi nego inozemni, dok je suprotan slučaj u pandemijskome korpusu. Konačno, istražena je i primjerenost automatske ekstrakcije termina za identifikaciju specifičnih tema kojima se bave promatrani korpusi.
The goal of this paper is to present the methodology, tools and results of comparative computational analysis of newspaper online articles: from the collection of documents and the cleaning of language data for the development of specialized corpora of newspaper articles, to the presentation of the tools used and the comparative statistical analysis of the corpora. The research was conducted on two specialized corpora developed precisely for the purpose of this research, based on 500 newspaper articles in the category “News” of the Index.hr news portal. One corpus is based on articles published in the pre-pandemic year 2019, and the other is based on articles published in the pandemic year 2020. By analyzing the data, we found that the vocabulary of the pandemic corpus is significantly poorer than the pre-pandemic corpus, that in 2020 less was written about the neighboring states of the Republic of Croatia than in 2019, and that the pre-pandemic corpus mentioned domestic cities more than the foreign ones, while the opposite can be argued for the pandemic corpus. Finally, we also investigated the adequacy of automatic term extraction to identify specific topics covered in the observed corpora. |
---|---|
ISSN: | 1847-9758 1848-5030 |
DOI: | 10.20901/ms.13.25.2 |