6533b85bfe1ef96bd12ba33b

RESEARCH PRODUCT

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

subject

ogranicznik tekstucorpus of text fileszwiązki wielowyrazowetext delimiterreproduktInternet newsmulti-word expressionsweb crawlingre-productkorpus plików tekstowychquotenews internetowycudzysłów

description

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej (dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywy uwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonego materiału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytych z tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.

10.31648/pj.6838https://doi.org/10.31648/pj.6838