6533b862fe1ef96bd12c6575

RESEARCH PRODUCT

Google Books jako korpus językowy

subject

analizaproblemy badawczeresearch problemsanalysiskorpuscorpusGoogle Books

description

Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z jakimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia krótko problemy badawcze dotyczące Google Books.

10.17651/bptj.74.2https://doi.org/10.17651/bptj.74.2