Wszystkie bazy danych w miarę jak rosną, stają się coraz bardziej bezużyteczne. Znalezienie potrzebnej informacji w takiej bazie często graniczy z cudem. Jedyny sposób, to tworzyć informację ustrukturyzowaną i opatrzoną właściwymi kategoriami. Czyli opracować ją tak, jak w bibliotekach robiono od wieków z książkami, tworząc katalogi rzeczowe. Ale nikt nie ma takiego samozaparcia, żeby wszystkie udostępniane informacje dogłębnie opracować, tak żeby każdy temat,
którego dotyczą był połączony właściwą relacją. To znaczy na przykład, że wszystkie teksty dotyczące Adama Mickiewicza są połączone z hasłem osobowym "Mickiewicz, Adam (1798-1855)". Wszystkie, to znaczy, że nie zostanie zdigitalizowany i opublikowany żaden utwór, który mógłby zainteresować z jakiegoś względu poszukujących informacji o Mickiewiczu a nie tylko utwory już przez samych autorów zakwalifikowane jako dotyczące Mickiewicza, a to jest różnica. Takie pozycje na listach tematów, trzeba rozbijać na wiele podpozycji, o mniejszym zakresie tematycznym, bo lista utworów, o których wiadomo, że są poświęcone Mickiewiczowi, byłaby ze względu na wielkość kompletnie bezużyteczna.
Za długi ten wstęp. Chodzi mi po prostu o to, że taka idealna kategoryzacja w dużej bazie jest utopią. I nigdy nie doczekamy się jej w żadnej bibliotece cyfrowej. Nie sposób byłoby nawet oszacować jak duży zespół i jak długo musiałby nad nią pracować, żeby zrobić ją tak, by nie dało się jej już poprawić.
Pozostaje przeszukiwanie tekstowe treści dokumentów. Robimy listę słów, które powinny pojawić się w tekście na temat, który nas interesuje i szukamy każdego z nich. Często szukamy tekstów poświęconych konkretnym osobom, a więc szukamy ich imienia i nazwiska. I każdemu wydaje się, że tylko imienia i nazwiska, ale w rzeczywistości szukamy też czegoś, czego wydaje nam się że nie ma, pustego miejsca między imieniem i nazwiskiem czyli spacji! Niestety do tej pory nie byłem w stanie znaleźć informacji jak znaleźć w Polonie teksty, w których występuje ciąg znaków "imię spacja nazwisko". Niestety, to niemożliwe. Najwyraźniej wyszukiwarka Polony ma zaindeksowane pojedyńcze wyrazy i nie ma żadnej wiedzy na temat tego jaki wyraz poprzedza lub następuje po innym. Jedyne co można zrobić to wyszukać dokumenty, w których występuje zarówno "Adam" jak i "Mickiewicz". Łatwo sobie wyobrazić, jaka może być korzyść z takiego wyszukiwania. Jeżeli ktoś zna jakiś tajny kod, który odblokowuje ukryte możliwości wyszukiwarki „Polony” będę dozgonnie wdzięczny za udostępnienie.