Prezentacja z wystąpienia Filipa Gralińskiego i Karola Świetlika w trakcie ogólnopolskiej konferencji dla brokerów informacji i branż pokrewnych: IV Warsztat Pracy Infobrokera - 4.0 WPI
Prelegenci: Filip Graliński i Karol Świetlik, PPJ Polska Pracownia Językoznawcza
Wydarzenie: IV Warsztat Pracy Infobrokera - WPI 4.0
Miejsce: Wydział Zarządzania i Komunikacji Społecznej UJ, Kraków
Data: 28-29.05.2019
Więcej informacji o konferencji znajdziesz na www.spi.org.pl
1 of 11
Downloaded 12 times
More Related Content
Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga)
1. Szukając pani S***k*n*us, czyli jak łączyć
kompetencje informatyczne i researcherskie
(i sięgać, gdzie Google nie sięga)
IV Warsztat Pracy Infobrokera
Filip Graliński & Karol Świetlik
Kraków, 28 maja 2019
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
2. Tryby pozyskiwania informacji
2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania
informacji na zlecenie:
podejście „przemysłowe”: masowe wydobywanie informacji z
wykorzystaniem metod tzw. sztucznej inteligencji
podejście „rzemieślnicze”: praca w trybie detektywistycznym,
ale również z wykorzystaniem nowoczesnych narzędzi
Między tymi biegunami cała sfera przejściowa.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
3. Research „hurtowy”
wielkie wolumeny danych
współzależność skali i szybkości
powtarzalność procesu, proceduralność
gwarancja sukcesu (progi ufności)
informacja „płytka” (tylko w przetwarzanym dokumencie)
Applica.ai czołowym dostawcą usług
przykład: klauzule NDA, pisma sądowe czy komornicze —
klasyfikacja, ekstrakcja określonych informacji
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
4. Research „drobny” z ekstremalną niewiadomą
In Search of the Most Beautiful Pictures Ever Seen
intuicja + determinacja
znaleźć lub stworzyć
narzędzie najlepiej
dopasowane do
problemu, tu: strona
biblioteki z Manchesteru,
oferująca
najdogodniejszy
mechanizm
przeszukiwania
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
5. Szukając pani S***k*n*us
Zagadka z bloga: http://www.strangehistory.net/2015/04/
30/searching-for-the-mysterious-mrs-sknus
Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po
wygwiazdkowanym nazwisku.
wylistowanie możliwych nazwisk (raczej niemieckich), ale
Google na to nie pozwala
zatem:
1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia
regularnego /S...k.n.us/, obciążające czasowo komputer,
ale jednorazowe:
xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort
| uniq -c | sort -k 1rn
2 kwerenda w wyszukiwarkach (nazwiska + prostitute i
synonimy, a także słowa i frazy powiązane, np. disorderly house
= dom publiczny; niezbędna wiedza lingwistyczna!),
znalezione w HathiTrust!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
6. Szukając pani S***k*n*us cd.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
7. Spektrum środków pozyskiwania informacji
metody sztucznej inteligencji (masowa ekstrakcja informacji)
Research Tool as a Service?
narzędzia wewnętrzne rozwijane przez firmy researcherskie
wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc
istniejące wyszukiwarki (przydatna wiedza informatyczna, np.
języki zapytań, wyrażenia regularne, metody omijania
ograniczeń, „hakowania”) i bazy danych
działania „analogowe”
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
8. System Odkrywka
Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa
Gralińskiego, pokłosie badań i eksperymentów pracowników
Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych
Wydziału Matematyki i Informatyki UAM w Poznaniu.
kolekcje upublicznione przez biblioteki cyfrowe oraz inne
otwarte źródła internetowe
3,4 mln publikacji, 22 mln stron,
15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.)
zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień
dzisiejszy, w znacznej części niedostępne za pośrednictwem
Google’a
wyszukiwanie pełnotekstowe, rysowanie wykresów częstości,
tworzenie dossier na zadany temat
narzędzie do researchu, szyte na miarę
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
9. Odkrywka – tworzenie dossier
nie tylko dla uczonych (zwł. historyków czy lingwistów),
również dla dziennikarzy, pisarzy, genealogów, prawników,
funkcjonariuszy służb itd.
sztuką jest zdobyć informacje, ale też należycie je
zweryfikować, udokumentować i przystępnie zaprezentować
przykłady:
historia słynnej kamienicy przy Noakowskiego 16 w Warszawie
wydarzenia z życia ks. Stanisława Streicha w kontekście
procesu beatyfikacyjnego
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
10. PPJ
idea Centaura (zaawansowana technologia plus człowiek),
która choć upadła w „zamkniętym” świecie szachów, w
„otwartym” świecie researchingu wydaje się nam optymalna
PPJ – unikatowe zaplecze dla infobrokerów: zespół
informatyków i humanistów, dysponujących doświadczeniem
naukowym i biznesowym, przede wszystkim zaś lubiących
ambitne wyzwania w dziedzinie wyszukiwania informacji
www.ppj.pl, kontakt@ppj.pl
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
11. Dziękujemy za uwagę!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .