ݺߣ

ݺߣShare a Scribd company logo
Szukając pani S***k*n*us, czyli jak łączyć
kompetencje informatyczne i researcherskie
(i sięgać, gdzie Google nie sięga)
IV Warsztat Pracy Infobrokera
Filip Graliński & Karol Świetlik
Kraków, 28 maja 2019
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Tryby pozyskiwania informacji
2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania
informacji na zlecenie:
podejście „przemysłowe”: masowe wydobywanie informacji z
wykorzystaniem metod tzw. sztucznej inteligencji
podejście „rzemieślnicze”: praca w trybie detektywistycznym,
ale również z wykorzystaniem nowoczesnych narzędzi
Między tymi biegunami cała sfera przejściowa.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Research „hurtowy”
wielkie wolumeny danych
współzależność skali i szybkości
powtarzalność procesu, proceduralność
gwarancja sukcesu (progi ufności)
informacja „płytka” (tylko w przetwarzanym dokumencie)
Applica.ai czołowym dostawcą usług
przykład: klauzule NDA, pisma sądowe czy komornicze —
klasyfikacja, ekstrakcja określonych informacji
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Research „drobny” z ekstremalną niewiadomą
In Search of the Most Beautiful Pictures Ever Seen
intuicja + determinacja
znaleźć lub stworzyć
narzędzie najlepiej
dopasowane do
problemu, tu: strona
biblioteki z Manchesteru,
oferująca
najdogodniejszy
mechanizm
przeszukiwania
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Szukając pani S***k*n*us
Zagadka z bloga: http://www.strangehistory.net/2015/04/
30/searching-for-the-mysterious-mrs-sknus
Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po
wygwiazdkowanym nazwisku.
wylistowanie możliwych nazwisk (raczej niemieckich), ale
Google na to nie pozwala
zatem:
1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia
regularnego /S...k.n.us/, obciążające czasowo komputer,
ale jednorazowe:
xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort
| uniq -c | sort -k 1rn
2 kwerenda w wyszukiwarkach (nazwiska + prostitute i
synonimy, a także słowa i frazy powiązane, np. disorderly house
= dom publiczny; niezbędna wiedza lingwistyczna!),
znalezione w HathiTrust!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Szukając pani S***k*n*us cd.
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Spektrum środków pozyskiwania informacji
metody sztucznej inteligencji (masowa ekstrakcja informacji)
Research Tool as a Service?
narzędzia wewnętrzne rozwijane przez firmy researcherskie
wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc
istniejące wyszukiwarki (przydatna wiedza informatyczna, np.
języki zapytań, wyrażenia regularne, metody omijania
ograniczeń, „hakowania”) i bazy danych
działania „analogowe”
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
System Odkrywka
Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa
Gralińskiego, pokłosie badań i eksperymentów pracowników
Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych
Wydziału Matematyki i Informatyki UAM w Poznaniu.
kolekcje upublicznione przez biblioteki cyfrowe oraz inne
otwarte źródła internetowe
3,4 mln publikacji, 22 mln stron,
15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.)
zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień
dzisiejszy, w znacznej części niedostępne za pośrednictwem
Google’a
wyszukiwanie pełnotekstowe, rysowanie wykresów częstości,
tworzenie dossier na zadany temat
narzędzie do researchu, szyte na miarę
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Odkrywka – tworzenie dossier
nie tylko dla uczonych (zwł. historyków czy lingwistów),
również dla dziennikarzy, pisarzy, genealogów, prawników,
funkcjonariuszy służb itd.
sztuką jest zdobyć informacje, ale też należycie je
zweryfikować, udokumentować i przystępnie zaprezentować
przykłady:
historia słynnej kamienicy przy Noakowskiego 16 w Warszawie
wydarzenia z życia ks. Stanisława Streicha w kontekście
procesu beatyfikacyjnego
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
PPJ
idea Centaura (zaawansowana technologia plus człowiek),
która choć upadła w „zamkniętym” świecie szachów, w
„otwartym” świecie researchingu wydaje się nam optymalna
PPJ – unikatowe zaplecze dla infobrokerów: zespół
informatyków i humanistów, dysponujących doświadczeniem
naukowym i biznesowym, przede wszystkim zaś lubiących
ambitne wyzwania w dziedzinie wyszukiwania informacji
www.ppj.pl, kontakt@ppj.pl
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
Dziękujemy za uwagę!
Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .

More Related Content

Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga)

  • 1. Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga) IV Warsztat Pracy Infobrokera Filip Graliński & Karol Świetlik Kraków, 28 maja 2019 Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 2. Tryby pozyskiwania informacji 2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania informacji na zlecenie: podejście „przemysłowe”: masowe wydobywanie informacji z wykorzystaniem metod tzw. sztucznej inteligencji podejście „rzemieślnicze”: praca w trybie detektywistycznym, ale również z wykorzystaniem nowoczesnych narzędzi Między tymi biegunami cała sfera przejściowa. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 3. Research „hurtowy” wielkie wolumeny danych współzależność skali i szybkości powtarzalność procesu, proceduralność gwarancja sukcesu (progi ufności) informacja „płytka” (tylko w przetwarzanym dokumencie) Applica.ai czołowym dostawcą usług przykład: klauzule NDA, pisma sądowe czy komornicze — klasyfikacja, ekstrakcja określonych informacji Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 4. Research „drobny” z ekstremalną niewiadomą In Search of the Most Beautiful Pictures Ever Seen intuicja + determinacja znaleźć lub stworzyć narzędzie najlepiej dopasowane do problemu, tu: strona biblioteki z Manchesteru, oferująca najdogodniejszy mechanizm przeszukiwania Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 5. Szukając pani S***k*n*us Zagadka z bloga: http://www.strangehistory.net/2015/04/ 30/searching-for-the-mysterious-mrs-sknus Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po wygwiazdkowanym nazwisku. wylistowanie możliwych nazwisk (raczej niemieckich), ale Google na to nie pozwala zatem: 1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia regularnego /S...k.n.us/, obciążające czasowo komputer, ale jednorazowe: xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort | uniq -c | sort -k 1rn 2 kwerenda w wyszukiwarkach (nazwiska + prostitute i synonimy, a także słowa i frazy powiązane, np. disorderly house = dom publiczny; niezbędna wiedza lingwistyczna!), znalezione w HathiTrust! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 6. Szukając pani S***k*n*us cd. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 7. Spektrum środków pozyskiwania informacji metody sztucznej inteligencji (masowa ekstrakcja informacji) Research Tool as a Service? narzędzia wewnętrzne rozwijane przez firmy researcherskie wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc istniejące wyszukiwarki (przydatna wiedza informatyczna, np. języki zapytań, wyrażenia regularne, metody omijania ograniczeń, „hakowania”) i bazy danych działania „analogowe” Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 8. System Odkrywka Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa Gralińskiego, pokłosie badań i eksperymentów pracowników Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych Wydziału Matematyki i Informatyki UAM w Poznaniu. kolekcje upublicznione przez biblioteki cyfrowe oraz inne otwarte źródła internetowe 3,4 mln publikacji, 22 mln stron, 15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.) zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień dzisiejszy, w znacznej części niedostępne za pośrednictwem Google’a wyszukiwanie pełnotekstowe, rysowanie wykresów częstości, tworzenie dossier na zadany temat narzędzie do researchu, szyte na miarę Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 9. Odkrywka – tworzenie dossier nie tylko dla uczonych (zwł. historyków czy lingwistów), również dla dziennikarzy, pisarzy, genealogów, prawników, funkcjonariuszy służb itd. sztuką jest zdobyć informacje, ale też należycie je zweryfikować, udokumentować i przystępnie zaprezentować przykłady: historia słynnej kamienicy przy Noakowskiego 16 w Warszawie wydarzenia z życia ks. Stanisława Streicha w kontekście procesu beatyfikacyjnego Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 10. PPJ idea Centaura (zaawansowana technologia plus człowiek), która choć upadła w „zamkniętym” świecie szachów, w „otwartym” świecie researchingu wydaje się nam optymalna PPJ – unikatowe zaplecze dla infobrokerów: zespół informatyków i humanistów, dysponujących doświadczeniem naukowym i biznesowym, przede wszystkim zaś lubiących ambitne wyzwania w dziedzinie wyszukiwania informacji www.ppj.pl, kontakt@ppj.pl Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  • 11. Dziękujemy za uwagę! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .