Potęga wyszukiwarek

O tym jak wielkie znaczenie w analizie źródeł otwartych odgrywają wyszukiwarki pisaliśmy już wielokrotnie. Zastanawialiśmy się czy istnieje świat poza Google (tak, istnieje i jest bardzo wartościowy!), budowaliśmy własną wyszukiwarkę, a także pokazywaliśmy technologię BANGS, która integruje wiele wyszukiwarek w jednym miejscu. Tym razem wracamy jednak do tematu Google, które po raz kolejny pozytywnie zaskakuje analityków OSINT!

Dataset search – wyszukiwarka w zbiorach danych

Wyszukiwanie zbiorów danych to narzędzie, które pozwala wyszukiwać zbiory danych. Użytkownicy mogą korzystać z prostego wyszukiwania z użyciem słów kluczowych, by znajdować zbiory danych w tysiącach repozytoriów w całym internecie. Dataset search znajdziecie pod tym przyciskiem:

Wyszukiwanie zbiorów danych umożliwia uniwersalny dostęp do zbiorów danych i ułatwia korzystanie z nich, ale Google chce, by projekt ten realizował też te funkcje:

  • zapewniał ekosystem udostępniania danych, który zachęci wydawców do stosowania naszych sprawdzonych metod przechowywania i publikowania danych;
  • umożliwiał naukowcom pokazanie wpływu, jaki wywiera ich praca, poprzez cytowanie utworzonych przez nich zbiorów danych.

Coraz więcej repozytoriów do opisywania swoich zbiorów używa schema.org i podobnych standardów, dlatego różnorodność i zakres tematyczny danych dostępnych dla użytkowników w wyszukiwaniu zbiorów danych będzie stale rosnąć.

Opis technologii Dataset Search

Wyszukiwarka Dataset Search w praktyce

W rzeczywistości Dataset Search działa jak Google – możemy pytać o słowa kluczowe, nazwiska, zjawiska, spółki. Różnica będzie taka, że dostaniemy wyniki na podstawie analizy zorganizowanych w struktury baz danych (w tym statystyki). Przykładowo jeśli zapytamy o PKN ORLEN, to poza informacjami na temat samego podmiotu dostaniemy informacje o zbiorach danych, w których pojawiła się fraza “PKN ORLEN” w tym m.in. dane finansowe.

I co dalej?

W sieci znajdują się dziesiątki milionów zbiorów danych zawierających różne treści, od danych z czujników i rejestrów rządowych po wyniki eksperymentów naukowych i raporty biznesowe. Rzeczywiście, istnieją zbiory danych dla prawie wszystkiego, co można sobie wyobrazić, czy to diety pingwinów cesarskich, czy miejsca zamieszkania pracowników zdalnych. Dataset Search zawiera ponad 31 milionów zestawów danych z ponad 4600 domen internetowych. To ogromna praca realizowana przez zespół Google, która zdecydowanie może wpłynąć na odkrywanie nowych wątków podczas realizowanych researchów. Dodatkowo dane statystyczne zgromadzone w ramach Dataset Search to kopalnia wiedzy dla naukowców, studentów oraz osób opisujących zjawiska globalne w świecie. Czy trzeba czegoś więcej? 🙂