Google – это больше, чем Google: поиск по наборам данных выходит из бета-версии

Google Dataset Search, инструмент, изначально разработанный для помощи исследователям в поиске онлайн-данных, доступных для использования, в настоящее время не находится в стадии бета-тестирования и улучшен благодаря новым функциям , объявила компания сегодня.

Функция поиска, запущенная в 2018 году как попытка агрегирования данных открытого доступа в Интернете, и в настоящее время проиндексировала 25 миллионов наборов данных, по словам Наташа Ноя, научного сотрудника Google Research. Содержание охватывает информацию, варьирующуюся от популяций пингвинов до медицинских данных, и может быть использовано исследователями для проверки гипотез или учеными для обучения алгоритмам машинного обучения.

Конечно, инструмент также открыт для случайных пользователей. Например, введите «лыжи», и вы найдете наборы данных, показывающие скорости самых быстрых лыжников или доходы лыжных курортов.

Новые функции, анонсированные компанией сегодня, в основном предназначены для упрощения процесса исследования для пользователей. Результаты теперь могут быть отфильтрованы на основе типа требуемого набора данных, такого как таблицы, изображения или текст; или о том, свободен ли набор данных. Поисковая система теперь также может быть использована в качестве мобильного приложения.

Ной подчеркнул, что для тех, кто придерживается определенного набора данных, возможно – и рекомендуется – сделать эту информацию доступной для поиска с помощью инструмента Google с помощью открытого стандарта schema.org для описания свойств своего набора данных. на их веб-странице.

Когда был запущен Поиск по наборам данных, команда Google уже определила, что одной из проблем будет найти простой способ убедиться, что существующие хранилища данных попадут в каталог поисковой системы, так что данные действительно могут быть найдены пользователями.

Компания предложила решение schema.org в то время , которое оно описало как стандарт, который можно добавить на страницу, содержащую набор данных, чтобы позволить Google связывать страницу к поисковой системе набора данных.

«Нашей конечной целью является содействие развитию экосистемы для публикации, потребления и обнаружения наборов данных», – сказал Google.

Хотя исследовательская группа не раскрыла, сколько пользователей тестировали этот инструмент, они предоставили некоторое представление о типе данных, которые люди получали после 2018 года. Наиболее распространенные запросы, по словам Ноя, включают «образование» »,« погода »,« рак »,« криминал »,« футбол »и…« собаки ».

Большинство данных, которые были связаны с поисковой системой, касаются геонаук, биологии и сельского хозяйства, добавил Ной; и, к счастью, большинство правительств мира уже используют стандарт schema.org при публикации открытых данных. Только на правительство США приходится два миллиона наборов данных.

Хотя Поиск по наборам данных находится вне бета-версии, Ной сказал, что Google будет продолжать обновлять инструмент в будущем. Она предлагает взять его «на спин», если вы еще не пробовали – то есть, если вы еще не искали «собак».

40
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Добавить комментарий

Перейти к верхней панели