Как извлечь ссылки с веб-страницы в Windows

Вам может понадобиться извлечь ссылки (URL-адреса) на веб-странице для различных целей — например, для исследования в Интернете, веб-разработки, оценки безопасности или тестирования веб-страницы. В этой статье рассказывается, как извлечь ссылки из веб-страницы или HTML-документа в Windows.

Как извлечь ссылки с веб-страницы в Windows

Существует несколько способов извлечения URL-адресов на веб-странице. Давайте начнем с родного пути — с помощью раздела инструментов разработчика вашего веб-браузера.

Использование инструментов разработчика вашего веб-браузера

  1. Откройте Chrome для Firefox и сначала посетите веб-сайт или веб-страницу.
  2. Нажмите F12, чтобы открыть окно инструментов разработчика.
  3. Нажмите на вкладку Консоль в Инструментах разработчика.
  4. Очистите консольный вывод, нажав на Очистить консоль (в Chrome) или Очистить вывод веб-консоли (в Firefox) кнопка.
  5. Введите следующий код в командной строке:
    Array.prototype.slice.call(document.querySelectorAll('a'), 0).forEach((a,i)=>console.log(`#${i+1} - ${a.innerText} -- ${a.href}`));

Это выводит упорядоченный список ссылок на этой веб-странице вместе с заголовком в окне консоли.

Извлечение ссылок с веб-страницы

Если вы хотите получить только URL-адреса без серийного номера или текста заголовка, используйте эту команду:

urls = $$('a'); for (url in urls) console.log ( urls[url].href );

Скопируйте вывод в Блокнот и сохраните его.

Использование PowerShell

Запустите PowerShell и используйте следующий синтаксис командной строки:

(Invoke-WebRequest -Uri "https://www.winhelponline.com/blog").Links.Href | Sort-Object | Get-Unique | out-gridview

извлекать ссылки с веб-страницы в Windows

Это получает список ссылок на указанной веб-странице и выводит список в элемент управления представлением сетки.

извлекать ссылки с веб-страницы в Windows

Другое преимущество этой команды PowerShell состоит в том, что она сортирует записи, а также удаляет дубликаты URL-адресов из коллекции.

Элемент управления видом сетки позволяет фильтровать URL-адреса поиска по ключевым словам, а также копировать списки в буфер обмена, используя Ctrl + C

Захватить заголовок и URL

Чтобы просмотреть innerText в дополнение к соответствующим ссылкам или URL, выполните:

(Invoke-WebRequest -Uri "https://www.winhelponline.com").Links | sort-object href -Unique | Format-List innerText, href

Вы получите такой вывод:

извлекать ссылки с веб-страницы в Windows

Дублированные URL-адреса автоматически удаляются в выводе.

Вы даже можете автоматически скопировать вывод в буфер обмена, используя | clip параметр:

(Invoke-WebRequest -Uri "https://www.winhelponline.com").Links | sort-object href -Unique | Format-List innerText, href | clip

Захватывать только изображения URL

Чтобы извлечь список URL-адресов изображений, используйте этот синтаксис:

(Invoke-WebRequest -Uri "https://www.winhelponline.com").Images | Select-Object src

извлекать ссылки с веб-страницы в Windows

Использование AddrView от Nirsoft

Инструмент AddrView от Nirsoft автоматически извлекает ссылки (включая ссылки на изображения) с заданной веб-страницы или из локального HTML-файла и выводит их в виде таблицы.

извлекать ссылки с веб-страницы в Windows

Вы даже можете отсортировать результаты по Тип и скопировать только URL изображения в буфер обмена или сохранить в файл.

Если вы хотите получить только ссылки на изображения, вы можете использовать встроенный в Firefox Просмотр информации о странице вариант. В Firefox щелкните правой кнопкой мыши текущую веб-страницу и выберите Просмотр информации о странице → Медиа. На вкладке «Медиа» перечислены все URL-адреса изображений, включая data:image ссылки. Вы можете скопировать выбранные элементы или все элементы в буфер обмена или сохранить записи в файл.

извлекать ссылки с веб-страницы в windows - firefox media

Помимо описанных выше методов, для браузеров, таких как Chrome или Firefox, существует множество расширений или дополнений, которые будут захватывать URL-адреса или ссылки на изображения с активной в данный момент веб-страницы в вашем браузере.

Ссылка на основную публикацию