Содержание
Вам может понадобиться извлечь ссылки (URL-адреса) на веб-странице для различных целей — например, для исследования в Интернете, веб-разработки, оценки безопасности или тестирования веб-страницы. В этой статье рассказывается, как извлечь ссылки из веб-страницы или HTML-документа в Windows.
Как извлечь ссылки с веб-страницы в Windows
Существует несколько способов извлечения URL-адресов на веб-странице. Давайте начнем с родного пути — с помощью раздела инструментов разработчика вашего веб-браузера.
Использование инструментов разработчика вашего веб-браузера
- Откройте Chrome для Firefox и сначала посетите веб-сайт или веб-страницу.
- Нажмите F12, чтобы открыть окно инструментов разработчика.
- Нажмите на вкладку Консоль в Инструментах разработчика.
- Очистите консольный вывод, нажав на Очистить консоль (в Chrome) или Очистить вывод веб-консоли (в Firefox) кнопка.
- Введите следующий код в командной строке:
Array.prototype.slice.call(document.querySelectorAll('a'), 0).forEach((a,i)=>console.log(`#${i+1} - ${a.innerText} -- ${a.href}`));
Это выводит упорядоченный список ссылок на этой веб-странице вместе с заголовком в окне консоли.
Если вы хотите получить только URL-адреса без серийного номера или текста заголовка, используйте эту команду:
urls = $$('a'); for (url in urls) console.log ( urls[url].href );
Скопируйте вывод в Блокнот и сохраните его.
Использование PowerShell
Запустите PowerShell и используйте следующий синтаксис командной строки:
(Invoke-WebRequest -Uri "https://www.winhelponline.com/blog").Links.Href | Sort-Object | Get-Unique | out-gridview
Это получает список ссылок на указанной веб-странице и выводит список в элемент управления представлением сетки.
Другое преимущество этой команды PowerShell состоит в том, что она сортирует записи, а также удаляет дубликаты URL-адресов из коллекции.
Элемент управления видом сетки позволяет фильтровать URL-адреса поиска по ключевым словам, а также копировать списки в буфер обмена, используя Ctrl + C
Захватить заголовок и URL
Чтобы просмотреть innerText в дополнение к соответствующим ссылкам или URL, выполните:
(Invoke-WebRequest -Uri "https://www.winhelponline.com").Links | sort-object href -Unique | Format-List innerText, href
Вы получите такой вывод:
Дублированные URL-адреса автоматически удаляются в выводе.
Вы даже можете автоматически скопировать вывод в буфер обмена, используя | clip
параметр:
(Invoke-WebRequest -Uri "https://www.winhelponline.com").Links | sort-object href -Unique | Format-List innerText, href | clip
Захватывать только изображения URL
Чтобы извлечь список URL-адресов изображений, используйте этот синтаксис:
(Invoke-WebRequest -Uri "https://www.winhelponline.com").Images | Select-Object src
Использование AddrView от Nirsoft
Инструмент AddrView от Nirsoft автоматически извлекает ссылки (включая ссылки на изображения) с заданной веб-страницы или из локального HTML-файла и выводит их в виде таблицы.
Вы даже можете отсортировать результаты по Тип и скопировать только URL изображения в буфер обмена или сохранить в файл.
Если вы хотите получить только ссылки на изображения, вы можете использовать встроенный в Firefox Просмотр информации о странице вариант. В Firefox щелкните правой кнопкой мыши текущую веб-страницу и выберите Просмотр информации о странице → Медиа. На вкладке «Медиа» перечислены все URL-адреса изображений, включая data:image
ссылки. Вы можете скопировать выбранные элементы или все элементы в буфер обмена или сохранить записи в файл.
Помимо описанных выше методов, для браузеров, таких как Chrome или Firefox, существует множество расширений или дополнений, которые будут захватывать URL-адреса или ссылки на изображения с активной в данный момент веб-страницы в вашем браузере.