Как извлечь URL-адреса из HTML-содержимого с помощью ruby regexp?
Давайте перейдем непосредственно к примеру, так как это нелегко объяснить:
<li id="l_f6a1ok3n4d4p" class="online"> <div class="link"> <a href="javascript:show('f6a1ok3n4d4p','random%20strings%204',%20'site2.com');%20" onclick="visited('f6a1ok3n4d4p');" style="float:left;">random strings - 4</a> <a style="float:left; display:block; padding-top:3px;" href="http://www.webtrackerplus.com/?page=flowplayerregister&a_aid=&a_bid=&chan=flow"><img border="0" src="/resources/img/fdf.gif"></a> <!-- a class="none" href="#">random strings - 4 site2.com - # - </a --> </div> <div class="params"> <span>Submited: </span>7 June 2015 | <span>Host: </span>site2.com </div> <div class="report"> <a title="" href="javascript:report(3191274,%203,%202164691,%201)" class="alert"></a> <a title="" href="javascript:report(3191274,%203,%202164691,%200)" class="work"></a> <b>100% said work</b> </div> <div class="clear"></div> </li> <li id="l_zsgn82c4b96d" class="online"> <div class="link"> <a href="javascript:show('zsgn82c4b96d','random%20strings%204',%20'site1.com');%20" onclick="visited('zsgn82c4b96d');" style
В приведенном выше содержании я хочу извлечь из javascript:show('f6a1ok3n4d4p','random%20strings%204',%20'site2.com')
Строка "f6a1ok3n4d4p" и "site2.com" затем сделать его как
и то же самое для javascript:show('zsgn82c4b96d','random%20strings%204',%20'site1.com'), чтобы стать
Мне нужно, чтобы это было сделано с ruby regex
1 ответ
Это должно дать вам некоторое представление о том, как это сделать. https://regex101.com/r/wD4oT8/2
javascript:show\(\'(.*?)'.*?\'([^\']*)\'\)
захватит первый аргумент как $1, последняя часть внутри '
как $2, так что вы получите то, что вы хотите, подставив $2/$1
,
Это часть регулярного выражения, и, конечно, вы можете настроить регулярное выражение так, как считаете нужным, например, включить использование "
(javascript:show\((?:\'|\")(.*?)(?:\'|\").*?\'([^\'\"]*)(?:\'|\")\)
или разрешить только с 3 аргументами.
/yourregex/.match(yourstring)
извлечет необходимую вам информацию.