Разбейте ключевое слово в URL, затем проверьте, существуют ли ключевые слова на странице контента.

1) Может ли MATLAB разбить ключевые слова в URL? например: http://en.wikipedia.org/wiki/Hostname, вывод:wikipedia wiki Имя хоста

2) После вывода ключевых слов в URL, проверьте, существуют ли ключевые слова в контенте страницы, как и в приведенном ниже контенте, если да, верните 1, в противном случае верните 0

Содержание:

Имя хоста Из Википедии, свободной энциклопедии Перейти к: навигация, поиск В компьютерных сетях имя хоста (архаично имя узла [1]) - это метка, которая назначается устройству, подключенному к компьютерной сети, и используется для идентификации устройства в различных формы электронного общения, такие как World Wide Web, электронная почта или Usenet. Имена хостов могут быть простыми именами, состоящими из одного слова или фразы, или они могут быть структурированными. В Интернете к именам хостов может добавляться имя домена системы имен доменов (DNS), отделенное от метки, специфичной для хоста, точкой ("точка"). В последней форме имя хоста также называется доменным именем.

Example of output:
wikipedia [1]
wiki      [0]
Hostname  [1]

1 ответ

Вот возможное решение:

str = 'http://en.wikipedia.org/wiki/Hostname'
Paragraph = 'Hostname From Wikipedia, the free encyclopedia Jump to: navigation, search In computer networking, a hostname (archaically nodename[1]) blah blah'
SplitStrings = regexp(str,'[/.]','split')
c = containers.Map;
for it = SplitStrings
c( it{1} ) = strfind(Paragraph, it{1} )
end

Вопросы:

  • Вам нужно будет найти способ включения релевантных и нерелевантных частей URL. В настоящее время требуется http а также en как действительные части строки.

  • Вам нужно будет узнать, хотите ли вы, чтобы дело было соблюдено или нет.

  • Это алгоритмически неэффективно, поскольку оно выполняет столько же проходов через данные, сколько и ключевые слова. Я буду думать об улучшении этого.

Другие вопросы по тегам