Как добавить содержимое массива в электронную таблицу с помощью Ruby
Я зачищаю веб-страницу по адресу http://h10010.www1.hp.com/wwpc/ie/en/ho/WF06b/321957-321957-3329742-89318-89318-5186820-5231694.html?dnr=1
Сначала я создаю свой массив желаемых ключевых слов (подсказок), а затем выполняю запрос Xpath, подающий результаты в CSV. Все работает гладко, но электронная таблица требует лучшего форматирования, чтобы конечные пользователи могли копировать и вставлять
Есть ли способ, которым я могу добиться желаемого вида с помощью CSV или Axslx?
Мой код ниже:
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'CSV'
require 'axlsx'
#Set encoding options to remove nasty Trademark symbols
encoding_options = {
:invalid => :replace, # Replace invalid byte sequences
:undef => :replace, # Replace anything not defined in ASCII
:replace => '', # Use a blank for those replacements
:universal_newline => true # Always break lines with \n
}
doc = Nokogiri::HTML(open("http://h10010.www1.hp.com/wwpc/ie/en/ho/WF06b/321957-321957-3329742-89318-89318-5186820-5231694.html?dnr=1"))
#For each break create a ;
doc.css('br').each{ |br| br.replace ';' }
clues = Array.new
clues << 'Operating system'
clues << 'Processors'
clues << 'Chipset'
clues << 'Memory type'
clues << 'Hard drive'
clues << 'Graphics'
clues << 'Ports'
clues << 'Webcam'
clues << 'Pointing device'
clues << 'Keyboard'
clues << 'Network interface'
clues << 'Chipset'
clues << 'Wireless'
clues << 'Power supply type'
clues << 'Energy efficiency'
clues << 'Weight'
clues << 'Minimum dimensions (W x D x H)'
clues << 'Warranty'
clues << 'Software included'
clues << 'Product color'
CSV.open("output.csv", "wb") do |csv|
#1. Output the Clues header
#2. Scrape the output/force encoding to remove special characters
csv << clues
csv << clues.map{|clue| doc.at("//td[text()='#{clue}']/following-sibling::td").text.strip.encode Encoding.find('ASCII'), encoding_options}
#end loop
end
Мой код может добавить весь массив в одну строку, но как мне сказать, что элемент foreach в массиве добавляет его в новую строку? Я пытался \n, но это не сработало.
Выход я получаю
Мой желаемый выход
3 ответа
Это randym, автор axlsx. Я думаю, что вы хотите сделать это:
clues = Array.new
clues << 'Operating system'
clues << 'Processors'
clues << 'Chipset'
clues << 'Memory type'
Axlsx::Package.new do |p|
p.workbook do |wb|
wb.add_worksheet do |sheet|
clues.each { |clue| sheet.add_row [clue] }
end
end
p.serialize 'My_Spreadsheet.xlsx'
end
Что касается вашего второго вопроса:
selector = "//td[text()='%s']/following-sibling::td"
data = clues.map do |clue|
xpath = selector % clue
[clue, doc.at(xpath).text.strip]
end
Тогда используйте
data.each { |datum| sheet.add_row datum }
когда вы строите рабочий лист
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'axlsx'
doc = Nokogiri::HTML(open("http://h10010.www1.hp.com/wwpc/ie/en/ho/WF06b/321957-321957-3329742-89318-89318-5186820-5231694.html?dnr=1"))
#For each break create a ;
doc.css('br').each{ |br| br.replace ';' }
clues = Array.new
clues << 'Operating system'
clues << 'Processors'
clues << 'Chipset'
clues << 'Memory type'
clues << 'Hard drive'
clues << 'Graphics'
clues << 'Ports'
clues << 'Webcam'
clues << 'Pointing device'
clues << 'Keyboard'
clues << 'Network interface'
clues << 'Chipset'
clues << 'Wireless'
clues << 'Power supply type'
clues << 'Energy efficiency'
clues << 'Weight'
clues << 'Minimum dimensions (W x D x H)'
clues << 'Warranty'
clues << 'Software included'
clues << 'Product color'
selector = "//td[text()='%s']/following-sibling::td"
data = clues.map do |clue|
xpath = selector % clue
[clue, doc.at(xpath).text.strip]
end
Axlsx::Package.new do |p|
p.workbook.add_worksheet do |sheet|
data.each { |datum| sheet.add_row datum }
end
p.serialize 'output.xlsx'
end
Скриншоты для вашего удовольствия.
Попробуйте что-то вроде:
CSV.open("output.csv", "wb") do |csv|
clues.each do |clue|
value = doc.at("//td[text()='#{clue}']/following-sibling::td").text.strip.encode Encoding.find('ASCII'), encoding_options
cvs << [clue, value]
end
end
Используйте каждый для перебора массива:
clues.each do |clue|
sheet.add_row [clue]
end