Сканирование с использованием фильтра с использованием оболочки HBase

Question

Сканирование с использованием фильтра с использованием оболочки HBase

Кто-нибудь знает, как сканировать записи на основе какого-то фильтра сканирования, то есть:

column:something = "somevalue"

Как то так, но из оболочки HBase?

44

nosql hbase

Источник

user190623 31 авг '11 в 11:10

7 ответов

Решение

scan 'test', {COLUMNS => ['F'],FILTER => \ 
"(SingleColumnValueFilter('F','u',=,'regexstring:http:.*pdf',true,true)) AND \
(SingleColumnValueFilter('F','s',=,'binary:2',true,true))"}

Более подробную информацию можно найти здесь. Обратите внимание, что несколько примеров находятся в Filter Language.docx файл.

29

Источник

user469758 28 июн '12 в 02:13

Используйте параметр ФИЛЬТР scan, как показано в справке по использованию:

hbase(main):002:0> scan

ERROR: wrong number of arguments (0 for 1)

Here is some help for this command:
Scan a table; pass table name and optionally a dictionary of scanner
specifications.  Scanner specifications may include one or more of:
TIMERANGE, FILTER, LIMIT, STARTROW, STOPROW, TIMESTAMP, MAXLENGTH,
or COLUMNS. If no columns are specified, all columns will be scanned.
To scan all members of a column family, leave the qualifier empty as in
'col_family:'.

Some examples:

  hbase> scan '.META.'
  hbase> scan '.META.', {COLUMNS => 'info:regioninfo'}
  hbase> scan 't1', {COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'}
  hbase> scan 't1', {FILTER => org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1, 0)}
  hbase> scan 't1', {COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904]}

For experts, there is an additional option -- CACHE_BLOCKS -- which
switches block caching for the scanner on (true) or off (false).  By
default it is enabled.  Examples:

  hbase> scan 't1', {COLUMNS => ['c1', 'c2'], CACHE_BLOCKS => false}

8

Источник

user413397 31 авг '11 в 21:03

Scan scan = new Scan();
FilterList list = new FilterList(FilterList.Operator.MUST_PASS_ALL);

//in case you have multiple SingleColumnValueFilters, 
you would want the row to pass MUST_PASS_ALL conditions
or MUST_PASS_ONE condition.

SingleColumnValueFilter filter_by_name = new SingleColumnValueFilter( 
                   Bytes.toBytes("SOME COLUMN FAMILY" ),
                   Bytes.toBytes("SOME COLUMN NAME"),
                   CompareOp.EQUAL,
                   Bytes.toBytes("SOME VALUE"));

filter_by_name.setFilterIfMissing(true);  
//if you don't want the rows that have the column missing.
Remember that adding the column filter doesn't mean that the 
rows that don't have the column will not be put into the 
result set. They will be, if you don't include this statement. 

list.addFilter(filter_by_name);


scan.setFilter(list);

5

Источник

user3304773 18 фев '14 в 07:03

Одним из фильтров является Valuefilter, который можно использовать для фильтрации всех значений столбцов.

hbase(main):067:0> scan 'dummytable', {FILTER => "ValueFilter(=,'binary:2016-01-26')"}

двоичный является одним из компараторов, используемых в фильтре. Вы можете использовать различные компараторы в фильтре в зависимости от того, что вы хотите сделать.

Вы можете ссылаться на следующий URL: http:// http://www.hadooptpoint.com/filters-in-hbase-shell/ Здесь приведены хорошие примеры использования различных фильтров в HBase Shell.

5

Источник

user2796256 12 фев '16 в 21:17

Добавьте setFilterIfMissing(true) в конце запроса

hbase(main):009:0> import org.apache.hadoop.hbase.util.Bytes;
 import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;
 import org.apache.hadoop.hbase.filter.BinaryComparator;
 import org.apache.hadoop.hbase.filter.CompareFilter;
 import org.apache.hadoop.hbase.filter. Filter;

 scan 'test:test8', { FILTER => SingleColumnValueFilter.new(Bytes.toBytes('account'),
      Bytes.toBytes('ACCOUNT_NUMBER'), CompareFilter::CompareOp.valueOf('EQUAL'),
      BinaryComparator.new(Bytes.toBytes('0003000587'))).setFilterIfMissing(true)}

0

Источник

user2614719 15 окт '18 в 06:58

Вы можете использовать команду ниже вhbaseоболочка для фильтрации данных столбца:

      scan 'tableName',{ COLUMNS => 'columnName', LIMIT => 1, FILTER => "ValueFilter( =, 'regexstring:customer' )" }

0

Источник

Hema Bhat 09 авг '23 в 05:42

Другие вопросы по тегам nosql hbase

user24184 16 сен '11 в 16:07 2011-09-16 16:07 · Accepted Answer · 2011-09-16 16:07

Попробуй это. Это некрасиво, но у меня это работает.

import org.apache.hadoop.hbase.filter.CompareFilter
import org.apache.hadoop.hbase.filter.SingleColumnValueFilter
import org.apache.hadoop.hbase.filter.SubstringComparator
import org.apache.hadoop.hbase.util.Bytes
scan 't1', { COLUMNS => 'family:qualifier', FILTER =>
    SingleColumnValueFilter.new
        (Bytes.toBytes('family'),
         Bytes.toBytes('qualifier'),
         CompareFilter::CompareOp.valueOf('EQUAL'),
         SubstringComparator.new('somevalue'))
}

Оболочка HBase будет включать все, что у вас есть в ~/.irbrc, так что вы можете поместить что-то вроде этого (я не специалист по Ruby, улучшения приветствуются):

# imports like above
def scan_substr(table,family,qualifier,substr,*cols)
    scan table, { COLUMNS => cols, FILTER =>
        SingleColumnValueFilter.new
            (Bytes.toBytes(family), Bytes.toBytes(qualifier),
             CompareFilter::CompareOp.valueOf('EQUAL'),
             SubstringComparator.new(substr)) }
end

и тогда вы можете просто сказать в оболочке:

scan_substr 't1', 'family', 'qualifier', 'somevalue', 'family:qualifier'