Описание тега word-frequency

Word-frequency means analysis of frequencies of different words in a given text corpus or a generalized text.
1 ответ

Сравнение значений одного хэша со многими хэшами, чтобы получить обратную частоту документов в рубине

Я пытаюсь найти частоту инверсного документа для алгоритма категоризации, и у меня возникают проблемы с его структурированием (с вложенными хэшами) и в целом сравниваю один хэш со многими хэшами. Мой тренировочный код выглядит так: def train! @data …
17 июл '14 в 17:43
1 ответ

Java-программа, чтобы найти распределительный массив слова

Я хочу найти частоту слова в каждой строке файла. Я хочу сделать это для каждого слова в файле. Я использую BufferedReader и FileReader в Java.
18 фев '11 в 15:58
0 ответов

C программа для поиска частоты слов

У меня есть программа на C, которая будет подсчитывать количество слов в каждом файле, заданном в командной строке. Теперь мне нужно подсчитать, сколько раз появляется каждое слово. Вот мой код: #include <stdio.h> #include <stdlib.h> #in…
27 окт '18 в 00:53
2 ответа

Считать частоту слов в нескольких файлах / документах в Java

Я хочу посчитать частоту слов для нескольких файлов / документов в Java. например a1 = {aaa,aaa,aaa,bbb} a2 = {aaa, aaa, hhh} a3 = {aaa, hhh, bbb, bbb} Итак, я хочу посчитать частоту слов для каждого файла: for a1 file {aaa = 3, bbb = 1} for a2 file…
21 ноя '12 в 12:24
0 ответов

Как объединить результаты bash sort по нескольким файлам в один файл?

У меня есть ~90GB файл. Каждая строка состоит из пар, разделенных табуляцией, таких как Something \t SomethingElse, Моя главная цель - найти частоту каждой уникальной строки в файле. Так я попробовал sort --parallel=50 bigFile | unique -c > new_s…
14 апр '18 в 09:31
2 ответа

Подсчитайте общую частоту слова в индексе SOLR

Если я ищу слово в индексе SOLR, я получаю количество документов для документов, которые содержат это слово, но если слово включается в документ несколько раз, общее число все равно равно 1 на документ. Мне нужно, чтобы каждый возвращенный документ …
29 апр '14 в 17:40
1 ответ

Как заставить Counter печатать частоту уникальных слов из каждой строки входного текстового файла в соответствующую строку выходного текстового файла?

У меня есть домашнее задание. Я должен написать функцию "WordsByLine", которая должна подсчитывать частоту уникальных слов на строку в файле и печатать частоту уникальных слов в соответствующую строку в выходном файле. Мой профессор рассказал нам, к…
1 ответ

Awk: Что не так с персонажами CJK? #Корейский язык

Даны файлы.txt с разделенными пробелами словами, такими как: But where is Esope the holly Bastard But where is 생 지 옥 이 군 지 옥 이 지 옥 지 我 是 你 的 爸 爸 ! 爸 爸 ! ! ! 你 不 會 的 ! И функция Awk: cat /pathway/to/your/file.txt | tr ' ' '\n' | sort | uniq -c | awk …
24 мар '13 в 14:40
3 ответа

Awk: Частота слов из одного текстового файла, как вывести в myFile.txt?

Даны файлы.txt с разделенными пробелами словами, такими как: But where is Esope the holly Bastard But where is И функция Awk: cat /pathway/to/your/file.txt | tr ' ' '\n' | sort | uniq -c | awk '{print $2"@"$1}' Я получаю следующий вывод в моей консо…
3 ответа

Как преобразовать разреженную матрицу в плотную форму, используя python

У меня есть следующая матрица, которую я считаю редкой. Я пытался преобразовать в плотный с использованием формата x.dense, но он никогда не работал. Любые предложения относительно того, как это сделать?, спасибо. mx=[[(0, 2), (1, 1), (2, 1), (3, 1)…
03 авг '13 в 16:02
1 ответ

Определение количества вхождений каждого слова в массиве ячеек

У меня огромный вектор слов, и я хочу вектор только с уникальными словами и частотой для каждого слова. Я уже пробовала hist а также histc но они для числового значения. Я знаю функцию tabulate но это дает некоторые слова "(например, это превращаетс…
15 дек '14 в 16:06
2 ответа

Термин частотной матрицы

У меня есть такая строка: м<- "abcdabcdbcadacbddabcc..." Я хотел бы создать такую ​​матрицу: Как я могу сделать это в r?
1 ответ

Сравнение данных частоты и данных zipf / rank

Несколько раз за эти годы я хотел работать с частотными списками (символ, слово, n-грамм и т. Д.) Различного качества, но никогда не думал, как использовать их вместе. В то время, когда я интуитивно понимал, что списки имеют только ранг и никакие др…
1 ответ

Счетчик частоты слов - Java

import java.io.EOFException; public interface ICharacterReader { char GetNextChar() throws EOFException; void Dispose(); } import java.io.EOFException; import java.util.Random; public class SimpleCharacterReader implements ICharacterReader { private…
22 окт '15 в 11:35
3 ответа

Частота слова на документ в R

У меня есть следующий пример фрейма данных comments date 1 i want to hear that 2010-11-01 2 lets get started 2008-03-25 3 i want to get started 2007-03-14 Я хочу получить частоту слов во всех документах, а также сохранить номер документа (1, 2 или 3…
06 сен '15 в 12:04
4 ответа

Java - частота слов

Я создал программу на Java в Eclipse. Программа считает частоту каждого слова. Например, если пользователь введет "Я пошел в магазин", программа выдаст вывод "1 1 1 2", который представляет собой 1 слово длины 1 ("I") 1 слово длины 2 ("до") 1 слово …
09 июл '15 в 14:42
1 ответ

Распределение частот в списке слов / выражений - повышение производительности

У меня есть еще одна проблема Python, создание распределения частоты из текста, соответствующего заранее заданному списку слов. Фактически, я работаю с более чем 100 000 текстовых файлов (каждый из которых содержит около 15 000 слов), которые я хочу…
1 ответ

C - отсортированный связанный список со словами и частотами

У меня есть некоторые проблемы при завершении моего кода для курса программирования (я абсолютный новичок в Си). Цель состоит в том, чтобы прочитать слова из стандартного ввода (runfile Образец вывода Здесь, в стеке, я нашел фрагменты кодов, которые…
10 дек '17 в 02:26
3 ответа

Найти повторения в парах, распределенных в 2 столбцах data.frame

Допустим, нужно найти частоты для каждой пары: Например. Mark -Maria появляется три раза, а остальные один раз Name1 Name2 Mark Maria John Xesca Steve Rose Mark Maria John John Mark Maria John Xesca Какой лучший способ выполнить это? Примите во вним…
13 дек '18 в 15:45
1 ответ

Как оптимизировать поиск 10 наиболее часто встречающихся слов внутри объекта данных json?

Я ищу способы сделать код более эффективным (время выполнения и сложность памяти). Должен ли я использовать что-то вроде Max-Heap? Не плохая производительность из-за конкатенации строк или сортировки словаря не на месте или что-то еще?Редактировать:…