Считать частоту слов в нескольких файлах / документах в Java

Question

Считать частоту слов в нескольких файлах / документах в Java

Я хочу посчитать частоту слов для нескольких файлов / документов в Java.

например

a1 = {aaa,aaa,aaa,bbb}
a2 = {aaa, aaa, hhh}
a3 = {aaa, hhh, bbb, bbb}

Итак, я хочу посчитать частоту слов для каждого файла:

for a1 file {aaa = 3, bbb = 1}
for a2 file {aaa = 2, hhh = 1}
for a3 file {aaa = 1, hhh = 1, bbb =2}

У меня есть метод, который читает слова из file а затем магазины <wordname, worcount> в LinkedHashMap, Тем не менее, это будет считать частоту конкретного слова для всех файлов, но я хочу посчитать частоту слова отдельно для каждого файла.

У кого-нибудь есть решение?

Затем я написал это:

Set mapset = fileToWordCount.keySet();           

for(Object filenameFromMap: mapset){
      System.out.println("FILENAME::"+filenameFromMap);
}

Но это ничего не печатает.

3

java words word-frequency

Источник

user1841865 21 ноя '12 в 12:24

2 ответа

Другие вопросы по тегам java words word-frequency

user391554 21 ноя '12 в 12:27 2012-11-21 12:27 · Answer 1 · 2012-11-21 12:27

Вы можете создать другой Map что бы сопоставить имя файла с LinkedHashMap с количеством слов. Таким образом, у вас будет что-то вроде этого:

Map<String, LinkedHashMap<String, Integer>> fileToWordCount = new HashMap<String, LinkedHashMap<String, Integer>();

Затем для каждого файла вы должны построить свою частоту слов как обычно и добавить значения на карту выше:

fileToWordCount.put(file.getPath(), wordCountMap);

user6779797 29 янв '17 в 18:10 2017-01-29 18:10 · Answer 2 · 2017-01-29 18:10

Импорт java.io. ; импорт java.util.;

public class file1{
 public static void main(String[] args) throws Exception{
HashMap<String,Integer> words_fre = new HashMap<String,Integer>();
HashSet<String> words = new HashSet<String>();
try{  

       File folder = new File("</file path>");
       File[] listOfFiles = folder.listFiles();

       BufferedReader bufferedReader=null;
       FileInputStream inputfilename=null;
       BufferedWriter out= new BufferedWriter(new OutputStreamWriter(new FileOutputStream("outfilename.txt",false), "UTF-8"));

        for(File file : listOfFiles){           
           inputfilename= new FileInputStream(file); 
           /*System.out.println(file); */    
           bufferedReader= new BufferedReader(new InputStreamReader(inputfilename, "UTF-8"));


             String s;
             while((s = bufferedReader.readLine()) != null){
               /*System.out.println(line);*/
                  s = s.replaceAll("\\<.*?>"," ");
                    if(s.contains("॥") || s.contains(":")|| s.contains("।")|| 
                     s.contains(",")|| s.contains("!")|| s.contains("?")){
                         s=s.replace("॥"," ");
                         s=s.replace(":"," ");
                         s=s.replace("।"," ");
                         s=s.replace(","," ");
                         s=s.replace("!"," ");
                         s=s.replace("?"," ");
                       }                                                   
                  StringTokenizer st = new StringTokenizer(s," ");
                  while (st.hasMoreTokens()) {         
                  /*out.write(st.nextToken()+"\n");*/
                  String str=(st.nextToken()).toString();
                  words.add(str);
                }
                for(String str : words){
                  if(words_fre.containsKey(str)){  
                           int a = words_fre.get(str);  
                           words_fre.put(str,a+1);             
                  }else{  
                      words_fre.put(str,1);/*uwords++;//unique words count */  
                  }                      
                }
                words.clear(); 

                  /*out.write("\n");
                  out.close();*/

             }             
             Object[] key =   words_fre.keySet().toArray();   
                  Arrays.sort(key);  
                  for (int i = 0; i < key.length; i++) {  
                    //System.out.println(key[i]+"= "+words_fre.get(key[i]));
                 out.write(key[i]+" : "+words_fre.get(key[i]) +"\n");
               }


         }

            out.close();
            bufferedReader.close();

      }catch(FileNotFoundException ex){
         System.out.println("Error in reading line");
        }catch(IOException ex){
            /*System.out.println("Error in reading line"+fileReader );*/
            ex.printStackTrace();
           }

}}