Вычислительные тренды

Допустим, я собираю твиты из твиттера на основе различных критериев и храню их в локальной базе данных mysql. Я хочу, чтобы у меня были такие темы, как твиттер, которые могут быть длиной от 1 до 3 слов.

Можно ли написать скрипт, чтобы сделать что-то вроде этого PHP и MySQL?

Я нашел ответ о том, как вычислить, какие термины являются "горячими", как только вы сможете получить количество терминов, но я застрял в первой части. Как хранить данные в базе данных, как подсчитать частоту терминов в базе данных длиной 1-3 слова?

4 ответа

Тенденция получения темы от меня:
1. получить твиты
2. разбить каждый твит по пробелам на массив n-грамм (до 3 грамм, если вы хотите 3 слова)
3. отфильтруйте каждый массив из URL, @username, общих слов и ненужных символов
4. Посчитайте все уникальные ключевые слова / частоты фраз
5. отключить какое-нибудь ненужное слово / фразу

да, вы можете сделать это на php & mysql;)

Как насчет того, чтобы сначала разложить свои твиты по токенам из одного слова и рассчитать для каждого слова его количество вхождений? Получив их, вы можете разложить их по всем двум жетонам, рассчитать количество вхождений и, наконец, сделать то же самое со всеми тремя жетонами.

Вы также можете добавить какой-то словарь слов, которые вы не хотите считать

То, что вам нужно, это либо

  1. классификация документов, или..
  2. автоматическая пометка

Вероятно, второй. И только тогда вы сможете просчитать их популярность во времени.

Или сделайте противоположное Доминику и сохраните набор фраз, которые вы хотите сопоставить, пробелы и все. Запишите их как строки регулярных выражений. Для каждой строки в базе данных (файл, таблица sql, что угодно), обработайте регулярное выражение, найдите число.

Это зависит от того, каким путем вы хотите сделать это тривиально: все - то, что является общим, тем самым находя то, что действительно имеет тенденцию, или задайте поиск фразы. В одном случае вы найдете много чего, что может вас не заинтересовать, и вам понадобится обширный блок-лист, а в другом - огромный белый список.

Чтобы выйти за рамки этого, вам нужны средства обработки естественного языка, чтобы определить значение сказанного.

Другие вопросы по тегам