利用Twitter数据进行语言分类与推荐引擎构建
1. 从数据库提取推文
可以通过命令行从数据库中提取推文,示例代码如下:
sqlTweets <- queryDatabase "tweets.sql" "SELECT message, language FROM tweets" let tweets = zip (readStringColumn sqlTweets 0) (readStringColumn sqlTweets 1)2. 推文频率研究
频率函数用于统计列表中每个元素出现的次数,这里将使用频率函数创建数据库中推文、单词和语言的唯一集合。需要先安装hashmap库:
$ cabal install hashmap频率函数的实现如下:
frequency :: (Eq k, Data.Hashable.Hashable k, Integral v) => [k] -> HashMap k v frequency [] = HM.empty frequency (x:xs) = HM.insertWith (+) x 1 (frequency xs)可以使用下面的代码快速测试频率函数: