一、数据收集

  数据收集通过 Twitter API,搜集 US 境内全部 Twitter 数据,以 JSON 格式存储在 txt 文件中。

二、数据读取

  从 txt 文件中,以 JSON 格式去获取每条 tweet 的信息,然后存储于 csv 文件中。读取时候的编码选的是 gbk。

  代码如下:

  数据的显示效果如下:

 

 

   一共是 24 列,分别存储与时间和地点相关的信息,包括创建时间、经纬度、text 信息等。

三、数据处理

3.1 获取 tweets 总数量

  实现起来很简单,还要计算出有多少列就行。

  代码如下:

  结果类似 (715, 24),说明有 715 条记录。

3.2 获取不重复 tweets 总数量

  由于在收集的过程中可能重复提取,因此需要进行删除重复数据

  代码如下:

  显示结果如上

3.3 修改某些列的数据类型

  默认的很多列都是 object 类型,为了进行计算需要进行修改,例如时间的列修改成 datetime 类型,经纬度为 float 等。

  代码如下:

  修改之后可以提取其中的年与日信息。

3.4 获取 tweets 的来源

  主要是查询是 web 还是 iPhone、Android、Instagram 等。

  代码如下:

  会将不同来源的数量按大到小打印出来。

3.5 获取 geo-tagged tweets 数量

  获取带有地理信息的 tweets 数量。

  代码如下:

  

3.6 获取位于 US 境内并且为 ENG 的 tweets 数量

  代码如下: