科技改變生活 · 科技引領(lǐng)未來
這是一篇來自小密圈同學的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網(wǎng)站上的房源情況進行探索分析,非常有意思.探索的
這是一篇來自小密圈同學的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網(wǎng)站上的房源情況進行探索分析,非常有意思.
探索的問題
數(shù)據(jù)說明
1.數(shù)據(jù)預覽
1).看一下整個數(shù)據(jù)集的情況
2).刪掉一些無用的列
df_sz_ziroom = df_sz_ziroom.drop('Unnamed: 0', axis=1) # 刪掉無用的列df_sz_ziroom.head(5) # 預覽前五條數(shù)據(jù)
2.數(shù)據(jù)清洗
除了 house_room 字段外,剩下的字段都需要清洗,為了便于分析還需要新增字段,工作量有點大,挺好,又可以練手。
1).house_area 字段
有 "15.2" 和 "約9.5" 兩種格式,需要轉(zhuǎn)換成純數(shù)字格式
0 15.5 1 24.0 2 15.0 3 6.3 4 7.8 Name: house_area, dtype: float64
2). house_price 字段
目前格式為 “¥1490 (每月)”,要把其修改為純數(shù)字格式
0 1660 1 2230 2 1830 3 1860 4 1930 Name: house_price, dtype: int64
3).house_name 字段
目前的格式類似為 “樺潤馨居4居室-南臥”,需要把小區(qū)名字提取出來,如 “樺潤馨居”
0 龍園山莊 1 塘朗城廣場東區(qū) 2 龍園山莊 3 塘朗城廣場東區(qū) 4 桃源村一期 Name: house_name, dtype: object
4). house_located 字段
目前格式為 “[龍華區(qū)龍華中心] 4號線(龍華線)龍華” 包含所在的區(qū)和地鐵兩項信息,現(xiàn)需要把這兩項信息提取并設(shè)置為兩個字段
4.1).提取地鐵信息
0 3號線 1 5號線 2 3號線 3 5號線 4 7號線 Name: subway_info, dtype: object
4.2).提取所在的區(qū)的信息
0 羅湖區(qū) 1 南山區(qū) 2 羅湖區(qū) 3 南山區(qū) 4 南山區(qū) Name: house_located, dtype: object
經(jīng)過上面的步驟,看一下清洗完的數(shù)據(jù)集
3.數(shù)據(jù)可視乎分析:單維度
1). 房租分布情況
df_sz_ziroom['house_price'].describe()
count 899.000000 mean 2068.787542 std 465.815828 min 1130.000000 25% 1760.000000 50% 1930.000000 75% 2290.000000 max 4360.000000 Name: house_price, dtype: float64
最高房租和最低房租的是什么房子
df_sz_ziroom[df_sz_ziroom['house_price'] == 1130]
df_sz_ziroom[df_sz_ziroom['house_price'] == 4360]
大部分的房價集中在 1625 到 2250 元每月,其中 1750 到 2000 元每月的房源最多。超過 3500 元每月的房源很少。因為本次分析的都是合租房源,看來深圳自如的房租還是比較貴。
2).面積分布情況
|
count 899.000000 mean 11.462803 std 3.322627 min 5.360000 25% 9.200000 50% 11.100000 75% 13.300000 max 30.900000 Name: house_area, dtype: float64
絕大多數(shù)房間的面積集中在 6.3 到 12.7 平米之間,其中 10 到 12.7之間的房源最多。超過 20平米的房源很少,租房形式真嚴峻。
3).區(qū)域房源分布情況
羅湖區(qū)的房源最多,其次是南山區(qū),最少的是福田區(qū)。在福田上班的話不妨去羅湖租房,房源比較多.
4).地鐵房源分布
3號線附近的房源最多,由于3號線終點和起點分別在羅湖和龍崗,在羅湖上班的話,沿著3號線租房最好,不僅房源多,而且龍崗的房租普遍比較便宜,上班地鐵直達。5號線附近房源數(shù)量排在第二位,由于5號線橫跨羅湖區(qū)、南山區(qū)、寶安區(qū),中途換成站非常多,不論在羅湖還是南山還是寶安區(qū),沿著5號線附近租房也是不錯的選擇。
4.數(shù)據(jù)可視化分析:雙維度分析
1).考慮面積和房租
2).區(qū)域和房租
南山區(qū)的房租貴,75%的房租高于2000元每月,其箱體也最長。南山區(qū)積聚了大量互聯(lián)網(wǎng)企業(yè),薪資水平在深圳相對來說也非常高。福田區(qū)的房租緊隨南山區(qū)之后,龍崗區(qū)和羅湖區(qū)的房租最低。如果在南山區(qū)工作,去寶安租房是個不錯的選擇,地鐵方便,房租也比南山便宜。在福田區(qū)工作,去羅湖和龍華租房是個不錯的選擇,地鐵方便,房租也比福田便宜很多。
5.數(shù)據(jù)可視乎分析:多維度分析
1).我們考慮面積,房租,區(qū)域,地鐵沿線三者的關(guān)系
結(jié)論:
高龍一
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務合作 免責聲明 - html - txt - xml