單個數據處理:去重、個股匹配、風險匹配
if __name__ == __main__: craw_file = {website: 環球外匯, url: 快訊 - 環球外匯, date: 2018-04-25, time: 15:12:30, content: $中國人壽(SH601628)$ :預計2018年一季度凈利潤增加約67.64億元到79.94億元, update_time: 2018-04-25 15:20:49, id: 11, tags: None} CSL =CacuSimil() craw_file = CSL.run() if craw_file: saved_files = CSL.conn_db(craw_file) # print(len(saved_files)) contents, corpus, main_id, counts = CSL.get_idcorpus(saved_files) dictionary, tfidf_vectors = CSL.gen_Model(corpus) result = CSL.get_similar(craw_file, dictionary, tfidf_vectors) new_file = CSL.insert_or_counts(result, craw_file, contents, main_id, counts) print(new_file)
返回對比相似度後的結果:
$中國人壽(SH601628)$ :預計2018年一季度凈利潤增加約67.64億元到79.94億元
<pymysql.connections.Connection object at 0x1a1783f208>(1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near at line 1")
與之重複的數據id為 6593 tfidf分值為 0.908613 lcs分值為 1.0None
new_file = {website: 環球外匯, url: 快訊 - 環球外匯, date: 2018-04-25, time: 15:12:30, content: $中國人壽(SH601628)$ :預計2018年一季度凈利潤增加約67.64億元到79.94億元,同比增長110%到130%。, update_time: 2018-04-25 15:20:49, id: 11, tags: None} if new_file: CS = ConnShare() share_file = CS.connect_share(new_file, CS.del_one, CS.del_two, CS.error_keyword_dict, CS.right_keyword_dict) if share_file: print(share_file) #[{id: 11, stoc_id: [601628], content: $中國人壽(SH601628)$ :預計2018年一季度凈利潤增加約67.64億元到79.94億元,同比增長110%到130%。}] CS.Update(share_file)
返回如下:
{id: 11, stoc_id: [601628], content: $中國人壽(SH601628)$ :預計2018年一季度凈利潤增加約67.64億元到79.94億元,同比增長110%到130%。}
share_file = {id: 33, stoc_id: [600815], content: *ST廈工(600815)4月22日晚公告,公司董事長許振明由於達到退休年齡,申請辭職。公司於4月21日召開董事會議,同意選舉張振斌為董事長(法定代表人),選舉王功尤為公司副董事長。此外,王功尤因工作變動,申請辭去公司總裁職務,公司董事會同意聘任陳天生為總裁,聘任郭松為公司常務副總裁。} if share_file: CR = ConnRisk() risk_dict = CR.get_riskdict(CR.csv_risk) risk_file = CR.get_risklabel(share_file, risk_dict) print(risk_file) CR.run(risk_file)
風險類型數量為: 6 風險類型為: dict_keys([強調事項段的無保留意見, 無法表示意見, 董事長請辭, 董事長違紀, 獨立董事請辭, 財務總監辭退])
{id: 33, risk: [董事長請辭, 獨立董事請辭], content: *ST廈工(600815)4月22日晚公告,公司董事長許振明由於達到退休年齡,申請辭職。公司於4月21日召開董事會議,同意選舉張振斌為董事長(法定代表人),選舉王功尤為公司副董事長。此外,王功尤因工作變動,申請辭去公司總裁職務,公司董事會同意聘任陳天生為總裁,聘任郭松為公司常務副總裁。}
推薦閱讀:
※給妹子講python-S02E13Series與DataFrame的數值運算
※R語言數據合併
※實踐—簡單數據處理和分析
※Python數據科學(五)- 數據處理和數據採集
※審美也能量化?看彈幕網站鼻祖如何用數據優化頁面