WIPO的專利分析專家在github上開辟了WIPO Patent Analytics專欄(https://wipo-analytics.github.io/),專門分享專利分析的相關技術,其中有一本關于專利分析開源工具的書The WIPO Manual on Open Source Patent Analytics,這本書我們公眾號在幾年前的文章中介紹過(相關鏈接:)。不過今年,WIPO的專利分析專家對其內容進行了更新,出了第二版。今天這篇文章就來介紹一下這本書中對專利分析流程的描述。
很多人有著這樣的誤區(qū):專利分析和其他數據分析一樣,無外乎就是三個步驟:在數據庫中檢索、下載數據、向讀者展示數據。但實際上專利分析的流程可不僅僅是包括上面三個步驟。下圖是WIPO制作的專利分析流程圖。
圖片來源:The WIPO Manual on Open Source Patent Analytics (2nd edition) Chapter 3 The Patent Analytics Workflow | The WIPO Manual on Open Source Patent Analytics (2nd edition) (wipo-analytics.github.io)
步驟1:范圍檢索(Scoping Search)
范圍檢索的目的在于對分析的技術主題有一個基本的把握。以無人機技術為例,為了實施范圍檢索,首先僅以關鍵詞“無人機(drone or drones)”進行檢索。
通過范圍檢索,檢索人員可以對檢索結果有一個初步的了解,并且從檢索到的文獻中獲取一些能夠用于擴展檢索的關鍵詞。例如,對于無人機技術,除了使用上述的“無人機(drone or drones)”這個關鍵詞以外,有些專利文獻中可能還會將其描述為“無人駕駛飛行器(Unmanned Aerial Vehicle)”以及其他的一些術語。
此外,在科學文獻和專利文獻中,還會描述“無人機”的很多用途,如果需要研究某種特定用途的無人機,例如農業(yè)植保無人機,我們可以在檢索中對其用途進行限定,或者是將某些用途排除在目標文獻之外。
步驟2:探索性數據可視化(Exploratory data visualization)
數據可視化往往被認為是數據分析流程中的最后環(huán)節(jié)。但其實,在專利分析初期,數據可視化可以幫助我們理解數據和選擇后續(xù)的分析方向。例如,我們可以利用數據可視化來發(fā)現專利申請的趨勢,也可以嘗試利用文本聚類的可視化來識別專利文獻中的技術分布。
步驟3:確定檢索式(Defined Search)
檢索是一個不斷迭代的過程?;谖墨I量的多少和該技術主題的復雜程度,可能需要進行很多次實驗性的檢索。
在探索檢索的過程中,最好是將探索檢索的過程全都記錄下來,以便在以后還能記得當時為什么要這樣檢索,也便于向其他人解釋為什么要構建這樣的檢索式。
經過不斷迭代的探索性檢索之后,就能夠得到一個確定的檢索式,通過這個檢索式進行檢索,以獲得數據。
步驟4:核心數據集(Core Dataset)
當使用最終確定的檢索式在數據中進行檢索后,下載下來的數據集,就是核心數據集,也就是我們要進行數據分析的基礎。但這里要記住的是,不要直接對這個數據集進行編輯,也就是說,要保留一個原始版本的數據集合,以方便后續(xù)出問題的時候可以核對和查找。
步驟5:核心數據集的數據清理(Cleaning the Core Dataset)
專利分析的數據往往是存儲為以下三種格式:
逗號分隔(.csv)或制表符分隔(.tsv)的文件,其中分隔符用于區(qū)分列
Excel格式
JSON格式(javascript對象表示法語言)
在大多數情況下,這些表中包含具有串聯信息的列。例如在專利申請人的列中,每一個單元格中可能包含多個人名,如“Google; Alphabet; Smith, Amy”。
在專利分析的實踐中,包含這種串聯信息的數據列通常包括:國際專利分類、申請人、發(fā)明人。此外,其他的一些數據列,比如日期,也有可能包含串聯的信息。對于這種包含串聯信息的單元格,應當把數據信息拆分到不同的單元格中,以便于后續(xù)進行數據分析。
專利數據也可以有其他的數據格式,例如XML和JSON。不過,這種數據格式并不是設計來給我們人工讀取的,而是給計算機讀取的。
步驟5.1 拆分數據(Splitting Data)
拆分數據就是將同一個單元格中包含的串聯信息拆分到不同的單元格中,例如原始下載下來的數據表中的申請人列,每一個單元格中有好幾個人名,就需要我們將不同的人名拆分到不同的單元格中,可以使用Excel中的“分列”功能。
在開源數據處理工具Open Refine中也可以輕松實現分列功能。Open Refine是一個網頁版的程序,該網站的用戶還為R和Python編寫了擴展包。
步驟5.2 清理數據(Cleaning Data)
清理數據包括兩個方面的內容:
第一種情形,清理噪音。例如,在下載的專利數據表中,通常會有申請人列,單元格中會包含多個申請人的姓名,例如,該單元格可能會包含如下信息:
Google Google Inc. Google Inc., Google Inc
這種情況下,雖然申請人都是Google這一家公司,但是由于申請人名稱的變化,例如有無Inc和后面的點,都會被計算機認為是不同的申請人。此時需要我們人工將這種噪音清理。
第二種情形,區(qū)分相同名稱的不同實體。當我們處理發(fā)明人名稱時,往往會發(fā)現一些相同名稱的發(fā)明人,例如Wang Wei, Smith John。如果不加區(qū)分地將這些名字都認為是一個人,這將導致發(fā)明人的統(tǒng)計結果出現錯誤,因此,需要結合其他的信息,例如申請人、共同發(fā)明人、或者發(fā)明所涉及的技術主題信息,來確定這些叫同一名字的人是一個人還是多個人。處理這類問題比較好用的開源工具是Open Refine。
其他類型的數據清理還包括將日期轉換為可用的格式,例如從2021-12-25中提取年份,或者從IPC分類號中提取大類或者小類,例如從C12Q1/68分類號中提取C12Q,以便于對分類號所代表的技術分布進行數據統(tǒng)計。
此外,專利分析將越來越多地使用機器學習模型從文本中提取信息,例如概念、化學名稱、物種名稱、國家或地名以及其他術語。這使得我們將專利數據與其他類型數據鏈接起來變成可能,從而獲得更豐富的信息。
步驟6:可視化及報告(Visualize & Report)
專利分析的最后一步即是數據可視化和報告撰寫,以使得專利分析的成果能夠適合于我們的目標受眾。
實現數據可視化的方式有很多種,在The WIPO Manual on Open Source Patent Analytics (2nd edition)一書中主要介紹了以下幾種:
使用Tableau Public制作數據儀表板(Dashboards)
使用Gephi制作網絡數據可視化(Networks)
使用plotly實現數據可視化
使用infographics實現數據可視化
步驟7:小結
專利分析是一個不斷迭代的過程,它包含許多明確具體的步驟,包括最初的范圍檢索(scoping searches)和探索性數據分析(exploratory data analysis)、確定的核心數據集(core dataset)、將核心數據集拆分為不同的子表格、清理數據、將專利數據和其他數據來源進行合并,以及最終的數據可視化和報告撰寫。
中企檢測認證網提供iso體系認證機構查詢,檢驗檢測、認證認可、資質資格、計量校準、知識產權貫標一站式行業(yè)企業(yè)服務平臺。中企檢測認證網為檢測行業(yè)相關檢驗、檢測、認證、計量、校準機構,儀器設備、耗材、配件、試劑、標準品供應商,法規(guī)咨詢、標準服務、實驗室軟件提供商提供包括品牌宣傳、產品展示、技術交流、新品推薦等全方位推廣服務。這個問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認證網在線客服13550333441。為您提供全面檢測、認證、商標、專利、知識產權、版權法律法規(guī)知識資訊,包括商標注冊、食品檢測、第三方檢測機構、網絡信息技術檢測、環(huán)境檢測、管理體系認證、服務體系認證、產品認證、版權登記、專利申請、知識產權、檢測法、認證標準等信息,中企檢測認證網為檢測認證商標專利從業(yè)者提供多種檢測、認證、知識產權、版權、商標、專利的轉讓代理查詢法律法規(guī),咨詢輔導等知識。
本文內容整合網站:百度百科、搜狗百科、360百科、知乎、市場監(jiān)督總局 、國家知識產權局
免責聲明:本文部分內容根據網絡信息整理,文章版權歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內容、版權和其它問題,請跟我們聯系刪除并致歉!