摘要:篩選重點專利是專利分析的重要工作內(nèi)容,需要采用既準確又便捷的重點專利篩選模型。文章從選擇構(gòu)建模型所采用的指標出發(fā),對指標進行修正以提高其可獲得性和代表性;隨后提出以單個指標數(shù)值與指標中位數(shù)相減的指標處理方法,提升不同專利之間的差異性;最后提出構(gòu)建標準尺度的指標整合方法,從而統(tǒng)一指標量綱和數(shù)量級,提升了計算專利價值常用的權(quán)重系數(shù)線性加和法的可操作性,并為指標擴展預留空間。根據(jù)實踐驗證結(jié)果,該重點專利篩選模型能夠從高噪音專利樣本中快速、客觀地篩選出重點專利,具有良好的通用性和靈活性。
關(guān)鍵詞:專利分析;重點專利;專利篩選模型
作者簡介:王錚(1985—),男,河北保定人,碩士,高級知識產(chǎn)權(quán)師,研究方向:知識產(chǎn)權(quán)分析運用。
基于專利評價指標的分析方法是傳統(tǒng)專利分析方法的延伸,能夠從多維度探究專利數(shù)據(jù)背后所蘊含的豐富信息[1]。該方法的實施依賴于對重點專利的有效篩選。此處所稱重點專利,指的是綜合考慮專利的技術(shù)、經(jīng)濟和法律屬性,能夠體現(xiàn)專利對于其所屬技術(shù)領(lǐng)域的引領(lǐng)性、能夠反映其申請人的專利布局意圖、在業(yè)界獲得廣泛關(guān)注的專利。
專利分析師希望既準確又便捷地篩選重點專利,但是在實踐操作中,增加指標種類以提高模型精度往往伴隨著工作量的巨大增加,并且受限于專利數(shù)據(jù)庫收錄不全面,或者指標需要經(jīng)過計算方可用于上述模型中,造成個別指標難以方便獲取。另一方面,專利分析師需要快速地從海量數(shù)據(jù)中篩選出重點專利,以期盡快為后續(xù)工作指明重點研究方向并縮短工期。因此,希望重點專利篩選模型在保證可靠性的基礎(chǔ)上能夠進一步實現(xiàn)較高的自動化程度。
本文對重點專利模型展開研究,通過同時對專利價值的指標選取和計算方法進行優(yōu)化,從而提供一種兼顧精度與速度的改進的模型體系。
一、指標的選擇
現(xiàn)有技術(shù)中篩選重點專利多采用指標權(quán)重線性加和法,計算公式如式(1)所示[2]:

此方法的基本原理是,將各指標的值(Ci)與其權(quán)重(Ai)相乘,各乘積加和以算出分值P作為專利價值評分,P值越大則專利越重要。
由此可見,建立重點專利篩選模型的第一步是選擇適宜的體現(xiàn)專利價值的指標。業(yè)界對此已有研究[3-5] ,但這些指標的獲取和應用往往有著嚴苛的適用條件,難以直接應用于模型計算之中。本文旨在提供一種兼顧精度與速度的改進的模型體系,對于指標的選擇和計算處理應滿足以下三個條件:
(1)單個指標定量可算:指標數(shù)據(jù)可從專利數(shù)據(jù)庫導出數(shù)據(jù)中直接獲取或僅需簡單計算,避免過多人工參與以提高效率。
(2)指標取值差異 明顯:對指標數(shù)據(jù)進行預處理,以使重點專利與非重點專利的差異更加明顯。
(3)不同指標量級一致:對多個指標的量綱和數(shù)量級進行歸一化處理,使之可以直接線性加和,確保模型的可操作性,保持引入更多指標的靈活性。
以之為前提,進一步考慮專利的本質(zhì)屬性,則指標優(yōu)選覆蓋技術(shù)、法律和商業(yè)這三個維度。進一步地,與針對特定技術(shù)點的學術(shù)研究不同,對于常規(guī)的基于大數(shù)據(jù)的專利分析,排斥需要通過復雜計算方可獲得數(shù)據(jù)的指標;另外,專利在統(tǒng)計方面的另一個特點是存在“專利家族”①的概念,對于特定的指標而言,以“專利家族”為對象還是以“單件專利”為對象,會對該指標的取值造成影響,進而引入了額外的計算量乃至造成客觀上無法計算的局面,故盡量降低額外的計算量也是篩選指標時的考慮因素。
基于上述考慮,從指標對于專利的代表性、指標數(shù)據(jù)獲取難易等角度出發(fā),本文選取被引用次數(shù)、引用次數(shù)、權(quán)利要求項數(shù)和家族成員數(shù)四個指標作為基本指標,并對其進行修正,參見表 1.

被引用次數(shù)是可以從數(shù)據(jù)庫中直接導出的指標②,是反映專利技術(shù)價值的重要指標。需要修正的是,第三人引用 ③受到語言限制、數(shù)據(jù)庫信息來源等的影響,導致同一專利家族的不同成員單獨的被引用次數(shù)可能不同,因此應當采用專利家族總的被引用次數(shù)來統(tǒng)計。被申請人④主動引用的文獻顯然與其發(fā)明的技術(shù)具有密切關(guān)聯(lián),故引用次數(shù)的技術(shù)代表性較強,該指標同樣可從數(shù)據(jù)庫中直接導出,其同樣采用專利家族總的引用次數(shù)來統(tǒng)計。
權(quán)利要求項數(shù)一般可從市面上主流數(shù)據(jù)庫直接導出⑤,代表著申請人所請求保護和被批準予以保護的技術(shù)方案數(shù)量,是申請人和專利行政機關(guān)對該專利態(tài)度的直接體現(xiàn),代表了專利的法律屬性。對于不同家族成員的權(quán)利要求項數(shù)分歧,可以以家族最早授權(quán)成員為準;家族無授權(quán)則以最早公開成員為準,或以分析目標地域的家族成員為準。
專利家族成員數(shù)反映了申請人的專利布局地域態(tài)勢,是專利經(jīng)濟屬性的代表。該指標一般可從市面上主流數(shù)據(jù)庫直接導出,只是對于同一申請?zhí)栂赂鞴_版本不重復計數(shù)。
除了上述四個指標外,還可以考慮諸如申請人/發(fā)明人數(shù)(技術(shù)屬性)、專利權(quán)維持時間與專利授權(quán)周期(法律屬性)、質(zhì)押許可訴訟次數(shù)(市場屬性)等,但其難點在于數(shù)據(jù)庫是否準確完整地收錄了相關(guān)信息,包括申請人變更情況、各成員授權(quán)情況、質(zhì)押許可訴訟情況等,并且這些數(shù)據(jù)需要經(jīng)過一定的計算方可轉(zhuǎn)化為模型中所用的指標數(shù)據(jù), 與本文“避免過多人工參與以提高效率”的宗旨相偏離。這些指標以及其他任何類似指標,盡管并非優(yōu)選,但在條件允許的情況下同樣可以納入本文的模型之中,并且具有實際的可操作性,這是本文模型的優(yōu)點所在,不同指標的整合與統(tǒng)一方法是后文研究的內(nèi)容。
二、指標的處理
對于一個專利樣本集合,每個專利均以若干指標為標準進行量化取值,即專利價值;對于每一個指標,希望通過一定的數(shù)學處理來凸顯其與整體趨勢的差異性,從而進一步提高模型的精度。
一種操作思路是,將一個指標在特定專利上的取值(下稱特定值)與該指標在全部專利樣本上的“趨勢值”相減,如式(2)所示:
指標計算值 =指標特定值 - 樣本中該指標的“趨勢值”(2)
特定值與趨勢值接近,則結(jié)果接近0.減弱乃至消除該指標對于該專利價值的影響;特定值大于趨勢值,則結(jié)果為正,差異越大則正值越大;特定值小于趨勢值則結(jié)果為負,與正值的情況產(chǎn)生顯著區(qū)分,進一步拉低“低下”專利指標對于專利價值的影響。另外,從量綱上講,減法不改變量綱(不存在除法處理后量綱為“1”的情況),以便在后續(xù)處理中實現(xiàn)不同類型和不同數(shù)量級的專利指標的整合。
那么問題聚焦于對于“趨勢值”的選擇。平均值是常見的反映樣本整體情況的指標,但是對于重點專利篩選模型而言可能并不適宜。圖1展示了專利樣本 ⑥中各專利對應表1各指標的分布情況:




圖1 專利數(shù)量(縱軸)相對于專利指標值(橫軸)的分布
(注:菱形◇表示中位數(shù),叉號× 表示平均數(shù);右上角餅圖中百分比表示指標值在平均數(shù)以下專利占比)
由圖可見,表1所示指標的專利數(shù)量分布存在明顯的特征:專利數(shù)量并非隨指標值呈現(xiàn)正態(tài)分布,而是存在明顯的聚集性,并且這種聚集性在指標數(shù)值的低位更加明顯。聚集性是基于專利數(shù)量的累積而展現(xiàn)的,適宜的“趨勢值”也應當反映出這種數(shù)量的集中。
采用平均值作為“趨勢值”是不適宜的。圖1中各指標特定值在平均值以下的專利占比均超過2/3.以“被引用次數(shù)”為例,被引用次數(shù)在平均值22次以下的專利高達81%,因此高被引專利屬于稀有的“黑天鵝”,以平均值作為“趨勢值”并不一定影響這些“黑天鵝”對于專利價值得分的貢獻趨勢,但是對于特定值位于平均數(shù)與中位數(shù)之間的、具有一定潛力的專利而言,依照式(2),則其對于專利價值得分的貢獻為負值,即完全否定了這些專利的貢獻,而其中不乏具有重要價值的周邊專利。特別是對于聚集性較為分散的特征如“權(quán)利要求項數(shù)”而言,以一篇18項權(quán)利要求的專利為例,其與中位數(shù)15項的差距為3.該專利的權(quán)利要求項數(shù)已經(jīng)超過了過半數(shù)的樣本,則“3”這個正值反映出該專利相對于“普羅大眾”而言存在一定優(yōu)勢;如果以平均數(shù)20為準,則“-2”的結(jié)果是將該專利完全歸入“普羅大眾”之中。單個指標無法對處于臨界值的專利進行有效篩選,則多個專利指標組合起來會進一步放大這種偏差,最終導致以平均數(shù)為“趨勢值”的專利價值得分只能區(qū)分最佳者與最差者,顆粒度過于粗糙,無法用于建立高精度模型。
相對于平均數(shù)而言,中位數(shù)將是一個更適宜的“趨勢值”,它可以彌補平均數(shù)在偏態(tài)分布中的不足之處[6]。圖1中示出各指標的中位數(shù)(菱形◇) 與平均數(shù)(叉號×)在專利數(shù)量分布中的位置,可見中位數(shù)與專利密集聚集的分布數(shù)量更加接近,以之為“趨勢值”可以將絕大部分專利與特征值較為突出的專利區(qū)分開來,并將這種差異放大?;诖丝蓪⑹?2)進一步修正為式(3):
指標計算值=指標特定值 - 樣本中該指標的中位數(shù)(3)
以“被引用次數(shù)”為例,樣本中絕大多數(shù)專利家族被引次數(shù)在中位數(shù)3次以下,則對于僅被引用一兩次的低被引專利而言,其指標計算值為負數(shù),從而拉低專利價值得分;被引用次數(shù)達到700余次的高被引專利,其指標計算值為正,并且其對專利價值得分的貢獻可視為“增加”了相對于低被引專利的“負數(shù)”的絕對值,即起到放大效果。
值得一提的是,中位數(shù)在Excel、PowerBI中均有對應函數(shù)可以直接計算得出,方便分析人員進行數(shù)據(jù)處理。
三、指標的整合
通過前文的分析,確定了可以作為重點專利篩選模型所用的指標及單個指標的處理方法,接下來的問題是如何將多個指標組合起來以獲得重點專利的分值。
式(3)在實際操作 中存在兩個問題。一是不同的指標其量綱往往不同,例如權(quán)利要求數(shù)為“項”,而被引用次數(shù)為“次”,不同量綱的值直接加和是不合理的,并且這種不合理也無法通過無量綱的系數(shù)來修正。二是不同指標的數(shù)值的數(shù)量級可能存在極大差異,例如被引用次數(shù)可能高達幾百次,而家族成員數(shù)則不超過50.指標值直接加和顯然會導致“多指標體系”明顯偏向于絕對值最高的指標,從而淪為“單指標體系”。理論上確實可以通過對不同的指標提供不同的權(quán)重系數(shù)來平衡各指標絕對值數(shù)量級的差異,但這違背了權(quán)重系數(shù)“用來平衡不同指標對總分值貢獻程度”的基本用途,變成了對于單個指標自身取值的調(diào)整,并且不同的專利樣本其絕對值最大的指標并不固定(盡管多為被引用次數(shù))、最大者的數(shù)值亦不固定,實際上也不可能提供具有普適性的權(quán)重系數(shù)。
為了解決上述問題,以使模型具有良好的可操作性(特別是提高其自動化程度),需要構(gòu)建一個“尺度”,其在邏輯上能夠衡量在特定指標上單篇專利取值相對于樣本整體所處的位置,即以“相對值”替代“絕對值”,來消除量綱和數(shù)量級(量級)的差異,同時其應當可以通過相對簡單的計算實現(xiàn)、確??刹僮餍?。
對于特定指標分析其數(shù)據(jù)構(gòu)成,可以繪制出圖 2:

圖2 特定指標的數(shù)據(jù)構(gòu)成
基于某專利(倒三角▽)被引用次數(shù)的絕對值,以及樣本的中位數(shù),根據(jù)式(3)可以得出其計算值。同理,樣本中被引用次數(shù)最大的專利亦可得出其“最大值”。該“最大值”顯然是圖中從中位數(shù)到最大值之間的一段“距離”,將其視作100%,那么某專利的計算值相當于“占據(jù)”了該“100%”中的一定比例(例如30%)。推而廣之,對于樣本中絕對值超過中位數(shù)的專利而言,其計算值都可以折算為以最大計算值為100%的相對份額,顯然該份額的最小值是0%、最大值是100%⑦,其公式可以寫作式(4):
指標相對值=(特定值 - 中位數(shù))÷(最大特定值 - 中位數(shù))×100% (4)
式(4)中,首先是通過將相同指標的計算值與最大計算值相除而將結(jié)果量綱歸一,其次是將離散的計算值按照統(tǒng)一尺度折算為百分比,從而消除了不同指標的數(shù)量級的差異?;诖?,可以對式(4)進行修改而得到式(5):

式(5)中,Ci是某專利的第i個指標的絕對值,Cmid、Cmax、Ai分別代表樣本中第i個指標的中位數(shù)和最大值及其權(quán)重,對于N個指標線性加和算得分值P即專利價值。
對于權(quán)重系數(shù)Ai,其總和為1.意味著將全部用于計算的指標視為一個整體,利用取值范圍為(0.1 )的權(quán)重系數(shù)調(diào)整各指標對于P值的貢獻度,使得權(quán)重系數(shù)不再受到指標在專利樣本中實際數(shù)值范圍等變化因素的影響。
結(jié)合前文確定的四個指標:被引用次數(shù)、引用次數(shù)、權(quán)利要求項數(shù)和專利家族成員數(shù),可以計算每一篇專利的分值,分值高者認為更加重要?;谑?5)的一個顯著優(yōu)點在于,可以根據(jù)實際情況靈活地增刪指標,例如本文基于獲得難度而忽略了專利權(quán)維持時間、專利授權(quán)周期等指標,如果這些指標的數(shù)據(jù)可以獲得,則依然可以將其納入式(5)中,進一步提高P值的客觀性。
四、驗證與討論
作為驗證,根據(jù)式(5)計算專利樣本中各專利的專利價值,取其前十名列于表2中 ⑧。需要說明的是,本文未對專利樣本進行人工閱讀去噪,目的在于檢驗模型是否可以適用于對高噪音樣本中重點專利的快速篩選。

排名第一的US20020193685A1和第二的US2 0020013596A1均是美國瓦里安(VARIAN)的專利,其對應家族分別被引用700余次和500余次,并在美國、加拿大、澳大利亞、歐洲、日本等進行布局,兩者屬于同一技術(shù)路徑,代表了該申請人在放療圖像引導方向的技術(shù)方向。
排名第五的US10188356B2同樣是美國瓦里安的專利,其涉及同軸共面型圖像引導放療設(shè)備。該專利屬于“集大成者”,是該申請人在技術(shù)發(fā)展早期為了搶占市場而布局的關(guān)鍵專利,盡管該專利被引用次數(shù)較低,但是其基于美國信息披露聲明(Information Disclosure Statement,IDS)制度而披露了大量相關(guān)專利,專利引用次數(shù)高,進而推高了專利價值評分。
排 名 第 六 的EP0814869B1是 英 國 醫(yī) 科 達(ELEKTA)的專利,其提供一種同軸共面型CT引導直線加速器,采用“寬射束”的射線束使患者支架至少部分地容納在治療裝置,從而縮小設(shè)備體積并提高治療精度。該專利在美、日、歐(英、德)進行布局,代表了該類型設(shè)備的發(fā)展趨勢和該申請人的技術(shù)路線。
其他專利不再逐一分析。總結(jié)可見,利用式(5)確實可以篩選出專利樣本技術(shù)領(lǐng)域中重要申請人的重要專利,盡管這些專利在各個指標上的特點各異,但式(5)能夠?qū)@膬r值進行綜合性的評價,使結(jié)果更加客觀,避免了單一指標絕對值過高而“掩蓋”其他重點專利的情況;相關(guān)數(shù)據(jù)獲得容易、計算處理簡單,具有良好的操作性。
五、結(jié)語
利用本文的重點專利篩選模型,能夠快速、客觀地篩選出專利樣本中的重點專利。該模型具有良好的通用性和靈活性,不受專利樣本技術(shù)領(lǐng)域或其他因素的限制,在任何場景下均可適用,根據(jù)數(shù)據(jù)源情況還可以自由地增加專利指標,同時提供可以人工調(diào)整的權(quán)重系數(shù)以實現(xiàn)對于模型的微調(diào),從而進一步提高模型精度。
特別值得一提的是,隨著Microsoft PowerBI等基于大數(shù)據(jù)的商業(yè)情報分析軟件(BI軟件)在專利分析中的應用,通過將本文的模型嵌入到BI軟件的數(shù)據(jù)模型之中,可實現(xiàn)重點專利篩選結(jié)果與專利數(shù)據(jù)庫導出數(shù)據(jù)(即原始數(shù)據(jù))的耦合,方便指標數(shù)據(jù)的獲取,以及實現(xiàn)重點專利與其他專利因素(例如地域、時間等)的耦合,提升分析數(shù)據(jù)的深度和廣度,有助于提升專利分析效率和提高專利分析質(zhì)量。
(致 謝: 衷 心 感 謝 唐 躍 強 老 師 對 本 文 的指導。)
注釋:
① 為了方便理解,本文采用德溫特定義的簡單專利家族,即優(yōu)先權(quán)完全一致的各成員構(gòu)成的專利家族。
② 筆者以智慧芽 Ⅲ專利數(shù)據(jù)庫為例,其導出項包括“簡單同族被引用專利總數(shù)”。
③ 第三人的引用泛指在后專利申請人以外的組織機構(gòu)對于在前專利的引用,例如在專利實審、無效、訴訟階段被審查員(合議組)、法庭、相關(guān)當事人引用。顯然這些引用的目的與證明技術(shù)事實密切相關(guān)。
④ 專利授權(quán)后,申請人被稱為專利權(quán)人。本文統(tǒng)一采用申請人這一稱謂。
⑤ 智慧芽 Ⅲ僅對高級用戶開放導出權(quán)利要求項數(shù)的功能,但是可以通過導出的權(quán)利要求文本簡單地計算出該指標。
⑥ 此處筆者采用大型醫(yī)療設(shè)備領(lǐng)域的相關(guān)數(shù)據(jù),檢索數(shù)據(jù)庫為智慧芽™,檢索時間為2023年 4月。
⑦ 如前分析,對于專利的特定指標絕對值小于中位數(shù)的情況,該指標絕對值為負,亦可折算為相對100%的“負數(shù)份額”,視為該指標對該專利價值的貢獻為負。
⑧ 各指標權(quán)重系數(shù)為:被引用次數(shù)0.6、引用次數(shù)0.2、權(quán)利要求項數(shù)0.1、專利家族成員數(shù)0.1.
參考文獻:
[1] 國家知識產(chǎn)權(quán)局學術(shù)委員會. 專利分析實務(wù)手冊[M]. 第 2版. 北京: 知識產(chǎn)權(quán)出版社, 2021:234.
[2] 馬天旗. 專利分析:方法、圖表解讀與情報挖掘[M]. 第 1版. 北京: 知識產(chǎn)權(quán)出版社, 2015:164.
[3] Lanjouw J O, Schankerman M. The quality of ideas: measuring innovation with multiple indicators[J]. NBER Working Papers, 1999:1-35.
[4] Lanjouw J O, Schankerman M . Patent Quality and Research Productivity: Measuring Innovation with Multiple Indicators[J]. Economic Journal, 2004(114):441-465.
[5] Mariagrazia S, Dernis H, Criscuolo C. Measuring patent quality: Indicators of technological and economic value[J]. OECD Science, Technology and Industry Working Papers, No.2013/03. 2013: 1-69.
[6]張吉吉. 平均數(shù)、中位數(shù)和眾數(shù)的意義分別是什么? [EB/OL]. (2018-07-25) [2023-08-17]. https://www.zhihu.com/question/286260644.
中企檢測認證網(wǎng)提供iso體系認證機構(gòu)查詢,檢驗檢測、認證認可、資質(zhì)資格、計量校準、知識產(chǎn)權(quán)貫標一站式行業(yè)企業(yè)服務(wù)平臺。中企檢測認證網(wǎng)為檢測行業(yè)相關(guān)檢驗、檢測、認證、計量、校準機構(gòu),儀器設(shè)備、耗材、配件、試劑、標準品供應商,法規(guī)咨詢、標準服務(wù)、實驗室軟件提供商提供包括品牌宣傳、產(chǎn)品展示、技術(shù)交流、新品推薦等全方位推廣服務(wù)。這個問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認證網(wǎng)在線客服13550333441。為您提供全面檢測、認證、商標、專利、知識產(chǎn)權(quán)、版權(quán)法律法規(guī)知識資訊,包括商標注冊、食品檢測、第三方檢測機構(gòu)、網(wǎng)絡(luò)信息技術(shù)檢測、環(huán)境檢測、管理體系認證、服務(wù)體系認證、產(chǎn)品認證、版權(quán)登記、專利申請、知識產(chǎn)權(quán)、檢測法、認證標準等信息,中企檢測認證網(wǎng)為檢測認證商標專利從業(yè)者提供多種檢測、認證、知識產(chǎn)權(quán)、版權(quán)、商標、專利的轉(zhuǎn)讓代理查詢法律法規(guī),咨詢輔導等知識。
本文內(nèi)容整合網(wǎng)站:中國政府網(wǎng)、百度百科、搜狗百科、360百科、最高人民法院、知乎、市場監(jiān)督總局 、國家知識產(chǎn)權(quán)局、國家商標局
免責聲明:本文部分內(nèi)容根據(jù)網(wǎng)絡(luò)信息整理,文章版權(quán)歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內(nèi)容、版權(quán)和其它問題,請跟我們聯(lián)系刪除并致歉!






