KY开元

创新加快,KY开元推动AI模型在éžç»“构化数æ®åˆ†ç±»åˆ†çº§ä¸­æ·±åˆ»åˆ©ç”¨
更新功夫:2023-12-27 èµ·æºï¼š 编纂:治ç†å‘˜ æµè§ˆï¼š3387


在数æ®çš„ï¼›ãšæ¡¶è¸©èš•砉讨ï¼Œåˆ†ç±»åˆ†çº§æ˜¯æ‰€æœ‰å·¥ä½œçš„å‰æ。KY开元一å‘于数æ®åˆ†ç±»åˆ†çº§é¢†åŸŸä¸ä¼‘索求实际,沉淀出针对éžç»“构化数æ®åˆ†ç±»åˆ†çº§çš„AI模型。近期,技术团队çªç ´åˆ›æ–°,开创性地以数æ®å®‰å…¨åº•座为支æŒã€ä»¥AI算法模型为驱动,推出全新基于NLP的无监ç£åˆ†ç±»åˆ†çº§æ¨¡åž‹,并于数æ®å®‰å…¨é¡¹ç›®ä¸­æˆåŠŸè½åœ°åˆ©ç”¨ï¼Œå®ˆä½æ•°æ®å®‰å…¨é˜²æŠ¤æœ€å‰åˆ—。



01

常è§åˆ†ç±»åˆ†çº§æ–¹å¼åˆ©ç”¨å±€é™

当å‰å„ä¼ä¸šå†…部å‡å †é›†äº†å¤§é‡çš„éžç»“构化文档,其中大部门为无标签数æ®。目å‰å¸¸è§çš„æ— æ ‡ç­¾æ–‡æ¡£åˆ†ç±»åˆ†çº§é€‰å–的是正则表白å¼åŒ¹é…æ–¹å¼,其处置æµç¨‹æ˜¯å…ˆé€šè¿‡äººä¸ºæŸ¥çœ‹éƒ¨é—¨éžç»“构化文档,并总结出正则模å¼,而åŽå¯¹æ•°æ®è¿›è¡ŒåŒ¹é…ï¼ŒåŒ¹é…æˆåŠŸåˆ™åˆ’åˆ†åˆ°å¯¹åº”åˆ†ç±»åˆ†çº§,匹é…䏿ˆåŠŸæ–‡æ¡£å½’ç±»ç¼ºå¤±。

但是这ç§å¤„ç½®æ–¹å¼æœ‰å¾ˆå¤šå±€é™æ€§ï¼š

??首先,ä¼ä¸šå †é›†çš„éžç»“构化文档数é‡å·¨å¤§,正则匹é…åªåˆ©ç”¨äº†å°‘部门无标签数æ®èµ„æºï¼Œæ›´å¤šçš„æ­£åˆ™æ¨¡å¼æ²¡æœ‰è¢«æå–出æ¥,覆盖率低ï¼›

??其次,éšç€éžç»“构化文档的ä¸ä¼‘堆集ï¼Œæ•°æ®æ•£å¸ƒå¯èƒ½ä¼šå‡ºçްå˜åЍï¼ŒåˆæœŸå¼€å‘的正则表白å¼ä¸å®žæ—¶æ‰¹æ”¹å°±ä¼šå¯¼è‡´æ•°æ®æ¼åˆ¤å’Œè¯¯åˆ¤ï¼›

??此表,éžç»“构化文档往往是拥有多页ã€å­—符数é‡å¤šçš„长文本,使用正则表白å¼å¯¹å…¨æ–‡è¿›è¡ŒåŒ¹é…效能低下。

正则表白å¼åŒ¹é…æ–¹å¼,对于éžç»“构化文档的分类分级ä¸å¤Ÿç²¾å‡†,既ä¸èƒ½é½å…¨åˆ‡åˆåˆè§„è¦æ±‚,也难以对所有无标签数æ®è®¾ç½®åˆ†æ­§ç±»åž‹çš„ï¼›ã”胧,使数æ®ç½®äºŽæ³„露风险之中。

02

éžç»“构化数æ®è‡ªåŠ¨åˆ†ç±»åˆ†çº§æŠ€æœ¯è§„åˆ’

为破解传统正则表白å¼åŒ¹é…æ–¹å¼çš„缺点,为行业内æä¾›æ›´é«˜ç²¾å‡†åº¦ã€æ›´é«˜æ•ˆçš„éžç»“构化文档分类分级方å¼,更ç«é€Ÿåœ°é©±åŠ¨æ•°æ®é˜²æŠ¤,KY开元技术研å‘团队深刻解构天生å¼äººä¸ºæ™ºèƒ½ã€UEBAç­‰å„项剿²¿æŠ€æœ¯,将AI大模型与数æ®åˆ†ç±»åˆ†çº§åœºæ™¯æ·±åº¦èžåˆ,沉淀出多个技术模型。

在历ç»å¤šè½®å°è¯•ã€å¤šç•ªèƒ½åŠ›éªŒè¯åŽ,KY开元在原有模型基础上拓展å‡çº§,迭代出更智能的éžç»“构化数æ®è‡ªåŠ¨åˆ†ç±»åˆ†çº§æ­¥éª¤,擘画数æ®å®‰å…¨ä¸ŽAI技术èžåˆå‘展新è“图。

该方法的主题是利用NLPæŠ€æœ¯æœ‰æ•ˆç»“åˆæ— ç›‘ç£è¿›å»ºå’Œç›‘ç£è¿›å»ºæ¨¡åž‹,分阶段æ¥å®žçް坹éžç»“构化数æ®çš„分类分级ã€‚åœ¨åˆæœŸé˜¶æ®µä½¿ç”¨æ— ç›‘ç£è¿›å»ºæ¨¡åž‹,通过对比进建+èšç±»çš„æ–¹å¼å¯¹å¤§é‡çš„æ— æ ‡ç­¾æ ·æœ¬è¿›è¡Œåˆ†ç±»åˆ†çº§,æ¥ç´¯ç§¯åˆå§‹çš„æ ‡ç­¾æ ·æœ¬;之åŽé€šè¿‡ç›‘ç£è¿›å»ºæ¨¡åž‹æ¥è¿›ä¸€æ­¥æå‡æ•´ä½“分类分级的正确性。

在无监ç£è¿›å»ºçŽ¯èŠ‚,KY开元技术团队开å‘了“文本对比进建+KMeansèšç±»â€œçš„æ–¹å¼è¿›è¡Œå»ºæ¨¡。

无监ç£å¯¹æ¯”进建模型自界说伪标签“文本类似â€å’Œâ€œæ–‡æœ¬ä¸ç±»ä¼¼â€æ¥æž„建正负样本ï¼ŒæŠŠè‡ªå·±ç•Œè¯´çš„ä¼ªæ ‡ç­¾å½“ä½œåˆ†ç±»ä¿¡å·æ¥å®žçŽ°å»ºæ¨¡å’Œè®­ç»ƒ。æå–模型中央层的了局作为文本å‘é‡。接下æ¥é€šè¿‡å¯¹æ–‡æœ¬å‘é‡è¿›è¡Œèšç±»,从而实现无监ç£åˆ†ç±»åˆ†çº§。


NLP作为一ç§å¤©ç„¶è¯´è¯å¤„置技术,是AI技术的一个沉è¦å­é¢†åŸŸ,KY开元将其深刻èžå…¥è‡³éžç»“构化数æ®åˆ†ç±»åˆ†çº§æ¨¡åž‹çš„æˆç«‹å‚è¾¹;而跑通无监ç£å¯¹æ¯”进建模型,æ„味ç€è¡¨å¾èƒ½åŠ›æ›´å¼º,类似å¥çš„类似度更高,éžç±»ä¼¼å¥çš„类似度更低。KY开元以AI技术领跑数æ®å®‰å…¨èµ›è·¯,æŒç»­ä¸ºå®¢æˆ·æ‰“造当先的数æ®åˆ†ç±»åˆ†çº§å‡ºäº§åŠ›。



03

基于NLP的无监ç£åˆ†ç±»åˆ†çº§æ¨¡åž‹æŠ€æœ¯ä¼˜åŠ¿

基于NLP的无监ç£åˆ†ç±»åˆ†çº§æ¨¡åž‹,是数æ®åˆ†ç±»åˆ†çº§é¢†åŸŸçš„一次沉大创新,目å‰å·²ç»åœ¨æ•°æ®å®‰å…¨å…·ä½“项目中è½åœ°åˆ©ç”¨,其å‰çž»æ€§å’Œå®žç”¨æ€§ä¹ŸèŽ·å¾—äº†å®¢æˆ·å’Œæƒå¨æœºæž„的认å¯。凭æ®çŽ°å®žè¿è¡Œçš„æ•°æ®,无监ç£è¿›å»ºæ¨¡åž‹å·²ç»è¢«éªŒè¯åœ¨è¦†ç›–é¢†åŸŸã€æ­£ç¡®çŽ‡ã€æ•ˆèƒ½å’Œæ‰©å¤§æœºèƒ½ä¸Šå®žçŽ°äº†æ–°çªç ´,有效破除了正则表白å¼åŒ¹é…æ–¹å¼çš„缺点。
01
高覆盖率


该步骤æå–éžç»“构化文档的短文本特点,并开å‘出分歧类型文档解æžå™¨ï¼Œè§£æžæ–‡æ¡£å¤šé¢†åŸŸç‰¹ç‚¹,有效利用大é‡çš„æ— æ ‡ç­¾æ•°æ®ä½œä¸ºè®­ç»ƒèµ„æº,å¯èƒ½å¯¹æ›´å¤§é¢†åŸŸçš„éžç»“构化文档进行特点æå–。ç»è¿‡å¯¹æ¯”,该步骤预测数æ®çš„覆盖率能达到90%+ï¼Œæ¯”æ­£åˆ™åŒ¹é…æ­¥éª¤è¦†ç›–率æå‡50%。
02
é«˜åŒ¹é…æ•ˆèƒ½


该步骤设计了通用的文档解æžå™¨,能够急剧对长文档抽å–出主题概括ã€‚åŒæ—¶è¯¥æ­¥éª¤æ­è½½çš„基于NLP的无监ç£å¯¹æ¯”进建模型,是一ç§èžåˆAI技术的无监ç£å¼æ–‡æœ¬å‘釿н喿–¹å¼ï¼Œå®žçŽ°çš„æˆæ•ˆæ˜¯åœ¨ä¸ç›‘ç£æ•°æ®çš„æƒ…况下天生高质é‡çš„å¥å­å‘é‡。凭æ®çŽ°å®žè¿è¡Œæ•°æ®,在GPU加快下,该步骤å¯èƒ½åœ¨1秒以内实现对长文档分类分级。而正则表白å¼åŒ¹é…æ–¹å¼åˆ™éœ€10秒以上,效能æå‡90%.

03
高正确率


该步骤中的文本对比进建模型å‚考了SimCSE结构,建模过程中使用Dropout层赋予神ç»å…ƒéšæœºå¤±æ´»èƒ½åŠ›,实现统一数æ®å¾—到2个分歧的文档特点å‘é‡èŒèƒ½。之åŽä½¿ç”¨softmax分类器对特点å‘é‡è¿›è¡Œ2分类,å³å¯å®žçŽ°â€œæ–‡æ¡£ç±»ä¼¼â€å’Œâ€œæ–‡æ¡£ä¸ç±»ä¼¼â€çš„判定。模型自身先进性优越,因而匹é…的正确率å¯èƒ½ä¸€å‘ç»´æŒé«˜æ°´å‡†。
04
高扩大性


该模型结构能够直接è¿å¾™åˆ°å…¶ä»–业务上:文档解æžèŒèƒ½èƒ½å¤Ÿæ‰©å¤§åˆ°å…¶ä»–文德粪型;模型在设计上å„环节解耦,获å–到文档å‘é‡åŽèƒ½å¤Ÿé€‰å–å¤šç§æ–¹å¼è¿›è¡Œåˆ†ç±»åˆ†çº§,并ä¸é™äºŽKMeansèšç±»;对比进建+èšç±»çš„结构能够利用在多个业务场景ï¼Œä½¿ç”¨å¯¹åº”çš„è®­ç»ƒæ•°æ®æºå³å¯。


未æ¥,基于NLPçš„éžç»“构化数æ®åˆ†ç±»åˆ†çº§æ¨¡åž‹è¿™ç±»å…¨æ–°å·¥å…·å’Œæ–°æ¨¡åž‹ä¼šä¸ä¼‘涌现,推动AI技术和数æ®å®‰å…¨çš„èžåˆåˆ›æ–°,赋能数æ®åˆ†çº§åˆ†ç±»åˆ©ç”¨æŠ€æœ¯è¿›å…¥ä¸€ä¸ªæ–°æ—¶æœŸ,为å„è¡Œä¸šå¸¦æ¥æ›´é«˜æ•ˆã€æ›´åˆ›æ–°çš„æ•°æ®å®‰å…¨è§£å†³è§„划。KY开元将在技术è½åœ°æ€§æ–¹é¢åšå‡ºæ›´å¤šè‡´åŠ›,推进AI+éžç»“构化数æ®åˆ†ç±»åˆ†çº§æ­¥éª¤æ›´å¤§é¢†åŸŸåˆ©ç”¨å®žé™…,精准鉴别数æ®ä»·å€¼ã€æ·±åº¦é˜²æŠ¤æ²‰ç‚¹æ•°æ®,护航数æ®å®‰å…¨。


åˆ›é€ æ›´å®‰å…¨çš„æ•°å­—æœªæ¥ èº«ä»½ä¸ŽæŽ¥è§å®‰å…¨ · æ•°æ®å®‰å…¨ · 安全治ç†ä¸Žè¿è¥ · 安全æœåŠ¡
211217064502498
ã€ç½‘站地图】