在数æ®çš„ï¼›ãšæ¡¶è¸©èš•ç ‰è®¨ï¼Œåˆ†ç±»åˆ†çº§æ˜¯æ‰€æœ‰å·¥ä½œçš„å‰æã€‚KY开元一å‘于数æ®åˆ†ç±»åˆ†çº§é¢†åŸŸä¸ä¼‘索求实际,沉淀出针对éžç»“构化数æ®åˆ†ç±»åˆ†çº§çš„AI模型。近期,技术团队çªç ´åˆ›æ–°ï¼Œå¼€åˆ›æ€§åœ°ä»¥æ•°æ®å®‰å…¨åº•座为支æŒã€ä»¥AI算法模型为驱动,推出全新基于NLPçš„æ— ç›‘ç£åˆ†ç±»åˆ†çº§æ¨¡åž‹ï¼Œå¹¶äºŽæ•°æ®å®‰å…¨é¡¹ç›®ä¸æˆåŠŸè½åœ°åˆ©ç”¨ï¼Œå®ˆä½æ•°æ®å®‰å…¨é˜²æŠ¤æœ€å‰åˆ—。
常è§åˆ†ç±»åˆ†çº§æ–¹å¼åˆ©ç”¨å±€é™
当å‰å„ä¼ä¸šå†…部å‡å †é›†äº†å¤§é‡çš„éžç»“构化文档,其ä¸å¤§éƒ¨é—¨ä¸ºæ— æ ‡ç¾æ•°æ®ã€‚ç›®å‰å¸¸è§çš„æ— æ ‡ç¾æ–‡æ¡£åˆ†ç±»åˆ†çº§é€‰å–的是æ£åˆ™è¡¨ç™½å¼åŒ¹é…æ–¹å¼ï¼Œå…¶å¤„ç½®æµç¨‹æ˜¯å…ˆé€šè¿‡äººä¸ºæŸ¥çœ‹éƒ¨é—¨éžç»“构化文档,并总结出æ£åˆ™æ¨¡å¼ï¼Œè€ŒåŽå¯¹æ•°æ®è¿›è¡ŒåŒ¹é…ï¼ŒåŒ¹é…æˆåŠŸåˆ™åˆ’åˆ†åˆ°å¯¹åº”åˆ†ç±»åˆ†çº§ï¼ŒåŒ¹é…䏿ˆåŠŸæ–‡æ¡£å½’ç±»ç¼ºå¤±ã€‚
但是这ç§å¤„ç½®æ–¹å¼æœ‰å¾ˆå¤šå±€é™æ€§ï¼š
??首先,ä¼ä¸šå †é›†çš„éžç»“构化文档数é‡å·¨å¤§ï¼Œæ£åˆ™åŒ¹é…åªåˆ©ç”¨äº†å°‘éƒ¨é—¨æ— æ ‡ç¾æ•°æ®èµ„æºï¼Œæ›´å¤šçš„æ£åˆ™æ¨¡å¼æ²¡æœ‰è¢«æå–出æ¥ï¼Œè¦†ç›–率低;
??其次,éšç€éžç»“构化文档的ä¸ä¼‘å †é›†ï¼Œæ•°æ®æ•£å¸ƒå¯èƒ½ä¼šå‡ºçްå˜åŠ¨ï¼ŒåˆæœŸå¼€å‘çš„æ£åˆ™è¡¨ç™½å¼ä¸å®žæ—¶æ‰¹æ”¹å°±ä¼šå¯¼è‡´æ•°æ®æ¼åˆ¤å’Œè¯¯åˆ¤ï¼›
??æ¤è¡¨ï¼Œéžç»“构化文档往往是拥有多页ã€å—符数é‡å¤šçš„长文本,使用æ£åˆ™è¡¨ç™½å¼å¯¹å…¨æ–‡è¿›è¡ŒåŒ¹é…效能低下。
éžç»“构化数æ®è‡ªåŠ¨åˆ†ç±»åˆ†çº§æŠ€æœ¯è§„åˆ’
ä¸ºç ´è§£ä¼ ç»Ÿæ£åˆ™è¡¨ç™½å¼åŒ¹é…æ–¹å¼çš„缺点,为行业内æä¾›æ›´é«˜ç²¾å‡†åº¦ã€æ›´é«˜æ•ˆçš„éžç»“构化文档分类分级方å¼ï¼Œæ›´ç«é€Ÿåœ°é©±åŠ¨æ•°æ®é˜²æŠ¤ï¼ŒKYå¼€å…ƒæŠ€æœ¯ç ”å‘团队深刻解构天生å¼äººä¸ºæ™ºèƒ½ã€UEBAç‰å„项剿²¿æŠ€æœ¯ï¼Œå°†AI大模型与数æ®åˆ†ç±»åˆ†çº§åœºæ™¯æ·±åº¦èžåˆï¼Œæ²‰æ·€å‡ºå¤šä¸ªæŠ€æœ¯æ¨¡åž‹ã€‚
在历ç»å¤šè½®å°è¯•ã€å¤šç•ªèƒ½åŠ›éªŒè¯åŽï¼ŒKY开元在原有模型基础上拓展å‡çº§ï¼Œè¿ä»£å‡ºæ›´æ™ºèƒ½çš„éžç»“构化数æ®è‡ªåŠ¨åˆ†ç±»åˆ†çº§æ¥éª¤ï¼Œæ“˜ç”»æ•°æ®å®‰å…¨ä¸ŽAI技术èžåˆå‘展新è“图。
该方法的主题是利用NLPæŠ€æœ¯æœ‰æ•ˆç»“åˆæ— 监ç£è¿›å»ºå’Œç›‘ç£è¿›å»ºæ¨¡åž‹ï¼Œåˆ†é˜¶æ®µæ¥å®žçް坹éžç»“构化数æ®çš„åˆ†ç±»åˆ†çº§ã€‚åœ¨åˆæœŸé˜¶æ®µä½¿ç”¨æ— 监ç£è¿›å»ºæ¨¡åž‹ï¼Œé€šè¿‡å¯¹æ¯”进建+èšç±»çš„æ–¹å¼å¯¹å¤§é‡çš„æ— æ ‡ç¾æ ·æœ¬è¿›è¡Œåˆ†ç±»åˆ†çº§ï¼Œæ¥ç´¯ç§¯åˆå§‹çš„æ ‡ç¾æ ·æœ¬ï¼›ä¹‹åŽé€šè¿‡ç›‘ç£è¿›å»ºæ¨¡åž‹æ¥è¿›ä¸€æ¥æå‡æ•´ä½“分类分级的æ£ç¡®æ€§ã€‚
åœ¨æ— ç›‘ç£è¿›å»ºçŽ¯èŠ‚ï¼ŒKY开元技术团队开å‘了“文本对比进建+KMeansèšç±»â€œçš„æ–¹å¼è¿›è¡Œå»ºæ¨¡ã€‚
æ— ç›‘ç£å¯¹æ¯”è¿›å»ºæ¨¡åž‹è‡ªç•Œè¯´ä¼ªæ ‡ç¾â€œæ–‡æœ¬ç±»ä¼¼â€å’Œâ€œæ–‡æœ¬ä¸ç±»ä¼¼â€æ¥æž„建æ£è´Ÿæ ·æœ¬ï¼ŒæŠŠè‡ªå·±ç•Œè¯´çš„ä¼ªæ ‡ç¾å½“ä½œåˆ†ç±»ä¿¡å·æ¥å®žçŽ°å»ºæ¨¡å’Œè®ç»ƒã€‚æå–模型ä¸å¤®å±‚的了局作为文本å‘é‡ã€‚接下æ¥é€šè¿‡å¯¹æ–‡æœ¬å‘é‡è¿›è¡Œèšç±»ï¼Œä»Žè€Œå®žçŽ°æ— ç›‘ç£åˆ†ç±»åˆ†çº§ã€‚
基于NLPçš„æ— ç›‘ç£åˆ†ç±»åˆ†çº§æ¨¡åž‹æŠ€æœ¯ä¼˜åŠ¿
该æ¥éª¤è®¾è®¡äº†é€šç”¨çš„æ–‡æ¡£è§£æžå™¨ï¼Œèƒ½å¤Ÿæ€¥å‰§å¯¹é•¿æ–‡æ¡£æŠ½å–å‡ºä¸»é¢˜æ¦‚æ‹¬ã€‚åŒæ—¶è¯¥æ¥éª¤æè½½çš„基于NLPçš„æ— ç›‘ç£å¯¹æ¯”进建模型,是一ç§èžåˆAIæŠ€æœ¯çš„æ— ç›‘ç£å¼æ–‡æœ¬å‘釿н喿–¹å¼ï¼Œå®žçŽ°çš„æˆæ•ˆæ˜¯åœ¨ä¸ç›‘ç£æ•°æ®çš„æƒ…况下天生高质é‡çš„å¥åå‘é‡ã€‚凿®çŽ°å®žè¿è¡Œæ•°æ®ï¼Œåœ¨GPUåŠ å¿«ä¸‹ï¼Œè¯¥æ¥éª¤å¯èƒ½åœ¨1秒以内实现对长文档分类分级。而æ£åˆ™è¡¨ç™½å¼åŒ¹é…æ–¹å¼åˆ™éœ€10秒以上,效能æå‡90%.
该模型结构能够直接è¿å¾™åˆ°å…¶ä»–业务上:文档解æžèŒèƒ½èƒ½å¤Ÿæ‰©å¤§åˆ°å…¶ä»–文德粪型;模型在设计上å„环节解耦,获å–到文档å‘é‡åŽèƒ½å¤Ÿé€‰å–å¤šç§æ–¹å¼è¿›è¡Œåˆ†ç±»åˆ†çº§ï¼Œå¹¶ä¸é™äºŽKMeansèšç±»ï¼›å¯¹æ¯”进建+èšç±»çš„结构能够利用在多个业务场景,使用对应的è®ç»ƒæ•°æ®æºå³å¯ã€‚
未æ¥ï¼ŒåŸºäºŽNLPçš„éžç»“构化数æ®åˆ†ç±»åˆ†çº§æ¨¡åž‹è¿™ç±»å…¨æ–°å·¥å…·å’Œæ–°æ¨¡åž‹ä¼šä¸ä¼‘涌现,推动AI技术和数æ®å®‰å…¨çš„èžåˆåˆ›æ–°ï¼Œèµ‹èƒ½æ•°æ®åˆ†çº§åˆ†ç±»åˆ©ç”¨æŠ€æœ¯è¿›å…¥ä¸€ä¸ªæ–°æ—¶æœŸï¼Œä¸ºå„è¡Œä¸šå¸¦æ¥æ›´é«˜æ•ˆã€æ›´åˆ›æ–°çš„æ•°æ®å®‰å…¨è§£å†³è§„划。KY开元将在技术è½åœ°æ€§æ–¹é¢åšå‡ºæ›´å¤šè‡´åŠ›ï¼ŒæŽ¨è¿›AI+éžç»“构化数æ®åˆ†ç±»åˆ†çº§æ¥éª¤æ›´å¤§é¢†åŸŸåˆ©ç”¨å®žé™…,精准鉴别数æ®ä»·å€¼ã€æ·±åº¦é˜²æŠ¤æ²‰ç‚¹æ•°æ®ï¼ŒæŠ¤èˆªæ•°æ®å®‰å…¨ã€‚